Advertisement

中国LLM研究所收集100+AI大模型资源

阅读量:

自ChatGPT为代表的大语言模型 (大型语言模型,LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的法学开源之后,业界涌现了非常多基于法学的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100 + 个!

如果本项目能给您带来一点点帮助,麻烦点个⭐️ 吧 ~

同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起公关、并按照本项目的格式提供仓库链接、明星数、简介等相关信息、感谢 ~

常见底座模型细节概览:

底座 包含模型 模型参数大小 训练令牌数 训练最大长度 是否可商用
ChatGLM ChatGLM/2/3 Base & Chat 6B 1T/1.4 2K/32K 可商用
美洲驼 LLaMA/2/3基地和聊天 7B/8B/13B/33B/70B 1T/2T 2k/4k 部分可商用
百川 百川/2基地 & 聊天 7B/13B 1.2T/1.4T 4k 可商用
Qwen Qwen/1.5 Base & Chat 7B/14B/72B/110B 2.2T/3T 8k/32k 可商用
布卢姆 布卢姆 1B/7B/176B-MT 1.5T 2k 可商用
天鹰座 天鹰座/2基地/聊天 7B/34B - 2k 可商用
InternLM InternLM/2基本/聊天/代码 7B/20B - 200k 可商用
混合 基地和聊天 8x7B - 32k 可商用
彝族 基地和聊天 6B/9B/34B 3T 200k 可商用
DeepSeek 基地和聊天 1.3B/7B/33B/67B - 4k 可商用
XVERSE 基地和聊天 7B/13B/65B/A4.2B 2.6T/3.2T 8k/16k/256k 可商用

目录

1.模型

😝有需要的小伙伴,可以保存图片到wx扫描二v码 免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈

第一阶段 : 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段 : 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段 : 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段 : 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段 : 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段 : 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段 : 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

1.1文本LLM模型
1.2多模态LLM模型

VisualGLM-6B

复制代码
* 地址:[https://github.com/THUDM/ VisualGLM-6B](https://github.com/THUDM/VisualGLM-6B "https://github.com/THUDM/ VisualGLM-6B") 
* 简介:一个开源的,支持图像,中文和英文的多模态对话语言模型,语言模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于CogView数据集的30米高质量中文图文对,与300米经过筛选的英文图文对进行预训练。

CogVLM

复制代码
* 地址:[GitHub - THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型](https://github.com/THUDM/CogVLM "GitHub - THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型") 
* 简介:一个强大的开源视觉语言模型(VLM)。CogVLM-17B拥有100亿视觉参数和70亿语言参数。 CogVLM-17B在10个经典跨模态基准测试上取得了SOTA性能。CogVLM能够准确地描述图像,几乎不会出现幻觉。

粘性

复制代码
* 地址:[GitHub - OpenBMB/VisCPM: [ICLR'24 spotlight] Chinese and English Multimodal Large Model Series (Chat and Paint) | 基于CPM基础模型的中英双语多模态大模型系列](https://github.com/OpenBMB/VisCPM "GitHub - OpenBMB/VisCPM: \[ICLR'24 spotlight\] Chinese and English Multimodal Large Model Series \(Chat and Paint\) | 基于CPM基础模型的中英双语多模态大模型系列") 
* 简介:一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-聊天模型)和文到图生成能力(VisCPM-油漆模型)。基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器(Q-形成器) 和视觉解码器 (扩散-UNet)以支持视觉信号的输入和输出。得益于CPM-蜜蜂基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。

视觉-中国-美洲驼-羊驼

复制代码
* 地址:[https://github.com/airaria/ 视觉-中国-美洲驼-羊驼](https://github.com/airaria/Visual-Chinese-LLaMA-Alpaca "https://github.com/airaria/ 视觉-中国-美洲驼-羊驼") 
* 简介:基于中文美洲驼和羊驼大模型项目开发的多模态中文大模型。VisualCLA在中文美洲驼/羊驼模型上增加了图像编码等模块,使美洲驼模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解,执行和对话能力,目前开源了VisualCLA-7B-v0.1。

LLaSM

复制代码
* 地址:[GitHub - LinkSoul-AI/LLaSM: 第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。](https://github.com/LinkSoul-AI/LLaSM "GitHub - LinkSoul-AI/LLaSM: 第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。") 
* 简介:第一个支持中英文双语语音文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于ASR解决方案的繁琐流程以及可能引入的错误。目前开源了LLaSM-Chinese-Llama-2-7B,LLaSM Baichuan-7B等模型与数据集。

Qwen-VL

复制代码
* 地址:[https://github.com/QwenLM/ qwen-vl](https://github.com/QwenLM/Qwen-VL "https://github.com/QwenLM/ qwen-vl") 
* 简介:是阿里云研发的大规模视觉语言模型、可以以图像、文本、检测框作为输入、并以文本和检测框作为输出。特点包括:强大的性能:在四大类多模态任务的标准英文测评中上均取得同等通用模型大小下最好效果;多语言对话模型:天然支持英文、中文等多语言对话、端到端支持图片里中英双语的长文本识别;多图交错对话:支持多图输入和比较、指定图片问答、多图文学创作等;首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,qwen-vl是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

2.应用

2.1垂直领域微调
医疗

DoctorGLM:

复制代码
* 地址:[GitHub - xionghonglin/DoctorGLM: 基于ChatGLM-6B的中文问诊模型](https://github.com/xionghonglin/DoctorGLM "GitHub - xionghonglin/DoctorGLM: 基于ChatGLM-6B的中文问诊模型") 
* 简介:基于ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora,p-tuningv2等微调及部署

BenTsao:

复制代码
* 地址:[https://github.com /scir-hi/华佗-美洲驼-Med-中文](https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese "https://github.com /scir-hi/华佗-美洲驼-Med-中文") 
* 简介:开源了经过中文医学指令精调/指令微调 (指示调优) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。

比安克:

复制代码
* 地址:[GitHub - scutcyr/BianQue: 中文医疗对话模型扁鹊(BianQue)](https://github.com/scutcyr/BianQue "GitHub - scutcyr/BianQue: 中文医疗对话模型扁鹊\(BianQue\)") 
* 简介:一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于ClueAI/chatyue-live-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。

华图:

复制代码
* 地址:[GitHub - FreedomIntelligence/HuatuoGPT: HuatuoGPT, Towards Taming Language Models To Be a Doctor. (An Open Medical GPT)](https://github.com/FreedomIntelligence/HuatuoGPT "GitHub - FreedomIntelligence/HuatuoGPT: HuatuoGPT, Towards Taming Language Models To Be a Doctor. \(An Open Medical GPT\)") 
* 简介:开源了经过中文医学指令精调/指令微调 (指示-调谐) 的一个类GPT模型

Med-ChatGLM:

复制代码
* 地址:[https://github.com /scir-hi/med-chatglm](https://github.com/SCIR-HI/Med-ChatGLM "https://github.com /scir-hi/med-chatglm") 
* 简介:基于中文医学知识的ChatGLM模型微调,微调数据与BenTsao相同。

奇正普特:

复制代码
* 地址:[GitHub - CMKRG/QiZhenGPT: QiZhenGPT: An Open Source Chinese Medical Large Language Model|一个开源的中文医疗大语言模型](https://github.com/CMKRG/QiZhenGPT "GitHub - CMKRG/QiZhenGPT: QiZhenGPT: An Open Source Chinese Medical Large Language Model|一个开源的中文医疗大语言模型") 
* 简介:该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病,手术,检验等方面的问答效果,并针对医患问答,病历自动生成等应用展开拓展。

聊天:

复制代码
* 地址:[GitHub - michael-wzhu/ChatMed: ChatMed: 中文医疗大模型,善于在线回答患者/用户的日常医疗相关问题!](https://github.com/michael-wzhu/ChatMed "GitHub - michael-wzhu/ChatMed: ChatMed: 中文医疗大模型,善于在线回答患者/用户的日常医疗相关问题!") 
* 简介:该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed_Consult: 基于中文医疗在线问诊数据集ChatMed_Consult_数据集的50w + 在线问诊 + ChatGPT回复作为训练集; Chatmed-tcm: 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法 (以实体为中心的自我指导),调用ChatGPT得到2.6w + 的围绕中医药的指令数据训练得到。

XrayGLM,首个会看胸部X光片的中文多模态医学大模型:

复制代码
* 地址:[GitHub - WangRongsheng/XrayGLM: 🩺 首个会看胸部X光片的中文多模态医学大模型 | The first Chinese Medical Multimodal Model that Chest Radiographs Summarization.](https://github.com/WangRongsheng/XrayGLM "GitHub - WangRongsheng/XrayGLM: 🩺 首个会看胸部X光片的中文多模态医学大模型 | The first Chinese Medical Multimodal Model that Chest Radiographs Summarization.") 
* 简介:该项目为促进中文领域医学多模态大模型的研究发展,发布了XrayGLM数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。

中文心理健康支持对话大模型:

复制代码
* 地址:[GitHub - qiuhuachuan/smile: SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support](https://github.com/qiuhuachuan/smile "GitHub - qiuhuachuan/smile: SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support") 
* 简介:该项目开源的中文心理健康支持通用模型由ChatGLM-6B LoRA 16位指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。

MedicalGPT

复制代码
* 地址:[GitHub - shibing624/MedicalGPT: MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。](https://github.com/shibing624/MedicalGPT "GitHub - shibing624/MedicalGPT: MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练\(PT\)、有监督微调\(SFT\)、RLHF、DPO、ORPO。") 
* 简介:训练医疗大模型,实现包括二次预训练,有监督微调,奖励建模,强化学习训练。发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora,基于Ziya-LLaMA-13B-v1模型,SFT微调了一版医疗模型,医疗问答效果有提升,发布微调后的LoRA权重。

孙思庙

复制代码
* 地址:[GitHub - X-D-Lab/Sunsimiao: 🌿孙思邈中文医疗大模型(Sunsimiao):提供安全、可靠、普惠的中文医疗大模型](https://github.com/thomas-yanxin/Sunsimiao "GitHub - X-D-Lab/Sunsimiao: 🌿孙思邈中文医疗大模型\(Sunsimiao\):提供安全、可靠、普惠的中文医疗大模型") 
* 简介:Sunsimiao是一个开源的中文医疗大模型,该模型基于baichuan-7B和ChatGLM-6B底座模型在十万级高质量的中文医疗数据中微调而得。

神农-中医-法学硕士

复制代码
* 地址:[https://github.com/michael-wzhu/神农-tcm-llm](https://github.com/michael-wzhu/ShenNong-TCM-LLM "https://github.com/michael-wzhu/神农-tcm-llm") 
* 简介:该项目开源了神农中医药大规模语言模型,该模型以美洲驼为底座,采用LoRA (等级 = 16)微调得到。微调代码与聊天代码库相同。此外该项目还开源了中医药指令微调数据集。

SoulChat

复制代码
* 地址:[GitHub - scutcyr/SoulChat: 中文领域心理健康对话大模型SoulChat](https://github.com/scutcyr/SoulChat "GitHub - scutcyr/SoulChat: 中文领域心理健康对话大模型SoulChat") 
* 简介:该项目开源了经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心(SoulChat),该模型以ChatGLM-6B作为初始化模型,进行了全量参数的指令微调。

CareGPT

复制代码
* 地址:[GitHub - WangRongsheng/CareGPT: 🌞 CareGPT (关怀GPT)是一个医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练、测评、部署等以促进医疗LLM快速发展。Medical LLM, Open Source Driven for a Healthy Future.](https://github.com/WangRongsheng/CareGPT "GitHub - WangRongsheng/CareGPT: 🌞 CareGPT \(关怀GPT\)是一个医疗大语言模型,同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练、测评、部署等以促进医疗LLM快速发展。Medical LLM, Open Source Driven for a Healthy Future.") 
* 简介:该项目开源了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练,测评,部署等以促进医疗LLM快速发展。

圆盘-MedLLM

复制代码
* 地址:[https://github.com/FudanDISC/ 圆盘-MedLLM](https://github.com/FudanDISC/DISC-MedLLM "https://github.com/FudanDISC/ 圆盘-MedLLM") 
* 简介:该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由DISC-med-sft数据集基于Baichuan-13B-Base指令微调得到。

Taiyi-LLM

复制代码
* 地址:[GitHub - DUTIR-BioNLP/Taiyi-LLM: Biomedical LLM, A Bilingual (Chinese and English) Fine-Tuned Large Language Model for Diverse Biomedical Tasks](https://github.com/DUTIR-BioNLP/Taiyi-LLM "GitHub - DUTIR-BioNLP/Taiyi-LLM: Biomedical LLM, A Bilingual \(Chinese and English\) Fine-Tuned Large Language Model for Diverse Biomedical Tasks") 
* 简介:该项目由大连理工大学信息检索研究室开发的中英双语医学大模型 “太一”,收集整理了丰富的中英双语生物医学自然语言处理(BioNLP)训练语料,总共包含38个中文数据集,通过丰富的中英双语任务指令数据(超过100w条样本)进行大模型(Qwen-7B-base)指令微调,使模型具备了出色的中英双语生物医学智能问答,医患对话,报告生成,信息抽取,机器翻译,标题生成、文本分类等多种BioNLP能力。

WiNGPT

复制代码
* 地址:[https://github.com/winninghealth/ WiNGPT2](https://github.com/winninghealth/WiNGPT2 "https://github.com/winninghealth/ WiNGPT2") 
* 简介:WiNGPT是一个基于GPT的医疗垂直领域大模型,基于Qwen-7b1作为基础预训练模型,在此技术上进行了继续预训练,指令微调等,该项目具体开源了WiNGPT2-7B-基础与WiNGPT2-7B-聊天模型。

谐音-GPT

复制代码
* 地址:[https://github.com/synlp/ 谐音-GPT](https://github.com/synlp/ChiMed-GPT "https://github.com/synlp/ 谐音-GPT") 
* 简介: chimed-gpt是一个开源中文医学大语言模型,通过在中文医学数据上持续训练Ziya-v2构建而成,其中涵盖了预训练,有监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 等训练过程。

MindChat

复制代码
* 地址:[https://github.com /x-d-lab/MindChat](https://github.com/X-D-Lab/MindChat "https://github.com /x-d-lab/MindChat") 
* 简介:心理大模型 -- 漫谈(MindChat)期望从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑、为用户提供隐私、温暖、安全、及时、方便的对话环境、从而帮助用户克服各种困难和挑战、实现自我成长和发展。MindChat是一个基于Qwen作为基础预训练模型,并在此基础上进行指令微调得到的心理垂域大模型。
法律

獬豸(LawGPT_zh): 中文法律对话语言模型

复制代码
* 地址:[https://github.com/LiuHC0428/law-gpt](https://github.com/LiuHC0428/LAW-GPT "https://github.com/LiuHC0428/law-gpt") 
* 简介: 本项目开源的中文法律通用模型由ChatGLM-6B LoRA 16位指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的自指示构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。

LaWGPT:基于中文法律知识的大语言模型

复制代码
* 地址:[GitHub - pengxiao-song/LaWGPT: 🎉 Repo for LaWGPT, Chinese-Llama tuned with Chinese Legal knowledge. 基于中文法律知识的大语言模型](https://github.com/pengxiao-song/LaWGPT "GitHub - pengxiao-song/LaWGPT: 🎉 Repo for LaWGPT, Chinese-Llama tuned with Chinese Legal knowledge. 基于中文法律知识的大语言模型") 
* 简介:该系列模型在通用中文基座模型(如美洲驼、ChatGLM等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练、增强了大模型在法律领域的基础语义理解能力。在此基础上、构造法律领域对话问答数据集、中国司法考试数据集进行指令精调、提升了模型对法律内容的理解和执行能力。

LexiLaw:中文法律大模型

复制代码
* 地址:[GitHub - CSHaitao/LexiLaw: LexiLaw - 中文法律大模型](https://github.com/CSHaitao/LexiLaw "GitHub - CSHaitao/LexiLaw: LexiLaw - 中文法律大模型") 
* 简介:LexiLaw是一个基于ChatGLM-6B微调的中文法律大模型,通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务、包括具体法律问题的咨询、还是对法律条款、案例解析、法规解读等方面的查询。

律师LLaMA:中文法律LLaMA

复制代码
* 地址:[https://github.com/AndrewZhe/ 律师-llama](https://github.com/AndrewZhe/lawyer-llama "https://github.com/AndrewZhe/ 律师-llama") 
* 简介:开源了一系列法律领域的指令微调数据和基于美洲驼训练的中文法律大模型的参数。律师美洲驼首先在大规模法律语料上进行了持续的预培训。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。

韩非 (韩菲)

复制代码
* 地址:[https://github.com/siat-nlp/汉飞](https://github.com/siat-nlp/HanFei "https://github.com/siat-nlp/汉飞") 
* 简介: HanFei-1.0(韩非)是国内首个全参数训练的法律大模型,参数量7b,主要功能包括:法律问答、多轮对话、撰写文章、检索等。

ChatLaw-法律大模型

复制代码
* 地址:[https://github.com /pku-yuangroup/ChatLaw](https://github.com/PKU-YuanGroup/ChatLaw "https://github.com /pku-yuangroup/ChatLaw") 
* 简介:由北大开源的一系列法律领域的大模型,包括ChatLaw-13B(基于姜子牙Ziya-LLaMA-13B-v1训练而来),ChatLaw-33B(基于Anima-33B训练而来,逻辑推理能力大幅提升),ChatLaw-Text2Vec,使用93w条判决案例做成的数据集基于伯特训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。

lychee_law-律知

复制代码
* 地址:[https://github.com/davidpig/ lychee_law](https://github.com/davidpig/lychee_law "https://github.com/davidpig/ lychee_law") 
* 简介:该项目由德国萨尔大学团队和中国南京大学团队合作开发,开源一系列中文司法领域大模型,如Law-GLM-10B: 基于GLM-10B模型,在30GB中文法律数据上进行指令微调得到的。

智海-录问 (智慧询问)

复制代码
* 地址:[GitHub - zhihaiLLM/wisdomInterrogatory](https://github.com/zhihaiLLM/wisdomInterrogatory "GitHub - zhihaiLLM/wisdomInterrogatory") 
* 简介:该项目由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型、基于baichuan-7b进行了法律领域数据的二次预训练与指令微调、并设计了知识增强的推理流程。

夫子 • 明察司法大模型

复制代码
* 地址:[GitHub - irlab-sdu/fuzi.mingcha: 夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料与有监督司法微调数据训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。](https://github.com/irlab-sdu/fuzi.mingcha "GitHub - irlab-sdu/fuzi.mingcha: 夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料与有监督司法微调数据训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。") 
* 简介:该项目由是由山东大学、浪潮云、中国政法大学联合研发、以聊天为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能。

DISC-LawLLM

复制代码
* 地址:[https://github.com/FudanDISC/ 光盘-LawLLM](https://github.com/FudanDISC/DISC-LawLLM "https://github.com/FudanDISC/ 光盘-LawLLM") 
* 简介:该项目由由复旦大学数据智能与社会计算实验室 (复旦-DISC) 开发并开源的法律领域大模型,包括数据集,基于Baichuan-13B-Base进行微调的模型,且增加了检索增强模块。
金融

聚宝盆 (聚宝盆):基于中文金融知识的美洲驼微调模型

复制代码
* 地址:[https://github.com/jerry1993-tech/聚宝盆-美洲驼-Fin-中文](https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese "https://github.com/jerry1993-tech/聚宝盆-美洲驼-Fin-中文") 
* 简介:开源了经过中文金融知识指令精调/指令微调 (指示-调优) 的LLaMA-7B模型。通过中文金融公开数据 + 爬取的金融数据构建指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在金融领域的问答效果。基于相同的数据,后期还会利用GPT3.5 API构建高质量的数据集,另在中文知识图谱-金融上进一步扩充高质量的指令数据集。

BBT-FinCUGE-应用程序

复制代码
* 地址:[https://github.com/ssymmetry/ BBT-FinCUGE-应用](https://github.com/ssymmetry/BBT-FinCUGE-Applications "https://github.com/ssymmetry/ BBT-FinCUGE-应用") 
* 简介:开源了中文金融领域开源语料库BBT-fincorp,中文金融领域知识增强型预训练语言模型BBT-FinT5及中文金融领域自然语言处理评测基准CFLEB。

轩辕 (轩辕):首个千亿级中文金融对话模型

复制代码
* 地址:[https://github.com /杜小曼地/轩辕](https://github.com/Duxiaoman-DI/XuanYuan "https://github.com /杜小曼地/轩辕") 
* 简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确,全面的金融信息和建议。

手指

复制代码
* 地址:[GitHub - AI4Finance-Foundation/FinGPT: FinGPT: Open-Source Financial Large Language Models! Revolutionize 🔥 We release the trained model on HuggingFace.](https://github.com/AI4Finance-Foundation/FinGPT "GitHub - AI4Finance-Foundation/FinGPT: FinGPT: Open-Source Financial Large Language Models!  Revolutionize 🔥    We release the trained model on HuggingFace.") 
* 简介:该项目开源了多个金融大模型、包括ChatGLM-6B/ChatGLM2-6B + LoRA和LLaMA-7B + LoRA的金融大模型、收集了包括金融新闻、社交媒体、财报等中英文训练数据。

圆盘-FinLLM

复制代码
* 地址:[https://github.com/FudanDISC/ 圆盘-FinLLM](https://github.com/FudanDISC/DISC-FinLLM "https://github.com/FudanDISC/ 圆盘-FinLLM") 
* 简介:该项目由复旦大学数据智能与社会计算实验室 (复旦-光盘) 开发并开源,项目中开源的资源包括: 光盘-FinLLM-SFT训练数据样本,光盘-FinLLM模型参数(基于Baichuan-13B-聊天训练),光盘-鳍-Eval-基准等。

同益-金融

复制代码
* 地址:[https:// modelscope.cn/models/TongyiFinance/ Tongyi-Finance-14B](https://modelscope.cn/models/TongyiFinance/Tongyi-Finance-14B "https:// modelscope.cn/models/TongyiFinance/ Tongyi-Finance-14B")
* 简介:该模型是针对对金融行业推出的大语言模型、基于通义千问基础模型进行行业语料增量学习、强化金融领域知识和场景应用能力、覆盖金融知识问答、文本分类、信息抽取、文本创作、阅读理解、逻辑推理、多模态、编码等能力象限。具有以下特点:行业语料增量学习:使用200B高质量金融行业语料进行增量学习,并进行金融行业词表扩展,覆盖丰富的数据类型,支持更大上下文(16k)输入和完整的语义表达。行业能力强化:自研SFT质量和多样性分析工具,筛选高质量SFT数据,解决大语言模型的对齐问题。行业后链路优化:借助多agent框架,实现知识库增强和工具API调用。
教育

桃李 (桃李):

复制代码
* 地址:[GitHub - blcuicall/taoli: "桃李“: 国际中文教育大模型](https://github.com/blcuicall/taoli "GitHub - blcuicall/taoli: "桃李“: 国际中文教育大模型") 
* 简介:一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等、构建了国际中文教育资源库、构造了共计88000条的高质量国际中文教育问答数据集、并利用收集到的数据对模型进行指令微调、让模型习得将知识应用到具体场景中的能力。

EduChat:

复制代码
* 地址:[GitHub - ECNU-ICALK/EduChat: An open-source educational chat model from ICALK, East China Normal University. 开源中英教育对话大模型。(通用基座模型,GPU部署,数据清理) 致敬: LLaMA, MOSS, BELLE, Ziya, vLLM](https://github.com/icalk-nlp/EduChat "GitHub - ECNU-ICALK/EduChat: An open-source educational chat model from ICALK, East China Normal University. 开源中英教育对话大模型。\(通用基座模型,GPU部署,数据清理\) 致敬: LLaMA, MOSS, BELLE, Ziya, vLLM") 
* 简介:该项目华东师范大学计算机科学与技术学院的EduNLP团队研发,主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调,价值观对齐等方法,提供教育场景下自动出题,作业批改,情感支持,课程辅导,高考咨询等丰富功能,服务于广大老师,学生和家长群体,助力实现因材施教,公平公正,富有温度的智能教育。

chatglm-数学:

复制代码
* 地址:[https://github.com/yongzhuo/ chatglm-数学](https://github.com/yongzhuo/chatglm-maths "https://github.com/yongzhuo/ chatglm-数学") 
* 简介:基于chatglm-6b微调/LORA/PPO/推理的数学题解题大模型,样本为自动生成的整数/小数加减乘除运算,可gpu/cpu部署,开源了训练数据集等。

MathGLM:

复制代码
* 地址:[GitHub - THUDM/MathGLM: Official Pytorch Implementation for MathGLM](https://github.com/THUDM/MathGLM "GitHub - THUDM/MathGLM: Official Pytorch Implementation for MathGLM") 
* 简介:该项目由THUDM研发,同时开源了可用于算术运算微调的数据集开源了多个能进行20亿参数可以进行准确多位算术运算的语言模型。

巧板:

复制代码
* 地址:[https://github.com /hit-scir-sc/QiaoBan](https://github.com/HIT-SCIR-SC/QiaoBan "https://github.com /hit-scir-sc/QiaoBan") 
* 简介:该项目旨在构建一个面向儿童情感陪伴的大模型,这个仓库包含:用于指令微调的对话数据/数据,巧板的训练代码,训练配置文件,使用巧板进行对话的示例代码(TODO,检查点将发布至huggingface)。
科技

天文大语言模型StarGLM:

复制代码
* 地址:[https://github.com /yu-yang-li/StarGLM](https://github.com/Yu-Yang-Li/StarGLM "https://github.com /yu-yang-li/StarGLM") 
* 简介:基于聊天训练了天文大语言模型、以期缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象、为接下来可处理天文多模态任务、部署于望远镜阵列的观测代理 -- 司天大脑(数据智能处理)打下基础。

致远:

复制代码
* 地址:[GitHub - DUOMO/TransGPT](https://github.com/DUOMO/TransGPT "GitHub - DUOMO/TransGPT") 
* 简介:开源交通大模型、主要致力于在真实交通行业中发挥实际价值、它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。

墨子:

复制代码
* 地址:[https://github.com/gmftbyGMFTBY/ 科学-llm](https://github.com/gmftbyGMFTBY/science-llm "https://github.com/gmftbyGMFTBY/ 科学-llm") 
* 简介:该项目开源了基于美洲驼和可以用于科技文献的问答和情感支持百川的科技论文大模型。
电商
  • EcomGPT
    • 地址:https://github.com /阿里巴巴-NLP/EcomGPT
    • 简介:一个由阿里发布的面向电商领域的语言模型,该模型基于布卢姆兹在电商指令微调数据集上微调得到,人工评估在12个电商评测数据集上超过查特。
网络安全
农业
  • 后稷 (阿格里马):
    • 地址:GitHub - zhiweihu1103/AgriMa: 后稷-首个开源中文农业大模型
    • 简介:首个中文开源农业大模型是由山西大学、山西农业大学与Fin AI联合研发,以百川为底座、基于海量有监督农业领域相关数据微调、具备广泛的农业知识和智能分析能力、该模型旨在为农业领域提供全面而高效的信息处理和决策支持。
  • 稷丰(AgriAgent):
    • 地址:GitHub - zhiweihu1103/AgriAgent: 稷丰-首个开源中文农业多模态大模型
    • 简介:首个开源中文农业多模态大模型是由山西农业大学研发,以MiniCPM-Llama3-V 2.5为底座、能够从图像、文本、气象数据等多源信息中提取有用信息、为农业生产提供全面、精准的智能化解决方案。我们致力于将稷丰应用于作物健康监测、病虫害识别、土壤肥力分析、农田管理优化等多个方面、帮助农民提升生产效率、减少资源浪费、促进农业的可持续发展。
2.2 LangChain应用

langchain-ChatGLM:

复制代码
* 地址:[https://github.com/imClumsyPanda/ langchain-ChatGLM](https://github.com/imClumsyPanda/langchain-ChatGLM "https://github.com/imClumsyPanda/ langchain-ChatGLM") 
* 简介:基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好,可离线运行的知识库问答解决方案。建立了全流程可使用开源模型实现的本地知识库问答应用。现已支持使用ChatGLM-6B等大语言模型直接接入,或通过fastchat api形式接入骆马,羊驼,美洲驼,考拉,RWKV等模型。

LangChain-ChatGLM-Webui:

复制代码
* 地址:[GitHub - X-D-Lab/LangChain-ChatGLM-Webui: 基于LangChain和ChatGLM-6B等系列LLM的针对本地知识库的自动问答](https://github.com/thomas-yanxin/LangChain-ChatGLM-Webui "GitHub - X-D-Lab/LangChain-ChatGLM-Webui: 基于LangChain和ChatGLM-6B等系列LLM的针对本地知识库的自动问答") 
* 简介:利用LangChain和ChatGLM-6B系列模型制作的Webui,提供基于本地知识的大模型应用。目前支持上传txt、docx、md、pdf等文本格式文件,提供包括ChatGLM-6B系列、百丽系列等模型文件以及GanymedeNil/text2vec-large-chinese、nghuyong/ernie-3.0-base-zh、nghuyong/ernie-3.0-nano等嵌入模型。

Langchain-ChatGLM-and-TigerBot:

复制代码
* 地址:[https://github.com/wordweb/ langchain-chatglm-and-TigerBot](https://github.com/wordweb/langchain-ChatGLM-and-TigerBot "https://github.com/wordweb/ langchain-chatglm-and-TigerBot") 
* 简介:该项目在langchain-ChatGLM的基础上补充了加载TigerBot模型的基于本地知识库的问答应用。

中文-LangChain:

复制代码
* 地址:[https://github.com/yanqiangmiffy/ 中文-LangChain](https://github.com/yanqiangmiffy/Chinese-LangChain "https://github.com/yanqiangmiffy/ 中文-LangChain") 
* 简介:基于ChatGLM-6b + langchain实现本地化知识库检索与智能答案生成(包括互联网检索结果接入)

Lagent:

复制代码
* 地址:[GitHub - InternLM/lagent: A lightweight framework for building LLM-based agents](https://github.com/InternLM/lagent "GitHub - InternLM/lagent: A lightweight framework for building LLM-based agents") 
* 简介: 代理是一个轻量级、开源的基于大语言模型的智能体 (代理) 框架、支持用户快速地将一个大语言模型转变为多种类型的智能体。具体实现了多种类型的智能体,如经典的反应,AutoGPT和ReWoo等智能体。框架简单易拓展。只需要不到20行代码你就能够创造出一个你自己的智能体 (代理)。同时支持了Python解释器、API调用和搜索三类常用典型工具。灵活支持多个大语言模型。提供了多种大语言模型支持包括InternLM、Llama-2等开源模型和GPT-4/3.5等基于API的闭源模型。

DemoGPT:

复制代码
* 地址:[GitHub - melih-unsal/DemoGPT: Create 🦜️🔗 LangChain apps by just using prompts🌟 Star to support our work! | 只需使用句子即可创建 LangChain 应用程序。 给个star支持我们的工作吧!](https://github.com/melih-unsal/DemoGPT "GitHub - melih-unsal/DemoGPT: Create 🦜️🔗 LangChain apps by just using prompts🌟 Star to support our work! | 只需使用句子即可创建 LangChain 应用程序。 给个star支持我们的工作吧!") 
* 简介:⚡DemoGPT使您只需使用提示即可创建快速演示。⚡

ChatDev:

复制代码
* 地址:[GitHub - OpenBMB/ChatDev: Create Customized Software using Natural Language Idea (through LLM-powered Multi-Agent Collaboration)](https://github.com/OpenBMB/ChatDev "GitHub - OpenBMB/ChatDev: Create Customized Software using Natural Language Idea \(through LLM-powered Multi-Agent Collaboration\)") 
* 简介:ChatDev是一家虚拟软件公司,通过担任不同角色的各种智能代理进行运营,包括首席执行官,首席技术官,程序员,测试员等。 这些代理形成了一个多代理组织结构,并因 “通过编程彻底改变数字世界” 的使命而团结在一起。 ChatDev中的代理通过参加专门的功能研讨会进行协作,包括设计,编码,测试和记录等任务。
2.3其他应用

文达:

复制代码
* 地址:[GitHub - wenda-LLM/wenda: 闻达:一个LLM调用平台。目标为针对特定环境的高效内容生成,同时考虑个人和中小企业的计算资源局限性,以及知识安全和私密性问题](https://github.com/wenda-LLM/wenda "GitHub - wenda-LLM/wenda: 闻达:一个LLM调用平台。目标为针对特定环境的高效内容生成,同时考虑个人和中小企业的计算资源局限性,以及知识安全和私密性问题") 
* 简介:一个LLM调用平台。为小模型外挂知识库查找和设计自动执行动作,实现不亚于于大模型的生成能力。

JittorLLMs:

复制代码
* 地址:[GitHub - Jittor/JittorLLMs: 计图大模型推理库,具有高性能、配置要求低、中文支持好、可移植等特点](https://github.com/Jittor/JittorLLMs "GitHub - Jittor/JittorLLMs: 计图大模型推理库,具有高性能、配置要求低、中文支持好、可移植等特点") 
* 简介:计图大模型推理库:笔记本没有显卡也能跑大模型,具有成本低,支持广,可移植,速度快等优势。

LMFlow:

复制代码
* 地址:[GitHub - OptimalScale/LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models. Large Models for All.](https://github.com/OptimalScale/LMFlow "GitHub - OptimalScale/LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models. Large Models for All.") 
* 简介:LMFlow是香港科技大学LMFlow团队开发的大模型微调工具箱。LMFlow工具箱具有可扩展性强、高效、方便的特性。LMFlow仅使用180k条数据微调,即可得到在hugingface榜单第一名的Robin模型。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。

fastllm:

复制代码
* 地址:[GitHub - ztxz16/fastllm: 纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行](https://github.com/ztxz16/fastllm "GitHub - ztxz16/fastllm: 纯c++的全平台llm加速库,支持python调用,chatglm-6B级模型单卡可达10000+token / s,支持glm, llama, moss基座,手机端流畅运行") 
* 简介:纯c ++ 的全平台llm加速库,chatglm-6B级模型单卡可达10000 + token / s,支持moss,chatglm,百川模型,手机端流畅运行。

WebCPM

复制代码
* 地址:[GitHub - thunlp/WebCPM: Official codes for ACL 2023 paper "WebCPM: Interactive Web Search for Chinese Long-form Question Answering"](https://github.com/thunlp/WebCPM "GitHub - thunlp/WebCPM: Official codes for ACL 2023 paper "WebCPM: Interactive Web Search for Chinese Long-form Question Answering"") 
* 简介:一个支持可交互网页搜索的中文大模型。

GPT学术:

复制代码
* 地址:[https://github.com /二进制-哈士奇/gpt_academic](https://github.com/binary-husky/gpt_academic "https://github.com /二进制-哈士奇/gpt_academic") 
* 简介:为GPT/GLM提供图形交互界面,特别优化论文阅读润色体验,支持并行问询多种LLM模型,支持清华chatglm等本地模型。兼容复旦MOSS,llama,rwkv,盘古等。

ChatALL:

复制代码
* 地址:[GitHub - sunner/ChatALL: Concurrently chat with ChatGPT, Bing Chat, Bard, Alpaca, Vicuna, Claude, ChatGLM, MOSS, 讯飞星火, 文心一言 and more, discover the best answers](https://github.com/sunner/ChatALL "GitHub - sunner/ChatALL: Concurrently chat with ChatGPT, Bing Chat, Bard, Alpaca, Vicuna, Claude, ChatGLM, MOSS, 讯飞星火, 文心一言 and more, discover the best answers") 
* 简介:ChatALL(中文名:齐叨)可以把一条指令同时发给多个AI,可以帮助用户发现最好的回答。

CreativeChatGLM:

复制代码
* 地址:[GitHub - ypwhs/CreativeChatGLM: 👋 欢迎来到 ChatGLM 创意世界!你可以使用修订和续写的功能来生成创意内容!](https://github.com/ypwhs/CreativeChatGLM "GitHub - ypwhs/CreativeChatGLM: 👋 欢迎来到 ChatGLM 创意世界!你可以使用修订和续写的功能来生成创意内容!") 
* 简介:可以使用修订和续写的功能来生成创意内容,可以使用 “续写” 按钮帮ChatGLM想一个开头,并让它继续生成更多的内容,你可以使用 “修订” 按钮修改最后一句ChatGLM的回复。

docker-llama2-chat:

复制代码
* 地址:[https://github.com/soulteary/ docker-llama2-chat](https://github.com/soulteary/docker-llama2-chat "https://github.com/soulteary/ docker-llama2-chat") 
* 简介:开源了一个只需要三步就可以上手LLaMA2的快速部署方案。

ChatGLM2-Voice-Cloning:

复制代码
* 地址:[GitHub - KevinWang676/ChatGLM2-Voice-Cloning: Chat with any character you like: ChatGLM2+SadTalker+Voice Cloning | 和喜欢的角色沉浸式对话吧:ChatGLM2+声音克隆+视频对话](https://github.com/KevinWang676/ChatGLM2-Voice-Cloning "GitHub - KevinWang676/ChatGLM2-Voice-Cloning: Chat with any character you like: ChatGLM2+SadTalker+Voice Cloning | 和喜欢的角色沉浸式对话吧:ChatGLM2+声音克隆+视频对话") 
* 简介:实现了一个可以和喜欢的角色沉浸式对话的应用,主要采用ChatGLM2 + 声音克隆 + 视频对话的技术。

Flappy

复制代码
* 地址:[GitHub - pleisto/flappy: Production-Ready LLM Agent SDK for Every Developer](https://github.com/pleisto/flappy "GitHub - pleisto/flappy: Production-Ready LLM Agent SDK for Every Developer") 
* 简介:一个产品级面向所有程序员的LLM SDK,

LazyLLM

复制代码
* 地址:[GitHub - LazyAGI/LazyLLM: Easyest and lazyest way for building multi-agent LLMs applications.](https://github.com/LazyAGI/LazyLLM "GitHub - LazyAGI/LazyLLM: Easyest and lazyest way for  building multi-agent LLMs applications.") 
* 简介:LazyLLM是一款低代码构建多代理大模型应用的开发工具,协助开发者用极低的成本构建复杂的AI应用,并可以持续的迭代优化效果。LazyLLM提供了更为灵活的应用功能定制方式,并实现了一套轻量级网管机制来支持一键部署多代理应用,支持流式输出,兼容多个Iaas平台,且支持对应用中的模型进行持续微调。

MemFree

复制代码
* 地址:[GitHub - memfreeme/memfree: MemFree - Hybrid AI Search Engine](https://github.com/memfreeme/memfree "GitHub - memfreeme/memfree: MemFree - Hybrid AI Search Engine") 
* 简介:MemFree是一个开源的混合人工智能搜索引擎,可以同时对您的个人知识库(如书签、笔记、文档等)和互联网进行搜索,为你提供最佳答案。MemFree支持自托管的极速无服务器向量数据库,支持自托管的极速本地嵌入和Rerank服务,支持一键部署。

3.数据集

预训练数据集

MNBVC

复制代码
* 地址:[GitHub - esbatmop/MNBVC: MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。](https://github.com/esbatmop/MNBVC "GitHub - esbatmop/MNBVC: MNBVC\(Massive Never-ending BT Vast Chinese corpus\)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。") 
* 数据集说明:超大规模中文语料集,不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集,且在持续更新中。

WuDaoCorporaText

复制代码
* 地址:[https:// data.baai.ac.cn/details/WuDaoCorporaText](https://data.baai.ac.cn/details/WuDaoCorporaText "https:// data.baai.ac.cn/details/WuDaoCorporaText")
* 数据集说明: 乌达是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集、用于支撑大模型训练研究、目前由文本、对话、图文对、视频文本对四部分组成、分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联、为大模型训练提供坚实的数据支撑。

CLUECorpus2020

复制代码
* 地址:[https://github.com/CLUEbenchmark/ CLUECorpus2020](https://github.com/CLUEbenchmark/CLUECorpus2020 "https://github.com/CLUEbenchmark/ CLUECorpus2020") 
* 数据集说明:通过对常见的抓取的中文部分进行语料清洗,最终得到100gb的高质量中文预训练语料、可直接用于预训练、语言模型或语言生成任务以及专用于简体中文NLP任务的小词表。

WanJuan-1.0

复制代码
* 地址:[OpenDataLab 引领AI大模型时代的开放数据平台](https://opendatalab.org.cn/WanJuan1.0 "OpenDataLab  引领AI大模型时代的开放数据平台")
* 数据集说明:书生·万卷1.0为书生·万卷多模态语料库的首个开源版本、包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。 目前,书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的 “消化” 、书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。

seq-monkey-data

地址:https://github.com/mobvoi/ seq-monkey-data

数据集说明:序列猴子是出门问问提供的超大规模语言模型,基于其通用的表示与推理能力,支持多轮交互,能够大幅度提高生产效率和数据处理能力,被广泛应用于问答系统,自然语言处理,机器翻译,文本摘要等领域。序列猴子数据集是用于训练序列猴子模型的数据集合,现选择部分数据集向公众开放。

SFT数据集

RefGPT:基于RefGPT生成大量真实和定制的对话数据集

复制代码
* 地址:[https://github.com/DA-南安普敦/RedGPT](https://github.com/DA-southampton/RedGPT "https://github.com/DA-南安普敦/RedGPT") 
* 数据集说明:包括refgpt-fact和refgpt-code两部分,其中refgpt-fact给出了5万中文的关于事实性知识的多轮对话,refgpt-code给出了3.9万中文编程相关的多轮对话数据。

COIG

复制代码
* 地址:[https:// huggingface.co/datasets/BAAI/COIG](https://huggingface.co/datasets/BAAI/COIG "https:// huggingface.co/datasets/BAAI/COIG")
* 数据集说明:维护了一套无害、有用且多样化的中文指令语料库、包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个leetcode指令语料库。

generated_chat_0.4M:

复制代码
* 地址:[https:// huggingface.co/datasets/BelleGroup/generated_chat_0.4M](https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M "https:// huggingface.co/datasets/BelleGroup/generated_chat_0.4M")
* 数据集说明:包含约40万条由BELLE项目生成的个性化角色对话数据,包含角色介绍。但此数据集是由ChatGPT产生的,未经过严格校验,题目或解题过程可能包含错误。

alpaca_chinese_dataset:

复制代码
* 地址:[https://github.com/hikariming/ alpaca_chinese_dataset](https://github.com/hikariming/alpaca_chinese_dataset "https://github.com/hikariming/ alpaca_chinese_dataset") 
* 数据集说明:根据斯坦福开源的羊驼数据集进行中文翻译,并再制造一些对话数据

羊驼床:

复制代码
* 地址:[https://github.com/PhoebusSi/ 羊驼-CoT](https://github.com/PhoebusSi/Alpaca-CoT "https://github.com/PhoebusSi/ 羊驼-CoT") 
* 数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充),多种训练效率方法(如lora,p调谐) 以及多种LLMs,三个层面上的接口,打造方便研究人员上手的llm-ift研究平台。

pCLUE:

复制代码
* 地址:[GitHub - CLUEbenchmark/pCLUE: pCLUE: 1000000+多任务提示学习数据集](https://github.com/CLUEbenchmark/pCLUE "GitHub - CLUEbenchmark/pCLUE: pCLUE: 1000000+多任务提示学习数据集") 
* 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个提示,9个任务。

firefly-train-1.1M:

复制代码
* 地址:[https:// huggingface.co/datasets/YeungNLP/firefly-train-1.1M](https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M "https:// huggingface.co/datasets/YeungNLP/firefly-train-1.1M")
* 数据集说明:23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万

BELLE-data-1.5M:

复制代码
* 地址:[BELLE/data/1.5M at main · LianjiaTech/BELLE · GitHub](https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M "BELLE/data/1.5M at main · LianjiaTech/BELLE · GitHub") 
* 数据集说明:通过自我指导生成,使用了中文种子任务,以及openai的文本davinci-003接口,涉及175个种子任务

中国科学文献数据集:

复制代码
* 地址:[GitHub - ydli-ai/CSL: [COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集](https://github.com/ydli-ai/csl "GitHub - ydli-ai/CSL: \[COLING 2022\] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集") 
* 数据集说明:中文科学文献数据集(CSL),包含396,209篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)以及简单的提示

中医对话数据:

复制代码
* 地址:[https://github.com/Toyhom/ 中医-医学-对话-数据](https://github.com/Toyhom/Chinese-medical-dialogue-data "https://github.com/Toyhom/ 中医-医学-对话-数据") 
* 数据集说明:中文医疗对话数据集,包括:<Andriatria男科> 94596个问答对 <内科> 220606个问答对 <OAGD妇产科> 183751个问答对 <肿瘤学肿瘤科> 75553个问答对 <儿科儿科> 101602个问答对 <外科外科> 115991个问答对总计792099个问答对。

Huatuo-26M:

复制代码
* 地址:[https://github.com/FreedomIntelligence/ Huatuo-26M](https://github.com/FreedomIntelligence/Huatuo-26M "https://github.com/FreedomIntelligence/ Huatuo-26M") 
* 数据集说明:Huatuo-26M是一个中文医疗问答数据集,此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病,症状,治疗方式,药品信息等多个方面。Huatuo-26M是研究人员,开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人,智能诊断系统等需要的重要资源。

Alpaca-GPT-4:

复制代码
* 地址:[GitHub - Instruction-Tuning-with-GPT-4/GPT-4-LLM: Instruction Tuning with GPT-4](https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM "GitHub - Instruction-Tuning-with-GPT-4/GPT-4-LLM: Instruction Tuning with GPT-4") 
* 数据集说明:Alpaca-GPT-4是一个使用自学技术,基于175条中文种子任务和GPT-4接口生成的50k的指令微调数据集。

说明野生

复制代码
* 地址:[GitHub - XueFuzhao/InstructionWild](https://github.com/XueFuzhao/InstructionWild "GitHub - XueFuzhao/InstructionWild") 
* 数据集说明:InstructionWild是一个从网络上收集自然指令并过滤之后使用自然指令结合ChatGPT接口生成指令微调数据集的项目。主要的指令来源:Twitter、CookUp.AI、Github和丢弃。

共享聊天

复制代码
* 地址:[https:// paratranz.cn/projects/ 6725](https://paratranz.cn/projects/6725 "https:// paratranz.cn/projects/ 6725")
* 数据集说明:一个倡议大家一起翻译高质量ShareGPT数据的项目。
* 项目介绍:清洗/构造/翻译中文的聊天数据,推进国内AI的发展,人人可炼优质中文聊天模型。本数据集为ChatGPT约九万个对话数据,由ShareGPT API获得(英文68000,中文11000条,其他各国语言)。项目所有数据最终将以CC0协议并入多语言共享GPT语料库。

瓜纳科

复制代码
* 地址:[https:// huggingface.co/datasets/JosephusCheung/GuanacoDataset](https://huggingface.co/datasets/JosephusCheung/GuanacoDataset "https:// huggingface.co/datasets/JosephusCheung/GuanacoDataset")
* 数据集说明:一个使用自我指导的主要包含中日英德的多语言指令微调数据集。

chatgpt-语料库

复制代码
* 地址:[https://github.com/PlexPt/ 聊天-语料库](https://github.com/PlexPt/chatgpt-corpus "https://github.com/PlexPt/ 聊天-语料库") 
* 数据集说明:开源了由ChatGPT3.5生成的300万自问自答数据,包括多个领域,可用于用于训练大模型。

SmileConv

复制代码
* 地址:[GitHub - qiuhuachuan/smile: SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support](https://github.com/qiuhuachuan/smile "GitHub - qiuhuachuan/smile: SMILE: Single-turn to Multi-turn Inclusive Language Expansion via ChatGPT for Mental Health Support") 
* 数据集说明:数据集通过ChatGPT改写真实的心理互助QA为多轮的心理健康支持多轮对话 (通过ChatGPT单轮到多轮包容性语言扩展),该数据集含有56k个多轮对话,其对话主题,词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。
偏好数据集

C值

复制代码
* 地址:[https://github.com /x-plug/c值](https://github.com/X-PLUG/CValues "https://github.com /x-plug/c值") 
* 数据集说明:该项目开源了数据规模为145k的价值对齐数据集,该数据集对于每个及时包括了拒绝和正向建议 (安全和责任) > 拒绝为主 (安全) > 风险回复 (不安全) 三种类型,可用于增强SFT模型的安全性或用于训练奖励模型。

GPT-4-LLM

复制代码
* 地址:[GitHub - Instruction-Tuning-with-GPT-4/GPT-4-LLM: Instruction Tuning with GPT-4](https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM "GitHub - Instruction-Tuning-with-GPT-4/GPT-4-LLM: Instruction Tuning with GPT-4") 
* 数据集说明:该项目开源了由GPT4生成的多种数据集,包括通过GPT4生成的中英PPO数据,可以用于奖励模型的训练。

zhihu_rlhf_3k

复制代码
* 地址:[https:// huggingface.co/datasets/liyucheng/zhihu_rlhf_3k](https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k "https:// huggingface.co/datasets/liyucheng/zhihu_rlhf_3k")
* 数据集说明:该项目开源了3k + 条基于知乎问答的人类偏好数据集,每个实际的知乎问题下给出了赞同数据较高 (选择) 和较低 (拒绝) 的回答,可以用于奖励模型的训练。

hh_rlhf_cn

复制代码
* 地址:[https:// huggingface.co/datasets/dikw/hh_rlhf_cn](https://huggingface.co/datasets/dikw/hh_rlhf_cn "https:// huggingface.co/datasets/dikw/hh_rlhf_cn")
* 数据集说明:基于的人类论文训练一个有帮助和无害的助手从人类反馈中强化学习开源的有帮助的和无害的数据,使用翻译工具进行了翻译。

chatbot_arena_conversations

复制代码
* 地址:[https:// huggingface.co/datasets/lmsys/chatbot_arena_conversations](https://huggingface.co/datasets/lmsys/chatbot_arena_conversations "https:// huggingface.co/datasets/lmsys/chatbot_arena_conversations")
* 数据集说明:该偏好数据集包含20个LLM的输出,其中包括GPT-4和Claude-v1等更强的LLM,它还包含这些最先进模型的许多失败案例。包含来自超过13k个用户的无限制对话。

UltraFeedback

复制代码
* 地址:[GitHub - OpenBMB/UltraFeedback: A large-scale, fine-grained, diverse preference dataset (and models).](https://github.com/OpenBMB/UltraFeedback "GitHub - OpenBMB/UltraFeedback: A large-scale, fine-grained, diverse preference dataset \(and models\).") 
* 数据集说明:该数据集是一个大规模、细粒度、多样化的偏好数据集、用于训练强大的奖励模型和批评者模型。该工作从各种资源(包括UltraChat、ShareGPT、Evol-指示、TruthfulQA、FalseQA和FLAN、数据集统计数据请参见此处)中收集了约64k条提示。然后使用这些提示来查询多个LLM(模型列表请参见此处),并为每个提示生成4个不同的回复,从而得到总共256k个样本。

4. LLM训练微调框架

DeepSpeed聊天:

复制代码
* 地址:[https://github.com/microsoft/DeepSpeed/tree/master/blogs/ deepspeed-聊天](https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat "https://github.com/microsoft/DeepSpeed/tree/master/blogs/ deepspeed-聊天") 
* 简介:该项目提供了一键式RLHF训练框架,只需一个脚本即可实现多个训练步骤,包括SFT,奖励模型微调和基于人类反馈的强化学习(RLHF),此外还实现了深高速HE,统一的高效混合引擎,达到训练和推理引擎之间的过渡是无缝的。

LLaMA高效调谐:

复制代码
* 地址:[https://github.com/hiyouga/ 美洲驼-高效-调谐](https://github.com/hiyouga/LLaMA-Efficient-Tuning "https://github.com/hiyouga/ 美洲驼-高效-调谐") 
* 简介:该项目提供了易于使用的基于PEFT的美洲驼微调框架,实现了包括全参数,LoRA,QLoRA等的预训练,指令微调和RLHF,并支持美洲驼,布鲁姆,猎鹰,百川,国际等底座模型。

ChatGLM高效调优:

复制代码
* 地址:[https://github.com/hiyouga/ ChatGLM-高效-调优](https://github.com/hiyouga/ChatGLM-Efficient-Tuning "https://github.com/hiyouga/ ChatGLM-高效-调优") 
* 简介:该项目提供了基于PEFT的高效ChatGLM微调,支持LoRA,P调谐V2,全参数微调等模式,并适配了多个微调数据集。

bert4torch:

复制代码
* 地址:[https://github.com/Tongjilibo/ bert4torch](https://github.com/Tongjilibo/bert4torch "https://github.com/Tongjilibo/ bert4torch") 
* 简介:该项目提供了一个大模型的训练和部署框架,包含了目前主要的开源大模型,美洲驼系列,chatglm,布鲁姆系列等等,同时还给出了预训练和微调的示例。

5. LLM推理部署框架

vLLM:

复制代码
* 地址:[https://github.com/vllm-项目/vllm](https://github.com/vllm-project/vllm "https://github.com/vllm-项目/vllm") 
* 简介:适用于大批量提示输入,并对推理速度要求高的场景。吞吐量比HuggingFace变压器高14x-24倍,比HuggingFace文本生成推理 (TGI)高2.2x-2。5倍,实现了连续配料和页面数据保持等技巧。但该框架对适配器(LoRA、QLoRA等)的支持不友好且缺少权重量化。

深速度-MII:

复制代码
* 地址:[https://github.com/microsoft/ DeepSpeed-MII](https://github.com/microsoft/DeepSpeed-MII "https://github.com/microsoft/ DeepSpeed-MII") 
* 简介:支持多个机器之间的负载均衡,支持不同的模型库(如拥抱脸,FairSeq等),支持模型量化推理。

文本生成推理:

复制代码
* 地址:[https://github.com/huggingface/ 文本生成-推理](https://github.com/huggingface/text-generation-inference "https://github.com/huggingface/ 文本生成-推理") 
* 简介:用于文本生成推断的Rust、Python和gRPC部署框架、可以监控服务器负载、实现了flash注意力和分页注意力、所有的依赖项都安装在Docker中:支持HuggingFace模型;但该框架对适配器(LoRA、QLoRA等)的支持不友好。

CTranslate2

复制代码
* 地址:[https://github.com/OpenNMT/ CTranslate2](https://github.com/OpenNMT/CTranslate2 "https://github.com/OpenNMT/ CTranslate2") 
* 简介:基于C ++ 和python的推理框架,支持在CPU和GPU上并行和异步执行,且支持提示缓存及量化。但缺少对适配器(LoRA、QLoRA等)的支持。

OpenLLM

复制代码
* 地址:[GitHub - bentoml/OpenLLM: Run any open-source LLMs, such as Llama 3.1, Gemma, as OpenAI compatible API endpoint in the cloud.](https://github.com/bentoml/OpenLLM "GitHub - bentoml/OpenLLM: Run any open-source LLMs, such as Llama 3.1, Gemma, as OpenAI compatible API endpoint in the cloud.") 
* 简介:支持将要部署的LLM连接多个适配器,可以实现只使用一个底座模型来执行多个特定的任务;支持量化推理和LangChain集成但对批处理和分布式推理的支持相对不友好。

MLC LLM

复制代码
* 地址:[GitHub - mlc-ai/mlc-llm: Universal LLM Deployment Engine with ML Compilation](https://github.com/mlc-ai/mlc-llm "GitHub - mlc-ai/mlc-llm: Universal LLM Deployment Engine with ML Compilation") 
* 简介:支持不同平台上的不同设备部署推理,包括移动设备(iOS或Android设备等)的高效推理,压缩等。但对大规模批量调用相对不友好。

LightLLM:

复制代码
* 地址:[GitHub - ModelTC/lightllm: LightLLM is a Python-based LLM (Large Language Model) inference and serving framework, notable for its lightweight design, easy scalability, and high-speed performance.](https://github.com/ModelTC/lightllm "GitHub - ModelTC/lightllm: LightLLM is a Python-based LLM \(Large Language Model\) inference and serving framework, notable for its lightweight design, easy scalability, and high-speed performance.") 
* 简介:一个基于Python的LLM(大型语言模型)推理和服务框架,该框架采用轻量级设计,易于扩展和高速性能,LightLLM引入了一种更细粒度的kv缓存管理算法令牌注意,并设计了一个与令牌注意高效配合的高效的路由器调度实现。在令牌注意和高效的路由器的相互作用下,LightLLM在大部分场景下都能获得比vLLM和文本生成推理得到更高的吞吐,部分场景下可以得到4倍左右的性能提升。

AirLLM:

复制代码
* 地址:[https://github.com/lyogavin/Anima/tree/main/ air_llm](https://github.com/lyogavin/Anima/tree/main/air_llm "https://github.com/lyogavin/Anima/tree/main/ air_llm") 
* 简介:该项目开源了一个优化推理内存的推理框架,可实现4gb单卡GPU可以运行70B大语言模型推理。不需要任何损失模型性能的量化和蒸馏,剪枝等模型压缩,该项目采用了分层推理的技术以在较低的内存下实现大模型推理。

LMDeploy:

复制代码
* 地址:[GitHub - InternLM/lmdeploy: LMDeploy is a toolkit for compressing, deploying, and serving LLMs.](https://github.com/InternLM/lmdeploy "GitHub - InternLM/lmdeploy: LMDeploy is a toolkit for compressing, deploying, and serving LLMs.") 
* 简介:该项目支持LLM(大语言模型)和VL(视觉语言模型)任务在NVIDIA设备上量化、推理和服务。LMDeploy支持有状态的推理、可以缓存对话、记住历史。它实现了持久性批处理 (即连续批处理) 、阻塞的K/V缓存、动态拆分和融合、张量并行高效的计算内核等重要特性。推理性能是vLLM的1.8倍以上。其4位量化模型推理性能达FP16的2.4倍以上。

6.法学评测

FlagEval (天秤)大模型评测体系及开放平台

复制代码
* 地址:[GitHub - FlagOpen/FlagEval: FlagEval is an evaluation toolkit for AI large foundation models.](https://github.com/FlagOpen/FlagEval "GitHub - FlagOpen/FlagEval: FlagEval is an evaluation toolkit for AI large foundation models.") 
* 简介:旨在建立科学、公正、开放的评测基准、方法、工具集、协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了 “能力-任务-指标” 三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。

C-eval: 构造中文大模型的知识评估基准:

复制代码
* 地址:[https://github.com/SJTU照明/ceval](https://github.com/SJTU-LIT/ceval "https://github.com/SJTU照明/ceval") 
* 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文法学硕士的评测结果。

OpenCompass:

复制代码
* 地址:[GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.](https://github.com/InternLM/opencompass "GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models \(Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc\) over 100+ datasets.") 
* 简介:由上海AI实验室发布的面向大模型评测的一站式平台。主要特点包括:开源可复现;全面的能力维度:五大维度设计,提供50 + 个数据集约30万题的的模型评测方案;丰富的模型支持:已支持20 + HuggingFace及API模型;分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测;多样化评测范式:支持零样本,小样本及思维链评测,结合标准型或对话型提示词模板;灵活化拓展。

SuperCLUElyb: SuperCLUE琅琊榜

复制代码
* 地址:[GitHub - CLUEbenchmark/SuperCLUElyb: SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准](https://github.com/CLUEbenchmark/SuperCLUElyb "GitHub - CLUEbenchmark/SuperCLUElyb: SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准") 
* 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名,随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。

高考长椅:

复制代码
* 地址:[https://github.com/OpenLMLab/ 高考-长凳](https://github.com/OpenLMLab/GAOKAO-Bench "https://github.com/OpenLMLab/ 高考-长凳") 
* 简介: 高考是一个以中国高考题目为数据集,测评大模型语言理解能力,逻辑推理能力的测评框架,收集了2010年-2022年年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起高考的数据部分。

AGIEval:

复制代码
* 地址:[GitHub - ruixiangcui/AGIEval](https://github.com/ruixiangcui/AGIEval "GitHub - ruixiangcui/AGIEval") 
* 简介:由微软发布的一项新型基准测试、这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试、包括普通大学入学考试(中国高考和美国SAT考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。

协智:

复制代码
* 地址:[https://github.com/mikegu721/xiezhiebenchmark](https://github.com/mikegu721/xiezhibenchmark "https://github.com/mikegu721/xiezhiebenchmark") 
* 简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估基准、包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个个学科门类,24个万道学科题目,516个具体学科,249587道题目。

打开LLM排行榜:

复制代码
* 地址:[https:// huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard "https:// huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard")
* 简介:由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型。评估主要包括AI2推理挑战,HellaSwag,MMLU,TruthfulQA四个数据集上的表现,主要以英文为主。

CMMLU:

复制代码
* 地址:[https://github.com /浩南里/CMMLU](https://github.com/haonan-li/CMMLU "https://github.com /浩南里/CMMLU") 
* 简介:CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

MMCU:

复制代码
* 地址:[GitHub - Felixgithub2017/MMCU: MEASURING MASSIVE MULTITASK CHINESE UNDERSTANDING](https://github.com/Felixgithub2017/MMCU "GitHub - Felixgithub2017/MMCU: MEASURING MASSIVE MULTITASK CHINESE UNDERSTANDING") 
* 简介:该项目提供对中文大模型语义理解能力的测试,评测方式,评测数据集,评测记录都公开,确保可以复现。该项目旨在帮助各位研究者们评测自己的模型性能,并验证训练策略是否有效。

中文-llm-基准:

复制代码
* 地址:[https://github.com/jeinlee1991/中文-llm-基准](https://github.com/jeinlee1991/chinese-llm-benchmark "https://github.com/jeinlee1991/中文-llm-基准") 
* 简介:中文大模型能力评测榜单:覆盖百度文心一言,chatgpt,阿里通义千问,讯飞星火,belle / chatglm6b等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!

安全提示:

复制代码
* 地址:[https://github.com/thu-coai/安全提示](https://github.com/thu-coai/Safety-Prompts "https://github.com/thu-coai/安全提示") 
* 简介:由清华大学提出的一个关于LLM安全评测基准,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的提示。

PromptCBLUE: 中文医疗场景的法学硕士评测基准

复制代码
* 地址:[GitHub - michael-wzhu/PromptCBLUE: PromptCBLUE: a large-scale instruction-tuning dataset for multi-task and few-shot learning in the medical domain in Chinese](https://github.com/michael-wzhu/PromptCBLUE "GitHub - michael-wzhu/PromptCBLUE: PromptCBLUE: a large-scale instruction-tuning dataset for multi-task and few-shot learning in the medical domain in Chinese") 
* 简介:为推动LLM在医疗领域的发展和落地,由华东师范大学联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出PromptCBLUE评测基准,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。

哈卢卡: 中文幻觉评估基准

复制代码
* 地址:[GitHub - OpenMOSS/HalluQA: Dataset and evaluation script for "Evaluating Hallucinations in Chinese Large Language Models"](https://github.com/xiami2019/HalluQA "GitHub - OpenMOSS/HalluQA: Dataset and evaluation script for "Evaluating Hallucinations in Chinese Large Language Models"") 
* 简介: 用于衡量中文大型语言模型中的幻觉现象哈卢卡的基准测试该项目提出了一个名为。halluQA包含450个精心设计的对抗性问题,涵盖多个领域,并考虑了中国历史文化,风俗和社会现象。在构建HalluQA时,考虑了两种类型的幻觉:模仿性虚假和事实错误,并基于GLM-130B和ChatGPT构建对抗性样本。为了评估,设计了一种使用GPT-4进行自动评估的方法,判断模型输出是否是幻觉。

7.法学教程

法学基础知识

拥抱llm:

复制代码
* 地址:[https://github.com/datawhalechina/ 拥抱-llm](https://github.com/datawhalechina/hugging-llm "https://github.com/datawhalechina/ 拥抱-llm") 
* 简介:介绍ChatGPT原理、使用和应用、降低使用门槛、让更多感兴趣的非NLP或算法专业人士能够无障碍使用LLM创造价值。

指南:

复制代码
* 地址:[https://github.com/Mooler0410/llmspratticalguide](https://github.com/Mooler0410/LLMsPracticalGuide "https://github.com/Mooler0410/llmspratticalguide") 
* 简介:该项目提供了关于法学硕士的一系列指南与资源精选列表,包括法学硕士发展历程、原理、示例、论文等。
提示工程教程

面向开发者的LLM入门课程:

复制代码
* 地址:[https://github.com/datawhalechina/ 提示-面向开发人员的工程](https://github.com/datawhalechina/prompt-engineering-for-developers "https://github.com/datawhalechina/ 提示-面向开发人员的工程") 
* 简介: 主要包括围绕吴恩达老师的大模型系列课程展开一个中文版的大模型入门教程: 吴恩达《开发人员的ChatGPT Prompt工程》课程中文版,吴恩达《使用ChatGPT API构建系统》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。

提示工程指南:

复制代码
* 地址:[https:// www.promptingguide.ai/zh](https://www.promptingguide.ai/zh "https:// www.promptingguide.ai/zh")
* 简介:该项目基于对大语言模型的浓厚兴趣、编写了这份全新的提示工程指南、介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。

awesome-chatgpt-提示-zh:

复制代码
* 地址:[https://github.com/PlexPt/ 真棒-chatgpt-提示-zh](https://github.com/PlexPt/awesome-chatgpt-prompts-zh "https://github.com/PlexPt/ 真棒-chatgpt-提示-zh") 
* 简介:该项目是ChatGPT中文调教指南。包括各种场景使用指南,让chatgpt知道怎么听你的话,对指令构造可以提供一些参考。
法学应用教程

LangChain🦜️🔗中文网,跟着LangChain一起学LLM/GPT开发:

复制代码
* 地址:[https:// www.langchain.asia](https://www.langchain.asia/ "https:// www.langchain.asia")
* 简介:Langchain的中文文档,由是两个在LLM创业者维护,希望帮助到从刚进入AI应用开发的朋友们。

OpenAI食谱:

复制代码
* 地址:[https://github.com/openai/ openai-cookbook](https://github.com/openai/openai-cookbook "https://github.com/openai/ openai-cookbook") 
* 简介:该项目是OpenAI提供的使用OpenAI API的示例和指导,其中包括如何构建一个问答机器人等教程,能够为从业人员开发类似应用时带来指导。

构筑大语言模型应用:应用开发与架构设计:

复制代码
* 地址:[GitHub - phodal/aigc: 《构筑大语言模型应用:应用开发与架构设计》一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。](https://github.com/phodal/aigc "GitHub - phodal/aigc: 《构筑大语言模型应用:应用开发与架构设计》一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。") 
* 简介:该项目开源了一本关于LLM在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括提示的编写,开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。
法学实战教程

LLMs九层妖塔:

复制代码
* 地址:[GitHub - km1994/LLMsNineStoryDemonTower: 【LLMs九层妖塔】分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。](https://github.com/km1994/LLMsNineStoryDemonTower "GitHub - km1994/LLMsNineStoryDemonTower: 【LLMs九层妖塔】分享 LLMs在自然语言处理(ChatGLM、Chinese-LLaMA-Alpaca、小羊驼 Vicuna、LLaMA、GPT4ALL等)、信息检索(langchain)、语言合成、语言识别、多模态等领域(Stable Diffusion、MiniGPT-4、VisualGLM-6B、Ziya-Visual等)等 实战与经验。") 
* 简介:ChatGLM、中国羊驼、MiniGPT-4、FastChat、美洲驼、gpt4all等实战与经验。

llm-操作:

复制代码
* 地址:[https://github.com/liguodongiot/ llm-行动](https://github.com/liguodongiot/llm-action "https://github.com/liguodongiot/ llm-行动") 
* 简介:该项目提供了一系列法学硕士实战的教程和代码,包括法学硕士的训练、推理、微调以及法学硕士生态相关的一些技术文章等。

llm大模型训练专栏:

复制代码
* 地址:[https://www.zhihu.com/column/ c_1252604770952642560](https://www.zhihu.com/column/c_1252604770952642560 "https://www.zhihu.com/column/ c_1252604770952642560")
* 简介:该项目提供了一系列法学硕士前言理论和实战实验,包括论文解读与洞察分析。

书生·浦语大模型实战营

复制代码
* 地址:[GitHub - InternLM/Tutorial: LLM&VLM Tutorial](https://github.com/InternLM/tutorial "GitHub - InternLM/Tutorial: LLM&VLM Tutorial")
* 简介:该课程由上海人工智能实验室重磅推出。课程包括大模型微调、部署与评测全链路、目的是为广大开发者搭建大模型学习和实践开发的平台。

8.相关仓库

FindTheChatGPTer:

复制代码
* 地址:[GitHub - chenking2020/FindTheChatGPTer: ChatGPT爆火,开启了通往AGI的关键一步,本项目旨在汇总那些ChatGPT的开源平替们,包括文本大模型、多模态大模型等,为大家提供一些便利](https://github.com/chenking2020/FindTheChatGPTer "GitHub - chenking2020/FindTheChatGPTer: ChatGPT爆火,开启了通往AGI的关键一步,本项目旨在汇总那些ChatGPT的开源平替们,包括文本大模型、多模态大模型等,为大家提供一些便利") 
* 简介:ChatGPT爆火,开启了通往AGI的关键一步,本项目旨在汇总那些ChatGPT的开源平替们,包括文本大模型,多模态大模型等,为大家提供一些便利。

LLM_reviewer:

复制代码
* 地址:[https://github.com/SpartanBin/ LLM_reviewer](https://github.com/SpartanBin/LLM_reviewer "https://github.com/SpartanBin/ LLM_reviewer") 
* 简介:总结归纳近期井喷式发展的大语言模型、以开源、规模较小、可私有化部署、训练成本较低的 '小羊驼类' 模型为主。

真棒-AITools:

复制代码
* 地址:[https://github.com/ikaijua/ 真棒-AITools](https://github.com/ikaijua/Awesome-AITools "https://github.com/ikaijua/ 真棒-AITools") 
* 简介:收藏整理了AI相关的实用工具、评测和相关文章。

开源ChatGPT及其他:

复制代码
* 地址:[https://github.com/SunLemuria/ open_source_chatgpt_list](https://github.com/SunLemuria/open_source_chatgpt_list "https://github.com/SunLemuria/ open_source_chatgpt_list") 
* 简介: 此repo旨在记录开源ChatGPT,并提供如何参与的概述,包括: 基本模型,技术,数据,领域模型,训练管道,加速技术,多语言,多模式,还有更多。

真棒完全开放的Chatgpt:

复制代码
* 地址:[https://github.com/nichtdax/ 真棒-完全开放-chatgpt](https://github.com/nichtdax/awesome-totally-open-chatgpt "https://github.com/nichtdax/ 真棒-完全开放-chatgpt") 
* 简介: 此回购记录了ChatGPT的完全开放替代方案的列表。

真棒-LLM:

复制代码
* 地址:[GitHub - Hannibal046/Awesome-LLM: Awesome-LLM: a curated list of Large Language Model](https://github.com/Hannibal046/Awesome-LLM "GitHub - Hannibal046/Awesome-LLM: Awesome-LLM: a curated list of Large Language Model") 
* 简介: 这个repo是一个关于大型语言模型的精选列表,特别是与ChatGPT有关的论文。它还包含LLM培训框架,部署LLM的工具,有关LLM的课程和教程以及所有公开可用的LLM检查点和api。

DecryptPrompt:

复制代码
* 地址:[GitHub - DSXiangLi/DecryptPrompt: 总结Prompt&LLM论文,开源数据&模型,AIGC应用](https://github.com/DSXiangLi/DecryptPrompt "GitHub - DSXiangLi/DecryptPrompt: 总结Prompt&LLM论文,开源数据&模型,AIGC应用") 
* 简介:总结了提示和LLM论文,开源数据和模型,AIGC应用。

令人敬畏的预训练中国NLP模型:

复制代码
* 地址:[https://github.com/lonePatient/ 真棒-预训练-中文-nlp-模型](https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models "https://github.com/lonePatient/ 真棒-预训练-中文-nlp-模型") 
* 简介:收集了目前网上公开的一些高质量中文预训练模型。

ChatPiXiu:

复制代码
* 地址:[GitHub - OpenLLMAI/OpenLLMWiki: OpenLLMWiki: Docs of OpenLLMAI. Survey, reproduction and domain/task adaptation of open source chatgpt alternatives/implementations. PiXiu-貔貅 means fortune.](https://github.com/catqaq/ChatPiXiu "GitHub - OpenLLMAI/OpenLLMWiki: OpenLLMWiki: Docs of OpenLLMAI. Survey, reproduction and domain/task adaptation of open source chatgpt alternatives/implementations. PiXiu-貔貅 means fortune.") 
* 简介:该项目旨在打造全面且实用的ChatGPT模型库和文档库。当前V1版本梳理了包括:相关资料调研 + 通用最小实现 + 领域/任务适配等。

LLM-动物园:

复制代码
* 地址:[https://github.com/DAMO-NLP-SG/LLM-动物园](https://github.com/DAMO-NLP-SG/LLM-Zoo "https://github.com/DAMO-NLP-SG/LLM-动物园") 
* 简介:该项目收集了包括开源和闭源的法学硕士模型,具体包括了发布时间,模型大小,支持的语种,领域,训练数据及相应论文/仓库等。

LLMs-在中国:

复制代码
* 地址:[https://github.com/wgwang/ LLMs-In-中国](https://github.com/wgwang/LLMs-In-China "https://github.com/wgwang/ LLMs-In-中国") 
* 简介:该项目旨在记录中国大模型发展情况,同时持续深度分析开源开放的大模型以及数据集的情况。

BMList:

复制代码
* 地址:[GitHub - OpenBMB/BMList: A List of Big Models](https://github.com/OpenBMB/BMList "GitHub - OpenBMB/BMList: A List of Big Models") 
* 简介:该项目收集了参数量超过10亿的大模型、并梳理了各个大模型的适用模态、发布的机构、适合的语种、参数量和开源地址、API等信息。

真棒-免费-chatgpt:

复制代码
* 地址:[https://github.com/LiLittleCat/ 真棒-免费-chatgpt](https://github.com/LiLittleCat/awesome-free-chatgpt "https://github.com/LiLittleCat/ 真棒-免费-chatgpt") 
* 简介:该项目收集了免费的ChatGPT镜像网站列表,ChatGPT的替代方案,以及构建自己的ChatGPT的教程工具等。

Awesome-Domain-LLM:

复制代码
* 地址:[https://github.com /鲁班-agi/Awesome-Domain-LLM](https://github.com/luban-agi/Awesome-Domain-LLM "https://github.com /鲁班-agi/Awesome-Domain-LLM") 
* 简介:该项目收集和梳理垂直领域的开源模型、数据集及评测基准。

全部评论 (0)

还没有任何评论哟~