开源大模型（LLM） - Awesome软件 - OSCHINA

CodeFuse-13B 是基于 GPT-NeoX 框架训练的 13B 参数代码生成模型，能够处理 4096 个字符的代码序列。

该模型在 1000B Token 的代码、中文、英文数据数据集上进行预训练，覆盖超过 40 种编程语言。

为了进一步提升生成代码的效果和质量，该模型还在 CodeFuse-Evol-instruction-66k 数据集上进行了微调，使得该模型能够生成更加准确、高效、符合要求的代码。在 HumanEval 评测集上 Pass@1 达到 37.1%(采用 BeamSearch 解码，其中 BeamSize=3)。

更新于 2023/10/12 15:45

MiLM-6B 是由小米开发的一个大规模预训练语言模型，参数规模为 64 亿。在 C-Eval 和 CMMLU 上均取得同尺寸最好的效果。

根据 C-Eval 给出的信息，MiLM-6B 模型在具体各科目成绩上，在 STEM（科学、技术、工程和数学教育）全部 20 个科目中，计量师、物理、化学、生物等多个项目获得了较高的准确率。

更新于 2023/10/12 15:44

Code Llama 是基于 Llama 2 的 AI 代码生成大模型，可根据代码和自然语言提示生成代码和有关代码的自然语言，支持多种主流编程语言，包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。

Code Llama 基于 Llama 2 大语言模型打造，提供了三种模型：

- Code Llama - 基础代码模型
- Code Llama - Python - 专门针对 Python 进行优化
- Code Llama - Instruct - 专门用于理解自然语言指令

它们具有开放式模型中领先的性能、填充能力、对大型输入上下文的支持以及用于编程任务的零指令跟随能力。所有模型都是基于 16k 标记序列进行训练，并在最多 100k 标记输入上显示出改进。

更新于 2023/10/12 15:43

通义千问 - 7B（Qwen-7B） 是阿里云研发的通义千问大模型系列的 70 亿参数规模的模型。Qwen-7B 是基于 Transformer 的大语言模型，在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在 Qwen-7B 的基础上，使用对齐机制打造了基于大语言模型的 AI 助手 Qwen-7B-Chat。Qwen-7B 系列模型的特点包括：

- 大规模高质量预训练数据：使用了超过 2.2 万亿 token 的自建大规模预训练数据集进行语言模型的预训练。数据集包括文本和代码等多种数据类型，覆盖通用领域和专业领域。
- 优秀的模型性能：相比同规模的开源模型，Qwen-7B 在多个评测数据集上具有显著优势，甚至超出 12-13B 等更大规模的模型。评测评估的能力范围包括自然语言理解与生成、数学运算解题、代码生成等。
- 更好地支持多语言：基于更大词表的分词器在分词上更高效，同时它对其他语言表现更加友好。用户可以在 Qwen-7B 的基础上更方便地训练特定语言的 7B 语言模型。
- 8K 的上下文长度：Qwen-7B 及 Qwen-7B-Chat 均能支持 8K 的上下文长度，允许用户输入更长的 prompt。
- 支持插件调用：Qwen-7B-Chat 针对插件调用相关的对齐数据做了特定优化，当前模型能有效调用插件以及升级为 Agent。

更新于 2023/10/12 15:42

ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，引入了如下新特性：

- 更强大的性能：基于 ChatGLM 初代模型的开发经验，全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%） 、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
- 更长的上下文：基于 FlashAttention 技术，将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，会在后续迭代升级中着重进行优化。
- 更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。
- 更开放的协议：ChatGLM2-6B 权重对学术研究完全开放，在获得官方的书面许可后，亦允许商业使用。

更新于 2023/06/26 18:00

baichuan-7B 是开源的大规模预训练模型，基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。

更新于 2023/06/15 14:58

TigerBot 是一个多语言多任务的大规模语言模型 (LLM)。

根据 OpenAI InstructGPT 论文在公开 NLP 数据集上的自动评测，TigerBot-7B 达到 OpenAI 同样大小模型的综合表现的 96%。目前已开源：

- 模型：TigerBot-7B, TigerBot-7B-base，TigerBot-180B (research version)，
- 代码：基本训练和推理代码，包括双卡推理 180B 模型的量化和推理代码，
- 数据：预训练 100G，从 2TB 过滤后的数据中经过去噪去重清洗而得；监督微调 1G 或 100 万条数据，按比例涵盖用户指令常见的 10 大类 120 小类任务，
- API: chat, plugin, finetune, 让用户能在半小时内无代码的训练和使用专属于自己的大模型和数据，
- 领域数据：涵盖金融，法律，百科，广邀大模型应用开发者，一起打造中国的世界级的应用。

更新于 2023/06/08 15:08

YuLan-Chat 是基于高质量中英文混合指令微调的大语言对话模型。

YuLan-Chat 采用 LLaMA 作为底座，采用精心优化的高质量中英文混合指令进行微调。其中 YuLan-Chat-65B 模型目前能够在中英文相关评测数据集上显著超越已有开源模型效果。团队称后续会继续优化指令微调方法与底座模型，持续更新 YuLan-Chat 模型。

更新于 2023/06/08 15:07

Falcon-40B 是 400 亿参数的因果解码器模型，它在 RefinedWeb 的 1000B token 上进行训练，并使用精选数据集增强。它在 Huggingface 的 OpenLLM 排行榜上排首位，其性能优于 LLaMA、MPT、RedPajama 和 StableLM 等。

Falcon-40B 使用自定义工具构建，包含一个独特的数据管道，该管道从公开网络中提取训练数据。

Falcon 从公网上抓取内容构建好 Falcon 的初始预训练数据集后，再使用 CommonCrawl 转储，进行大量过滤（包括删除机器生成的文本和成人内容），并消除重复数据，最终得到一个由近 5 万亿个 token 组成的庞大预训练数据集。

更新于 2023/06/01 16:13

HuatuoGPT（华佗 GPT）是开源中文医疗大模型，基于医生回复和 ChatGPT 回复，让语言模型成为医生，提供丰富且准确的问诊。

HuatuoGPT 致力于通过融合 ChatGPT 生成的 “蒸馏数据” 和真实世界医生回复的数据，以使语言模型具备像医生一样的诊断能力和提供有用信息的能力，同时保持对用户流畅的交互和内容的丰富性，对话更加丝滑。

HuatuoGPT 使用了四种不同的数据集，分别如下：

- 蒸馏 ChatGPT 指令数据集（Distilled Instructions from ChatGPT）：这个数据集受到 Alpaca 模型创建指令集的方法启发，从 ChatGPT 中提炼出医疗相关的指令。与之前工作不同的是，本方法还加入了科室和角色信息，根据采样的科室或角色生成符合条件的指令数据集。
- 真实医生指令数据集（Real-world Instructions from Doctors）：这个数据集来源于真实医生和患者之间的问答。医生的回复通常简洁且口语化，因此本方法通过润色以提高其可读性。
- 蒸馏 ChatGPT 对话数据集（Distilled Conversations from ChatGPT）：这个数据集通过为两个 ChatGPT 模型提供共享的对话背景，让它们分别模仿医生和患者进行对话。
- 真实医生对话数据集（Real-world Conversations with Doctors）：这个数据集来源于真实医生的对话，但对医生的回复使用模型进行了润色。

这些数据集共同为模型提供了一个统一的语言模式、医生的诊断能力以及指令跟随能力。

更新于 2023/06/01 15:44

BLOOMChat 是一个新的、开放的、多语言的聊天 LLM。

SambaNova 和 Together 使用 SambaNova 独特的可重构数据流架构在 SambaNova DataScale 系统上训练了 BLOOMChat；其建立在 BigScience 组织的 BLOOM 之上，并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上进行了微调。

更新于 2023/05/31 17:52

CPM-Bee 是一个 完全开源、允许商用的百亿参数中英文基座模型。它采用 Transformer 自回归架构（auto-regressive），使用万亿级高质量语料进行预训练，拥有强大的基础能力。

CPM-Bee 的特点可以总结如下：

开源可商用：OpenBMB 始终秉承 “让大模型飞入千家万户” 的开源精神，CPM-Bee 基座模型将完全开源并且可商用，以推动大模型领域的发展。如需将模型用于商业用途，只需企业实名邮件申请并获得官方授权证书，即可商用使用。

中英双语性能优异：CPM-Bee 基座模型在预训练语料上进行了严格的筛选和配比，同时在中英双语上具有亮眼表现，具体可参见评测任务和结果。

超大规模高质量语料：CPM-Bee 基座模型在万亿级语料上进行训练，是开源社区内经过语料最多的模型之一。同时，我们对预训练语料进行了严格的筛选、清洗和后处理以确保质量。

OpenBMB 大模型系统生态支持：OpenBMB 大模型系统在高性能预训练、适配、压缩、部署、工具开发了一系列工具，CPM-Bee 基座模型将配套所有的工具脚本，高效支持开发者进行进阶使用。

强大的对话和工具使用能力：结合 OpenBMB 在指令微调和工具学习的探索，我们在 CPM-Bee 基座模型的基础上进行微调，训练出了具有强大对话和工具使用能力的实例模型，现已开放定向邀请内测，未来会逐步向公众开放。

CPM-Bee 的基座模型可以准确地进行语义理解，高效完成各类基础任务，包括：文字填空、文本生成、翻译、问答、评分预测、文本选择题等等。

更新于 2023/05/31 11:28

Massively Multilingual Speech (MMS) 是 Meta 开源的 AI 语音识别模型，支持 1107 种语言的语音转文本和文本转语音，以及 4000 多种语言的语言识别。

MMS 项目将支持的语言数量增加了 10-40 倍，具体取决于任务。主要成分是一个新的数据集，该数据集基于对公开宗教文本的阅读，并有效地利用了自我监督学习。

更新于 2023/05/31 11:27

DB-GPT 是一个开源的以数据库为基础的 GPT 实验项目，使用本地化的 GPT 大模型与数据和环境进行交互，无数据泄露风险，100% 私密，100% 安全。

DB-GPT 为所有以数据库为基础的场景，构建了一套完整的私有大模型解决方案。 此方案因为支持本地部署，所以不仅仅可以应用于独立私有环境，而且还可以根据业务模块独立部署隔离，让大模型的能力绝对私有、安全、可控。

更新于 2023/05/24 17:19

LaWGPT 是一系列基于中文法律知识的开源大语言模型。

该系列模型在通用中文基座模型（如 Chinese-LLaMA、ChatGLM 等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。在此基础上，构造法律领域对话问答数据集、中国司法考试数据集进行指令精调，提升了模型对法律内容的理解和执行能力。

更新于 2023/05/24 17:18

VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。

VisualGLM-6B 依靠来自于 CogView 数据集的 30M 高质量中文图文对，与 300M 经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到 ChatGLM 的语义空间；之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案。

更新于 2023/05/19 14:44

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为非常重要的基础技术。

为了进一步促进中文信息处理的研究发展，我们发布了基于全词遮罩（Whole Word Masking）技术的中文预训练模型 BERT-wwm，以及与此技术密切相关的模型：BERT-wwm-ext，RoBERTa-wwm-ext，RoBERTa-wwm-ext-large, RBT3, RBTL3。

更新于 2023/05/16 16:25

PERT 提出了一种基于乱序语言模型的预训练模型（PERT），在不引入掩码标记 [MASK] 的情况下自监督地学习文本语义信息。

PERT 在部分中英文 NLU 任务上获得性能提升，但也在部分任务上效果较差，请酌情使用。目前提供了中文和英文的 PERT 模型，包含两种模型大小（base、large）。

更新于 2023/05/16 16:22

ChatDoctor 是一个使用医学领域知识在 LLaMA 模型上微调的医学聊天模型。

更新于 2023/05/16 16:20

GPT Neo 使用 mesh-tensorflow 库实现了 GPT 系列的语言模型，其中包括 GPT-2 和 GPT-3，声称可以扩展到完整的 GPT-3 大小。

更新于 2023/05/16 16:19

开源大模型（LLM）

微信 QQ 微博

CodeFuse-13B —— 代码大语言模型

MiLM-6B —— 小米 AI 大模型

Code Llama —— 基于 Llama 2 的 AI 代码生成大模型

通义千问-7B —— 基于 Transformer 的大语言模型

ChatGLM2-6B —— 开源双语对话语言模型

baichuan-7B —— 开源中英文大模型

TigerBot —— 多语言多任务大语言模型

YuLan-Chat —— 基于中英文混合指令微调的大语言对话模型

Falcon-40B —— 因果解码器大模型

华佗GPT —— 开源中文医疗大模型

BLOOMChat —— 可商用多语言聊天 LLM

CPM-Bee —— 中英文双语大语言模型

MMS —— AI 语音识别大模型

DB-GPT —— 数据库大语言模型

LaWGPT —— 基于中文法律知识的大语言模型

VisualGLM-6B —— 多模态对话语言模型

Chinese BERT —— 中文预训练语言模型

PERT —— 基于 BERT 的预训练语言模型

ChatDoctor —— 医学聊天模型

GPT Neo —— 开源 GPT 模型

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号

开源大模型（LLM） 微信 QQ 微博

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号

开源大模型（LLM）

微信 QQ 微博