社区供稿 | 如何让大模型输出 10k+ 字长文？

随着大语言模型的发展，许多模型已经能够处理超过100k+ tokens的输入上下文。然而，这些模型在生成长文本时，普遍存在输出长度受限的问题。

在实际应用中，为了克服这个问题，人们普遍采用「分而治之」的方法，让模型一段一段地写。这种方法在一定程度上似乎能够解决长文本输出的问题，但往往会导致 1）消耗 tokens 量成倍甚至指数增加；2）前后内容不连贯。

如何才能让模型拥有更强的长文本输出能力呢？我们发现，模型输出长度受限的主要原因在于，监督微调（SFT）数据集缺乏足够长的输出样例。

针对这一问题，我们构建了一个 6000 多条2k-20k words 不等的长输出数据集 LongWriter-6k，并在此基础上，对 GLM-4-9B 进行 SFT微调和 DPO对齐。新的模型拥有了能够生成超过10,000字/词连贯文本的能力。

下面是我们用 LongWriter-9B 模型，以「黑神话 · 悟空」为题撰写的玄幻小说。

> prompt: 请帮我撰写一个主题为「黑神话·悟空」玄幻小说，小说以孙悟空为核心，讲述一个桀骜不驯，打怪升级，追逐梦想的玄幻故事，不少于 10000 字

完整视频可查看：https://mp.weixin.qq.com/s/mhhUWDP6fp9sTWNH9GeZnA

论文：https://arxiv.org/abs/2408.07055

代码：https://github.com/THUDM/LongWriter

模型：

Hugging Face：https://hf.co/THUDM/LongWriter-glm4-9b

魔搭：https://modelscope.cn/models/ZhipuAI/LongWriter-glm4-9b

数据：

Hugging Face：https://hf.co/datasets/THUDM/LongWriter-6k

魔搭：https://modelscope.cn/datasets/ZhipuAI/LongWriter-6k

生成长度限制的根源

我们对当前最先进的长上下文模型的最大输出长度做了测试，这些测试会明确要求模型生成不同长度的内容，例如：撰写一篇关于罗马帝国历史的10000字文章。

从上图可以看出，所有模型生成的内容，几乎都不超过 2000 字。

原因是什么呢？

我们做了一个初步的研究，用不同最大输出长度的数据对 GLM-4-9B-base 模型进行 SFT 微调。结果如下：

伴随着要求长度的增加，不同数据集 SFT 微调出来的模型，存在最大输出长度限制。

因此可以得出一个结论，尽管长文本模型在预训练阶段接触了更长的文本序列，但其最大生成长度实际上被 SFT 数据集中输出长度的上限所限制。换句话说，模型“读”到的内容决定了它能“写”多长。

这一发现可以解释当前模型普遍存在的 2000 字输出限制——因为现有的 SFT 数据集很少包含超过此长度的样例；而另一方面，很多数据集都是用现有 LLM 自动构建的，因此它们也继承了源模型的输出长度限制。

自动构建长输出数据集

为了解决 SFT 数据集中长输出文本数据缺失的问题，我们设计了一个名为「AgentWrite」的 pipeline，通过分解长生成任务，让现有模型来生成更长的具备连贯性的输出。

具体来说，AgentWrite

首先，会根据用户的输入生成一个详细的写作计划，包括每段内容的结构和目标字数
其次，模型依次完成每个子任务，并将生成的段落串联起来，最终形成完整的长文本输出。

通过这种方法，AgentWrite 能够生成超过 20,000 字的高质量文本。

教模型生成超长输出

有了一个利用 LLMs 自动生成的更长输出的数据集，我们不禁好奇：是否可以将这种生成超长输出的能力传授给LLMs，使它们能够在单次输出中完成长篇写作任务？

我们从 GLM-4 的 SFT 数据中筛选出了 3,000 条指令（主要是中文），另外从 WildChat-1M（一个包含用户与ChatGPT/GPT-4对话记录的公开日志）中选择了3,000条指令（主要是英文），通过 AgentWrite 并利用 GPT-4o 生成了6,000条长输出的SFT数据，即 LongWriter-6k。

在模型训练中，为了确保模型的通用能力，我们将LongWriter-6k与通用SFT数据（180k 条数据）结合，形成整个训练集。输出长度分布如下：

可以看到LongWriter-6k有效地补充了通用SFT数据中2,000字以上输出样例的不足，并且LongWriter-6k中的输出长度在2,000至10,000词之间分布相对均匀。

微调（SFT）：我们分别针对 GLM-4-9B 和 Llama-3.1-8B 做了 SFT 微调，这两个模型都是基础模型，支持最多128k tokens的上下文窗口，非常适合用于长输出的训练。我们得到两个模型：LongWriter-9B（GLM-4-9B-LongWriter的缩写）和LongWriter-8B（Llama-3.1-8B-LongWriter的缩写）。

对齐（DPO）： 为了进一步提高模型的输出质量，并增强其在指令中遵循长度约束的能力，我们在经过 SFT 微调的LongWriter-9B模型上进行了直接偏好优化。DPO数据来自GLM-4的 DPO 数据（大约50,000条），同时包含4k条我们标注的长输出正负样本对。

结果怎么样？

我们在LongBench-Write上对4个专有模型和5 个开源模型进行了评测，如下表所示：

其中 S_l 表示输出长度是否符合要求的得分。当输出长度符合要求时，得分为100；当输出长度超过要求的4倍或低于要求的1/3时，得分会线性下降至0。

S_q 则是从相关性、准确性、连贯性、清晰度、广度与深度以及阅读体验等六个维度，用 GPT-4o 进行的打分，并取平均，代表了生成内容的质量。

最终得分 \overline{S} 通过 S_l 和 S_q 的平均值计算得出。

1. 大多数当前的模型都无法满足超过2,000字的长度要求，而LongWriter模型在此类提示下始终提供更长且更丰富的响应。

更具体来说，在[2k, 4k)范围内当前的模型通常表现不佳，只有Claude 3.5 Sonnet得分尚可；而在[4k, 20k)范围里，几乎所有当前的模型都完全无法达到目标输出长度，甚至得分为0（意味着所有输出长度均小于要求长度的1/3）。

2. DPO（直接偏好优化）有效提升了模型的输出质量及其在长文本生成中遵循长度要求的能力。

通过比较LongWriter-9B和LongWriter-9B-DPO的得分，我们发现DPO显著提高了 S_l（+4%）和 S_q（+3%）的得分，并且这种提升在所有范围内都保持一致。这表明在长文本生成场景中，DPO依然能够帮助提升模型的输出质量，并能更好地使模型的输出长度与要求的长度对齐。

3. LongWriter模型的输出长度限制大概10k至20k字之间，如果想让模型拥有更长输出的能力，则需要更长输出的数据集。

在混合后的 SFT 数据集中可以看到，大部分数据都在 20k 以下，超出 20k 的数据不到 100 条。

我们相信，在未来构建更长的SFT训练数据，可以进一步突破模型输出长度的限制，达到100k甚至更长的输出长度。

本文由 Hugging Face 中文社区内容共建项目提供，稿件由社区成员投稿，经授权发布于 Hugging Face 公众号。文章内容不代表官方立场，文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao

本文分享自微信公众号 - Hugging Face（gh_504339124f0f）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

叨

叨叨颠颠 2024-09-14 16:17

代码这东西就和女人穿不同衣服一样，包装不同，就可以换个人样儿，其实里面还是。字符串替换--变量名改改、方法名改改、文件名改改，方法return的改为void，值参改形参，一个类改几个拼接，一个结构体改几个组合，一个方法改几代继承。哪个敢说这是抄，百分之百纯自研，原生态。

封神梦 2024-09-14 17:53

反正wps就是各种vip广告，挺恶心人的

Francesca 2024-09-15 17:30

会不会是你用的版本比较老，新版本应该没问题

kushu001 2024-08-14 15:24

为什么一定要强调“国产”？是开源的项目么？如果开源，是不是不接受国外开发者的贡献？我只是好奇，不带“国产”，是宣传不了了么😀

平波 2024-09-14 19:01

你了做过为为的项目啊；😂

fasiondog 2024-09-14 17:26

👍

CloudShi83 2024-07-06 17:13

感谢祖师爷赏饭吃，给你磕一个

zb79463626 2024-08-26 15:51

IBM中国哪有什么研发? 全部都是测试！所谓的搞研发的都是去养老混日子的！

dwingo 2024-07-18 10:12

不是不让用jni和unsafe啊, 只是做了"限制", 只要加命令行参数就能继续用, 目的是为了让使用者考量程序的安全性.

平波 2024-07-07 16:54

吃完就砸锅，好像那个啥纯血，吃完了，就想把小米，oppo、vivo的锅咂了；😂

osc_566335 2024-08-01 15:05

“虽然两人只有大专学历”—— 大专也算高等教育，现在这些媒体口中已经文盲一个级别的感觉了吗？

longzz 2024-09-14 11:04

🤣65岁还在写代码吗？

blue_think 2024-08-26 11:00

别光喷华为啊，说点你自己的能力，到了什么程度，有什么成就，这样好歹有点说服力吧

yh2216 2024-09-14 10:24

wps确实做的很棒，比微软的office好用，比libreoffice好用很多。wps加油，鸿蒙做的不错，继续加油，支持生态建设。

Kevin586 2024-09-14 16:00

vagrant什么时候支持7.1我才更

vb2005xu 2024-09-14 10:17

这数据有1%真吗

呼呼南风 2024-09-14 11:18

幸好我把自己电脑换成win10了。

infoworld 2024-09-11 18:00

感谢，正是有你们这些先驱做的实事，才能避免被国外的系统和应用垄断。

Yanlongli 2024-07-11 17:28

降低了视觉复杂性，增高了操作复杂性。

开源中国首席路人王 2024-09-15 15:47

ipv6 tomcat需要改什么支持吗

fzn0268 2024-09-04 14:26

这是那个做代码生成器的老哥起的吧

字节跳动开源 2024-09-14 16:05

可以的，可以看看发布的一些用户案例

大后锋 2024-07-10 14:03

然后交警找责任方，打过去是牛逼高大上的生成式AI的客服

Ask_x_Seek 2024-09-14 15:19

支持

加百列Gabriel 2024-09-14 13:50

各位不要急着更新, 更新完之后linux虚拟机不支持3D加速了

Tobyee 2024-07-09 11:04

没GMS是借口，本质还是不想适配国内的手机系统，等鸿蒙Next出来，看微软拥抱不拥抱就知道了

HalLi 2024-09-09 01:10

普通用户不懂就算了，怎么连程序员都不懂？苹果是全平台30%，国产是渠道服50%。微信、抖音这种大app哪来的渠道服，除了游戏，哪个app带渠道服。

liming0101 2024-09-10 09:09

什么纳吉东西，还碰瓷黑神话

平波 2024-09-14 15:57

我倒是觉得好用，像真人就行；我可不希望它是真正的智慧生物；深度这些东东，本质就是曲面建模和贝叶斯/马尔科夫链这种概率建模；只要知识量够大，算力够强，机器就越像人；它有没有意识，并不重要；因为人的意思，估计也是伪命题；

深夜49 2024-09-14 14:36

免费版只能用30分钟，太坑了吧。

无尽的拉格朗日 2024-09-14 12:56

底层代码大部分估计都能共用反正都是c/c++，上层界面层重写吧

osc_566335 2024-08-05 10:48

os是媾粉聚集地还不了解吗？只要碰到国产、华子相关报道，必然评论区乌烟瘴气口伏声难止。还能期待啥有深度发言？大佬敢发这些，那还给搞前端什么都懂的“程序员”粪死？

fastfail 2024-09-15 08:37

捞钱捞到手抽筋

奶奶灰 2024-09-15 20:28

换kvm 了

我要探索宇宙 2024-09-16 14:43

3.5.2版本，队列redis能用集群模式的redis吗？

优秀良民 2024-07-10 16:17

明明能躺平，明明可以割韭菜，还花钱研发？为了找骂？说这个能割韭菜？你被割了？你买了吗？是谁年年换mac，是谁年年换iphone？华为的用户好像没有那么干的吧？真让我一个小米用户都看不下去了！

智布道 2024-08-13 12:02

不管是谁在打平安县城，我三五八团一定帮帮场子！

zb79463626 2024-09-15 12:07

纯血鸿蒙不再是用android改的了，DevEco什么时候也纯血脱离Eclipse啊？😄

天

天1天1天 2024-09-14 16:56

文章写的也没错，至于是不是steam的功劳，也无所谓，反正能玩了。

RustDesk 2024-09-16 11:20

惨淡

阳光满地 2024-09-15 00:25

加个证书那么简单的事，为什么还要等下一步再优化呢？

来开源啊 2024-09-14 15:07

25× 23.1 √

0day 2024-07-21 11:52

一个流氓也配谈安全？

Artrener 2024-07-21 15:12

可以看他不爽，看360不爽，但人家说的是事实。比如说航空业的业内人士也这么说的。

浪_客 2024-09-15 12:54

继续用vm吧，ensp不让用新版vbox😂

osc_50722289 2024-09-06 13:51

如果苹果不让步，微信也不让步那就好看了！微信在中国深入寻常百姓家！支付社交微信根本离不开，如果微信不在IOS上更新，苹果“不用混了”

简洛-默 2024-08-12 19:31

你是家里才通网吗? 龙芯早都弃用MIPS了，现在是自研的LoongArch。自己好好看看吧：https://loongarch.dev/zh-cn/posts/20210501-loongarch-manual/

黑人牙膏 2024-07-21 12:12

真的人不要脸则无敌，只要他不尴尬，尴尬的是别人。

我有我可以 2024-07-09 11:40

喷子们之所以喷，其本质是为自己的阴暗和自卑找理由罢了。

Azeroth008 2024-07-09 10:43

有自研操作系统挺好的啊，那些乱喷的人是什么心态？

Kevin586 2024-07-29 17:09

真降低成本还是得换go，java太吃内存了

Binx 2024-09-07 08:28

最好提高苹果税到80%，不然怎么彰显尊贵的苹果用户身份

songdragon 2024-08-14 13:11

这个对比的条件还存在好几个问题。 1. solon使用的是smart-http，spring使用的是undertow 2. solon启动本身的自动配置少于spring 这两点就决定了对比的维度不同，性能更好的原因大概率是web服务器、应用配置依赖导致的。如果要拉齐，需要使用同样的web服务器，spring应用排除掉所有的自动配置，只保留web必须的，才能说明框架的性能差距。现在这个结果，无法说明solon本身性能好。

烈冰 2024-07-22 08:41

不如说国内90%的电脑都没安装CrowdStrike软件

平波 2024-09-14 15:46

你真是行家里手啊，😂；这个本质是数学建模，就像初中数学中的板据两点确定一条直线，然后可以根据任意x,预测y值啊，其实就这么简单啊

yh2216 2024-09-14 10:26

猜测：c++部分应该是切换了鸿蒙的系统api，UI则仅仅是使用鸿蒙的UI框架而已。

开源博客 2024-09-14 22:13

Virtualbox新管网使用vw布局单位，高分屏上使用浏览器的缩放没效果，字体仍老大==

高排量低炭烧 2024-09-14 23:34

牛逼🤬

279778325 2024-08-16 16:22

好不容易有个国产开发平台，没有鼓励只有贬低，就算宣传夸大怎么了？那么较真干什么？遍地都是夸大的广告宣传怎么不一个一个去找厂家？批判的同时想想自己能搞一个吗？为什么加上国产俩字就非要这么较真？

kakai 2024-09-07 10:39

微信咋得罪你了？不管怎么样，微信此举哪怕从自身商业利益出发，让苹果降低中国税率这是利于中国人的，这个税率可不仅仅是针对微信的，还苹果大功一件，这是多么愚蠢、可耻的言论！

社区供稿 | 如何让大模型输出 10k+ 字长文？

生成长度限制的根源

自动构建长输出数据集

教模型生成超长输出

结果怎么样？

热门内容

全站热门评论

关于作者

作者的专辑

作者的其它热门文章

热门资讯

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号

社区供稿 | 如何让大模型输出 10k+ 字长文？

生成长度限制的根源

自动构建长输出数据集

教模型生成超长输出

结果怎么样？

热门内容

全站热门评论

关于作者

作者的专辑

作者的其它热门文章

热门资讯

推荐关注

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号