RWKV 模型已部署到 5 亿台 Windows 电脑？真正开源的新一代 AI 架构

来源: 投稿

2024-09-05 11:47:00

2024 年 9 月，RWKV 社区成员发现：Office 系统在自动更新后（版本 2407 及以后）已自带 RWKV 运行库。

在 Windows 系统的 C:\Program Files\Microsoft Office\root\vfs\ProgramFilesCommonX64\Microsoft Shared\OFFICE16 目录，可以找到一系列 rwkv dll（动态链接库）文件。

RWKV dll in Windows

由于正版 Windows 大多预装了 Office 365，因此，全球大多数 Windows 10 和 11 机器现已搭载 RWKV，包括线下商店中售卖的 Windows 机器。这意味着 RWKV 的装机量可达几亿台。

RWKV 是真正的开源架构（目前在 Linux Foundation 旗下），遵循 Apache 2.0 协议，可用于商业，欢迎大家在各个项目使用。

RWKV 的最新架构为 RWKV-6，且 RWKV-7 即将公布。

从 dll 的文件属性，可以明确这是 RWKV 模型的加载器：

dll 文件属性

此外，微软提供的协议中也明确出现了 rwkv.cpp 的仓库地址：

带 rwkv.cpp 的许可证

随后，社区开发者对 dll 文件进行解析，发现 dll 中的函数确实是来自 rwkv.cpp 库中的 RWKV 模型相关函数：

dll 文件中的函数

该发现在多方社交媒体上引起了激烈的讨论：

RWKV官方推文

知乎上的讨论：https://www.zhihu.com/question/666097016

RWKV 在 Windows 系统中的角色

目前，微软方面未公布 RWKV 模型会用于 Windows 系统中的哪些功能。

尽管 RWKV 系列 dll 文件存放在 Microsoft Office 目录中，但它们其实是操作系统的一部分，而不仅限于 Microsoft Office 。

出于 RWKV 恒定的显存/内存占用、支持全球 100 多种语言、“能耗最低的模型”等特性，我们推测 RWKV 可能会用于以下 Windows 系统功能：

本地 copilot
作为 Windows 系统的本地记忆回调器

Local memory recall 是让操作系统记住你过去的操作或输入信息，在需要时再次使用这些记忆。

RWKV 的 llama.cpp 用法

随着 RWKV 社区成员 @MollySophia 的工作，llama.cpp 现已适配 RWKV-6 模型。

接下来，我们一起看看如何在 llama.cpp 中使用 RWKV-6 模型进行推理：

第一步：获取 gguf 格式模型

llama.cpp 支持 .gguf 格式的模型，但 RWKV 官方仅发布了 .pth 格式模型。因此，我们需要使用以下两种方法获取 gguf 格式的 RWKV 模型。

方法 1：从 HF 下载现成 gguf 模型（推荐）

可以从 https://huggingface.co/latestissue 下载已量化并转化成 gguf 格式的 RWKV 模型

方法 2：从 HF 格式转换成 `.gguf` 格式

首先，从 RWKV 官方 HF 仓库下载一个 Hugging Face 格式的 RWKV 模型，如 RWKV/v6-Finch-1B6-HF

然后在 llama.cpp 目录运行此命令，将 Hugging Face 模型转成 gguf 格式：

python llama.cpp/convert_hf_to_gguf.py ./v6-Finch-1B6-HF

量化方法：（可选）

运行以下命令，对 .gguf 模型进行量化：

./build-cuda-rel/bin/llama-quantize v6-Finch-1B6-HF/v6-Finch-1.6B-HF-F16.gguf（量化前的 gguf 模型路径） ./v6-Finch-1B6-HF/v6-Finch-1.6B-HF-Q5_1.gguf（量化后的 gguf 模型路径） Q5_1（量化精度）

所有可选的量化精度：

可选的量化精度

建议使用以下两种量化精度： Q5_1、 Q8_0。

第二步：本地构建 llama.cpp

可以选择从 llama.cpp 的 release 页面下载已编译的 llama.cpp 程序。

也可以参照 llama.cpp 官方构建文档，选择适合的方法本地编译构建。

第三步：运行 RWKV 模型推理

在 llama.cpp 目录运行以下命令，可驱动 RWKV 模型基于 prompt 生成文本：

./build/bin/llama-cli -m ./v6-Finch-1B6-HF/v6-Finch-1.6B-HF-F16.gguf --no-warmup -p "User: Write me a poem\n\nAssistant:" -t 8 -ngl 25 -n 500

这条命令通过 llama-cli 运行 RWKV 模型，使用 8 个线程、跳过预热、并根据给定的 prompt 生成最多 500 个 token。

RWKV 模型推理

参数解释：

./build/bin/llama-cli：编译好的 llama-cli 程序，打开命令化界面
-m ./v6-Finch-1B6-HF/v6-Finch-1.6B-HF-F16.gguf：模型的路径参数
--no-warmup：跳过“预热”阶段，直接开始生成文本（以少量性能换取速度）
-p "User: Write me a poem\n\nAssistant:"： prompt 参数，模型根据该提示词生成文本。"User: Write me a poem\n\nAssistant:" 是符合 RWKV 模型格式的 prompt，更多 RWKV prompt 格式请在RWKV文档-提示词指南中查看。
-t 8：-t 指定线程数，建议根据可用的物理 CPU 核心数调整
- ngl：指定模型使用的 n-gpu-layers ，25 是在 GPU 上运行 25 层（1.6B 的 24层 + head 算一层）。可以无脑设定 -ngl 99，使 llama.cpp 加载 RWKV 模型所有层
-n 500：-n 参数表示生成的最大 token 数

完整的参数列表可以在 llama.cpp 参数文档中查看。

批量推理生成

使用以下命令，以进行批量推理：

使用 \n 隔开不同的 prompt

./build/bin/llama-parallel -ns 4 -np 4 -m v6-Finch-1B6-HF/v6-Finch-1.6B-HF-F16.gguf --no-warmup -ngl 25 -n 500 -p "Who are you?\nWhat do we have for dinner?\nWhat's the meaning of life\nHello\nWhat is the end of the universe?"

批量推理生成

参数解释：

-ns 4: n_sequence，推理序列的数量
-np 4: n_parallel，并行推理的数量

启动 Web 服务

使用以下命令，以启动 llama.cpp 的 Web 服务：

./build/bin/llama-server -m v6-Finch-1B6-HF/v6-Finch-1.6B-HF-F16.gguf --no-warmup -ngl 25

llama.cpp 的 Web 服务

启动后，可以访问 http://127.0.0.1:8080 以检查 Web 页面：

WebUI

chatUI

点击右上方的 New Ul按钮，或者直接访问 http://127.0.0.1:8080/index-new.html，可以打开新版本的 WebUI

新版本的 WebUI

新版本的 chatUI

RWKV 模型介绍

RWKV 是一种创新的深度学习网络架构，它将 Transformer 与 RNN 各自的优点相结合，同时实现高度并行化训练与高效推理，时间复杂度为线性复杂度，在长序列推理场景下具有优于 Transformer 的性能潜力。

RWKV 模型架构论文：

RWKV 4：https://arxiv.org/abs/2305.13048
RWKV-5/6（Eagle & Finch）：https://arxiv.org/abs/2404.05892

RWKV 模型的最新版本是 RWKV-6 ，架构图如下：

相对 Transformer 架构，RWKV 架构的推理成本降低 2~10 倍，训练成本降低 2~3 倍。

加入 RWKV 社区

RWKV 中文文档：https://www.rwkv.cn
QQ 频道：https://pd.qq.com/s/9n21eravc

平波 2024-09-14 15:46

你真是行家里手啊，😂；这个本质是数学建模，就像初中数学中的板据两点确定一条直线，然后可以根据任意x,预测y值啊，其实就这么简单啊

字节跳动开源 2024-09-14 16:05

可以的，可以看看发布的一些用户案例

zb79463626 2024-09-15 12:07

纯血鸿蒙不再是用android改的了，DevEco什么时候也纯血脱离Eclipse啊？😄

封神梦 2024-09-14 17:53

反正wps就是各种vip广告，挺恶心人的

深夜49 2024-09-14 14:36

免费版只能用30分钟，太坑了吧。

烈冰 2024-07-22 08:41

不如说国内90%的电脑都没安装CrowdStrike软件

呼呼南风 2024-09-14 11:18

幸好我把自己电脑换成win10了。

blue_think 2024-08-26 11:00

别光喷华为啊，说点你自己的能力，到了什么程度，有什么成就，这样好歹有点说服力吧

kakai 2024-09-07 10:39

微信咋得罪你了？不管怎么样，微信此举哪怕从自身商业利益出发，让苹果降低中国税率这是利于中国人的，这个税率可不仅仅是针对微信的，还苹果大功一件，这是多么愚蠢、可耻的言论！

HalLi 2024-09-09 01:10

普通用户不懂就算了，怎么连程序员都不懂？苹果是全平台30%，国产是渠道服50%。微信、抖音这种大app哪来的渠道服，除了游戏，哪个app带渠道服。

Artrener 2024-07-21 15:12

可以看他不爽，看360不爽，但人家说的是事实。比如说航空业的业内人士也这么说的。

Kevin586 2024-09-14 16:00

vagrant什么时候支持7.1我才更

智布道 2024-08-13 12:02

不管是谁在打平安县城，我三五八团一定帮帮场子！

黑人牙膏 2024-07-21 12:12

真的人不要脸则无敌，只要他不尴尬，尴尬的是别人。

浪_客 2024-09-15 12:54

继续用vm吧，ensp不让用新版vbox😂

我有我可以 2024-07-09 11:40

喷子们之所以喷，其本质是为自己的阴暗和自卑找理由罢了。

平波 2024-07-07 16:54

吃完就砸锅，好像那个啥纯血，吃完了，就想把小米，oppo、vivo的锅咂了；😂

简洛-默 2024-08-12 19:31

你是家里才通网吗? 龙芯早都弃用MIPS了，现在是自研的LoongArch。自己好好看看吧：https://loongarch.dev/zh-cn/posts/20210501-loongarch-manual/

longzz 2024-09-14 11:04

🤣65岁还在写代码吗？

0day 2024-07-21 11:52

一个流氓也配谈安全？

加百列Gabriel 2024-09-14 13:50

各位不要急着更新, 更新完之后linux虚拟机不支持3D加速了

infoworld 2024-09-11 18:00

感谢，正是有你们这些先驱做的实事，才能避免被国外的系统和应用垄断。

大后锋 2024-07-10 14:03

然后交警找责任方，打过去是牛逼高大上的生成式AI的客服

阳光满地 2024-09-15 00:25

加个证书那么简单的事，为什么还要等下一步再优化呢？

平波 2024-09-14 15:57

我倒是觉得好用，像真人就行；我可不希望它是真正的智慧生物；深度这些东东，本质就是曲面建模和贝叶斯/马尔科夫链这种概率建模；只要知识量够大，算力够强，机器就越像人；它有没有意识，并不重要；因为人的意思，估计也是伪命题；

优秀良民 2024-07-10 16:17

明明能躺平，明明可以割韭菜，还花钱研发？为了找骂？说这个能割韭菜？你被割了？你买了吗？是谁年年换mac，是谁年年换iphone？华为的用户好像没有那么干的吧？真让我一个小米用户都看不下去了！

279778325 2024-08-16 16:22

好不容易有个国产开发平台，没有鼓励只有贬低，就算宣传夸大怎么了？那么较真干什么？遍地都是夸大的广告宣传怎么不一个一个去找厂家？批判的同时想想自己能搞一个吗？为什么加上国产俩字就非要这么较真？

来开源啊 2024-09-14 15:07

25× 23.1 √

Ask_x_Seek 2024-09-14 15:19

支持

fastfail 2024-09-15 08:37

捞钱捞到手抽筋

liming0101 2024-09-10 09:09

什么纳吉东西，还碰瓷黑神话

我要探索宇宙 2024-09-16 14:43

3.5.2版本，队列redis能用集群模式的redis吗？

CloudShi83 2024-07-06 17:13

感谢祖师爷赏饭吃，给你磕一个

fasiondog 2024-09-14 17:26

👍

Azeroth008 2024-07-09 10:43

有自研操作系统挺好的啊，那些乱喷的人是什么心态？

开源中国首席路人王 2024-09-15 15:47

ipv6 tomcat需要改什么支持吗

高排量低炭烧 2024-09-14 23:34

牛逼🤬

天

天1天1天 2024-09-14 16:56

文章写的也没错，至于是不是steam的功劳，也无所谓，反正能玩了。

Yanlongli 2024-07-11 17:28

降低了视觉复杂性，增高了操作复杂性。

yh2216 2024-09-14 10:24

wps确实做的很棒，比微软的office好用，比libreoffice好用很多。wps加油，鸿蒙做的不错，继续加油，支持生态建设。

vb2005xu 2024-09-14 10:17

这数据有1%真吗

osc_566335 2024-08-05 10:48

os是媾粉聚集地还不了解吗？只要碰到国产、华子相关报道，必然评论区乌烟瘴气口伏声难止。还能期待啥有深度发言？大佬敢发这些，那还给搞前端什么都懂的“程序员”粪死？

Francesca 2024-09-15 17:30

会不会是你用的版本比较老，新版本应该没问题

RustDesk 2024-09-16 11:20

惨淡

Binx 2024-09-07 08:28

最好提高苹果税到80%，不然怎么彰显尊贵的苹果用户身份

Kevin586 2024-07-29 17:09

真降低成本还是得换go，java太吃内存了

kushu001 2024-08-14 15:24

为什么一定要强调“国产”？是开源的项目么？如果开源，是不是不接受国外开发者的贡献？我只是好奇，不带“国产”，是宣传不了了么😀

开源博客 2024-09-14 22:13

Virtualbox新管网使用vw布局单位，高分屏上使用浏览器的缩放没效果，字体仍老大==

叨

叨叨颠颠 2024-09-14 16:17

代码这东西就和女人穿不同衣服一样，包装不同，就可以换个人样儿，其实里面还是。字符串替换--变量名改改、方法名改改、文件名改改，方法return的改为void，值参改形参，一个类改几个拼接，一个结构体改几个组合，一个方法改几代继承。哪个敢说这是抄，百分之百纯自研，原生态。

zb79463626 2024-08-26 15:51

IBM中国哪有什么研发? 全部都是测试！所谓的搞研发的都是去养老混日子的！

songdragon 2024-08-14 13:11

这个对比的条件还存在好几个问题。 1. solon使用的是smart-http，spring使用的是undertow 2. solon启动本身的自动配置少于spring 这两点就决定了对比的维度不同，性能更好的原因大概率是web服务器、应用配置依赖导致的。如果要拉齐，需要使用同样的web服务器，spring应用排除掉所有的自动配置，只保留web必须的，才能说明框架的性能差距。现在这个结果，无法说明solon本身性能好。

无尽的拉格朗日 2024-09-14 12:56

底层代码大部分估计都能共用反正都是c/c++，上层界面层重写吧

dwingo 2024-07-18 10:12

不是不让用jni和unsafe啊, 只是做了"限制", 只要加命令行参数就能继续用, 目的是为了让使用者考量程序的安全性.

fzn0268 2024-09-04 14:26

这是那个做代码生成器的老哥起的吧

Tobyee 2024-07-09 11:04

没GMS是借口，本质还是不想适配国内的手机系统，等鸿蒙Next出来，看微软拥抱不拥抱就知道了

奶奶灰 2024-09-15 20:28

换kvm 了

osc_566335 2024-08-01 15:05

“虽然两人只有大专学历”—— 大专也算高等教育，现在这些媒体口中已经文盲一个级别的感觉了吗？

osc_50722289 2024-09-06 13:51

如果苹果不让步，微信也不让步那就好看了！微信在中国深入寻常百姓家！支付社交微信根本离不开，如果微信不在IOS上更新，苹果“不用混了”

yh2216 2024-09-14 10:26

猜测：c++部分应该是切换了鸿蒙的系统api，UI则仅仅是使用鸿蒙的UI框架而已。

平波 2024-09-14 19:01

你了做过为为的项目啊；😂

RWKV 模型已部署到 5 亿台 Windows 电脑？真正开源的新一代 AI 架构

RWKV 在 Windows 系统中的角色

RWKV 的 llama.cpp 用法

第一步：获取 gguf 格式模型

方法 1：从 HF 下载现成 gguf 模型（推荐）

方法 2：从 HF 格式转换成 `.gguf` 格式

量化方法：（可选）

第二步：本地构建 llama.cpp

第三步：运行 RWKV 模型推理

批量推理生成

启动 Web 服务

RWKV 模型介绍

加入 RWKV 社区

热门内容

全站热门评论

热门资讯

精彩专栏

开发者进阶之深入理解 Linux 内核底层技术原理

程序员如何入门 AI 应用开发？

聊聊 Unity 与原生桥接

基于事件驱动的邀约自动化机制

Java虚拟线程探究与性能解析

浅析JVM invokedynamic指令和Java Lambda语法｜得物技术

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号

RWKV 模型已部署到 5 亿台 Windows 电脑？真正开源的新一代 AI 架构

RWKV 在 Windows 系统中的角色

RWKV 的 llama.cpp 用法

第一步：获取 gguf 格式模型

方法 1：从 HF 下载现成 gguf 模型（推荐）

方法 2：从 HF 格式转换成 .gguf 格式

量化方法：（可选）

第二步：本地构建 llama.cpp

第三步：运行 RWKV 模型推理

批量推理生成

启动 Web 服务

RWKV 模型介绍

加入 RWKV 社区

相关链接

热门内容

全站热门评论

热门资讯

精彩专栏

开发者进阶之深入理解 Linux 内核底层技术原理

程序员如何入门 AI 应用开发？

聊聊 Unity 与原生桥接

基于事件驱动的邀约自动化机制

Java虚拟线程探究与性能解析

浅析JVM invokedynamic指令和Java Lambda语法｜得物技术

推荐关注

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号

方法 2：从 HF 格式转换成 `.gguf` 格式