开发者实战丨如何利用 OpenVINO™ 部署 Phi-3.5 全家桶

点击蓝字

关注我们,让开发变得更有趣

作者 | 杨亦诚英特尔 AI 软件工程师

卢建晖微软高级云技术布道师

排版 | 吴紫琴

OpenVINO™

近期微软发布其最新的 Phi-3.5 系列 SLM 模型， Phi-3.5-mini, Phi-3.5-vision, 以及 Phi-3.5-MoE，其中 Phi-3.5-mini 增加了多语种以及128k上下文长度的支持，提升中文输入的使用体验；Phi-3.5-vision 全面支持多图片理解任务，拓宽了其在视频理解任务类中的应用场景。

英特尔 AI PC 可以帮助用户利用人工智能技术提高工作效率、创意、游戏、娱乐和安全等性能。它搭载 CPU、GPU 和 NPU，可在本地更高效地处理 AI 任务。其中我们可以依靠 CPU 来运行较小的工作负载并实现低延迟，而 GPU 则非常适合需要并行吞吐量的大型工作负载，例如大语言模型推理任务，NPU 能够以低功耗处理持续运行 AI 工作负载，提高效率。开发者可以利用英特尔 OpenVINO™ 工具套件充分激活这些AI处理单元，更高效地部署深度学习模型，其中 Phi-3. 5 就是一个非常适合运行在 AI PC 上的模型任务。本文将分享如何利用 OpenVINO™ 在你的 AI PC 上部署最新 Phi-3.5-mini 及 Phi-3.5-vision 模型。

项目示例地址：

https://github.com/openvino-dev-samples/Phi-3-workshop

phi-3cookbook ：

https://aka.ms/phi-3cookbook

OpenVINO™

Phi-3.5-mini

1. 模型转换与量化

由于 Phi-3.5 的预训练模型是基于 PyTorch 框架的，因此我们可以利用 Optimum-intel 的命令型工具快速从 Hugging Face 上导出 Phi-3.5-mini 的预训练模型，并通过内置的 NNCF 工具对模型进行权重量化压缩，以此提升推理性能，降低资源占用。

optimum-cliexport openvino--model microsoft/Phi-3.5-mini-instruct --task text-generation-with-past--weight-format int4--group-size 128--ratio 0.6--sym--trust-remote-code phi-3.5-mini-instruct-ov

开发者可以根据模型的输出结果，调整其中的量化参数，包括：

weight-format：量化精度，可以选择 fp32,fp16,int8,int4,int4_sym_g128,int4_asym_g128,int4_sym_g64,int4_asym_g64。
group-size：权重里共享量化参数的通道数量。
ratio：int4/int8 权重比例，默认为1.0，0.6表示60%的权重以 int4 表，40%以 int8 表示。
sym：是否开启对称量化。

更多参数选项可以通过：optimum-cli export openvino -h 命令查询。

2. Optimum-intel部署

为了方便 Transformers 库用户体验 OpenVINO™，开发者可以利用 Optimum-intel 所提供的类 Transformers API 进行模型任务的部署。在不改变原本代码逻辑的前提下，只需要将 AutoModelForCausalLM 对象切换为 OVModelForCausalLM，便可以轻松实现对于推理后端的迁移，利用 OpenVINO™ 来加速 Phi-3.5-mini 原有的 Pipeline。

from optimum.intel.openvino import OVModelForCausalLMfrom transformers import AutoConfig, AutoTokenizer
ov_model = OVModelForCausalLM.from_pretrained(    llm_model_path,    device='GPU',    config=AutoConfig.from_pretrained(llm_model_path, trust_remote_code=True),    trust_remote_code=True,)tok = AutoTokenizer.from_pretrained(llm_model_path, trust_remote_code=True)prompt = "<|user|>\n你了解 .NET 吗?\n<|end|><|assistant|>\n"input_tokens = tok(prompt, return_tensors="pt", **tokenizer_kwargs)answer = ov_model.generate(**input_tokens, max_new_tokens=1024)tok.batch_decode(answer, skip_special_tokens=True)[0]

除此以外，你也可以通过 device 来指定模型部署的硬件平台为英特尔 CPU 或是 GPU。

3. GenAI API部署

当然考虑到 Transformers 中大量的第三方依赖，如果开发者想实现轻量化部署的目的，也可以利用 OpenVINO™ 原生的 GenAI API 来构建推理任务，由于 GenAI API 底层的 pipeline 是基于 C++ 构建，同时优化了 chat 模式下 kvcache 的缓存逻辑，因此相较 Optimum-intel，GenAI API 的资源占用和性能都是更优的。

import openvino_genai as ov_genai
pipe = ov_genai.LLMPipeline(llm_model_path, "GPU")

可以看到在使用 GenAI API 的情况下，我们仅用3行代码就构建起了一个完整的文本生成任务 Pipeline。

OpenVINO™

Phi-3.5-vision

1. 模型转换与量化

目前 Phi-3.5-vision 的推理任务还没有被完全集成进 Optimum 工具中，因此我们需要手动完成模型的转换和量化，其中包含语言模型 lang_model，图像编码模型 image_embed，token 编码模型 embed_token 模型以及图像特征映射模型 img_projection。

为了简化转化步骤，我们提前对这些转化任务行进行了封装，开发者只需要调用示例中提供的函数便可完成这些模型的转换，并对其中负载最大的语言模型进行量化。

from ov_phi3_vision import convert_phi3_modelmodel_id = "microsoft/Phi-3.5-vision-instruct"out_dir = Path("../model/phi-3.5-vision-instruct-ov")compression_configuration = {    "mode": nncf.CompressWeightsMode.INT4_SYM,    "group_size": 64,    "ratio": 0.6,}if not out_dir.exists():    convert_phi3_model(model_id, out_dir, compression_configuration)

2. 图片内容理解

此外在该示例中，我们也对模型的推理任务进行封装，通过以下代码便可快速部署图像理解任务。

from transformers import AutoProcessor, TextStreamer
messages = [    {"role": "user", "content": "<|image_1|>\nPlease create Python code for image, and use plt to save the new picture under imgs/ and name it phi-3-vision.jpg."},]
processor = AutoProcessor.from_pretrained(out_dir, trust_remote_code=True)
prompt = processor.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(prompt, [image], return_tensors="pt")
generation_args = {"max_new_tokens": 3072, "do_sample": False, "streamer": TextStreamer(processor.tokenizer, skip_prompt=True, skip_special_tokens=True)}
print("Coding:")generate_ids = model.generate(**inputs, eos_token_id=processor.tokenizer.eos_token_id, **generation_args)

图：Phi-3.5-vision输出示例

可以看到在理解拼图内容后，Phi-3-vision 为我们生成了一段 Python 脚本来复现拼图数据。

3. 视频内容理解

由于 Phi-3.5-vision 可以同时支持对多个图像输入，因此可以基于这一特性实现视频内容理解，实现方法也特别简单，仅需对视频文件抽帧后保存为图片，并将这些图片基于 Phi-3.5-vision 提供的预处理脚本合并后，转化为 Prompt 模板，送入模型流水线进行推理。

images = [] placeholder = "" for i in range(1,4):     with open("../examples/output/keyframe_"+str(i)+".jpg", "rb") as f:        images.append(Image.open("../examples/output/keyframe_"+str(i)+".jpg"))        placeholder += f"<|image_{i}|>\n"

from transformers import AutoProcessor, TextStreamer
messages = [    {"role": "user", "content":  placeholder+"Summarize the video."},]
processor = AutoProcessor.from_pretrained(out_dir, trust_remote_code=True)
prompt = processor.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(prompt, images, return_tensors="pt")
generation_args = {"max_new_tokens": 500, "do_sample": False, "streamer": TextStreamer(processor.tokenizer, skip_prompt=True, skip_special_tokens=True)}
print("Summary:")generate_ids = model.generate(**inputs, eos_token_id=processor.tokenizer.eos_token_id, **generation_args)

OpenVINO™

总结

通过 OpenVINO™ 封装后的 API 函数，开发者可以非常便捷地对预训练模型进行转化压缩，并实现本地化的推理任务部署。同时基于 Phi-3.5 在小语言模型场景下强大的文本与图像理解能力，我们仅在轻薄本上便可以构建起一个完整的语言模型应用，在保护用户数据隐私的同时，降低硬件门槛。

参考资料

Optimum-intel:

https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/llm-inference-hf.html

OpenVINO Gen API:

https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-guide.html

OpenVINO™

---------------------------------------

*OpenVINO and the OpenVINO logo are trademarks of Intel Corporation or its subsidiaries.

-----------------------------

OpenVINO 中文社区

微信号 : openvinodev

B站：OpenVINO中文社区

“开放、开源、共创”

致力于通过定期举办线上与线下的沙龙、动手实践及开发者交流大会等活动，促进人工智能开发者之间的交流学习。

○ 点击 “ 在看 ”，让更多人看见

本文分享自微信公众号 - OpenVINO 中文社区（openvinodev）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

yh2216 2024-09-14 10:26

猜测：c++部分应该是切换了鸿蒙的系统api，UI则仅仅是使用鸿蒙的UI框架而已。

Kevin586 2024-07-29 17:09

真降低成本还是得换go，java太吃内存了

fzn0268 2024-09-04 14:26

这是那个做代码生成器的老哥起的吧

呼呼南风 2024-09-14 11:18

幸好我把自己电脑换成win10了。

字节跳动开源 2024-09-14 16:05

可以的，可以看看发布的一些用户案例

0day 2024-07-21 11:52

一个流氓也配谈安全？

无尽的拉格朗日 2024-09-14 12:56

底层代码大部分估计都能共用反正都是c/c++，上层界面层重写吧

平波 2024-09-14 15:46

你真是行家里手啊，😂；这个本质是数学建模，就像初中数学中的板据两点确定一条直线，然后可以根据任意x,预测y值啊，其实就这么简单啊

infoworld 2024-09-11 18:00

感谢，正是有你们这些先驱做的实事，才能避免被国外的系统和应用垄断。

平波 2024-09-14 19:01

你了做过为为的项目啊；😂

Tobyee 2024-07-09 11:04

没GMS是借口，本质还是不想适配国内的手机系统，等鸿蒙Next出来，看微软拥抱不拥抱就知道了

Artrener 2024-07-21 15:12

可以看他不爽，看360不爽，但人家说的是事实。比如说航空业的业内人士也这么说的。

zb79463626 2024-08-26 15:51

IBM中国哪有什么研发? 全部都是测试！所谓的搞研发的都是去养老混日子的！

开源中国首席路人王 2024-09-15 15:47

ipv6 tomcat需要改什么支持吗

我要探索宇宙 2024-09-16 14:43

3.5.2版本，队列redis能用集群模式的redis吗？

vb2005xu 2024-09-14 10:17

这数据有1%真吗

kakai 2024-09-07 10:39

微信咋得罪你了？不管怎么样，微信此举哪怕从自身商业利益出发，让苹果降低中国税率这是利于中国人的，这个税率可不仅仅是针对微信的，还苹果大功一件，这是多么愚蠢、可耻的言论！

奶奶灰 2024-09-15 20:28

换kvm 了

Ask_x_Seek 2024-09-14 15:19

支持

fasiondog 2024-09-14 17:26

👍

Kevin586 2024-09-14 16:00

vagrant什么时候支持7.1我才更

Francesca 2024-09-15 17:30

会不会是你用的版本比较老，新版本应该没问题

RustDesk 2024-09-16 11:20

惨淡

HalLi 2024-09-09 01:10

普通用户不懂就算了，怎么连程序员都不懂？苹果是全平台30%，国产是渠道服50%。微信、抖音这种大app哪来的渠道服，除了游戏，哪个app带渠道服。

CloudShi83 2024-07-06 17:13

感谢祖师爷赏饭吃，给你磕一个

osc_50722289 2024-09-06 13:51

如果苹果不让步，微信也不让步那就好看了！微信在中国深入寻常百姓家！支付社交微信根本离不开，如果微信不在IOS上更新，苹果“不用混了”

平波 2024-09-14 15:57

我倒是觉得好用，像真人就行；我可不希望它是真正的智慧生物；深度这些东东，本质就是曲面建模和贝叶斯/马尔科夫链这种概率建模；只要知识量够大，算力够强，机器就越像人；它有没有意识，并不重要；因为人的意思，估计也是伪命题；

封神梦 2024-09-14 17:53

反正wps就是各种vip广告，挺恶心人的

烈冰 2024-07-22 08:41

不如说国内90%的电脑都没安装CrowdStrike软件

yh2216 2024-09-14 10:24

wps确实做的很棒，比微软的office好用，比libreoffice好用很多。wps加油，鸿蒙做的不错，继续加油，支持生态建设。

longzz 2024-09-14 11:04

🤣65岁还在写代码吗？

osc_566335 2024-08-01 15:05

“虽然两人只有大专学历”—— 大专也算高等教育，现在这些媒体口中已经文盲一个级别的感觉了吗？

kushu001 2024-08-14 15:24

为什么一定要强调“国产”？是开源的项目么？如果开源，是不是不接受国外开发者的贡献？我只是好奇，不带“国产”，是宣传不了了么😀

osc_566335 2024-08-05 10:48

os是媾粉聚集地还不了解吗？只要碰到国产、华子相关报道，必然评论区乌烟瘴气口伏声难止。还能期待啥有深度发言？大佬敢发这些，那还给搞前端什么都懂的“程序员”粪死？

fastfail 2024-09-15 08:37

捞钱捞到手抽筋

liming0101 2024-09-10 09:09

什么纳吉东西，还碰瓷黑神话

dwingo 2024-07-18 10:12

不是不让用jni和unsafe啊, 只是做了"限制", 只要加命令行参数就能继续用, 目的是为了让使用者考量程序的安全性.

大后锋 2024-07-10 14:03

然后交警找责任方，打过去是牛逼高大上的生成式AI的客服

智布道 2024-08-13 12:02

不管是谁在打平安县城，我三五八团一定帮帮场子！

简洛-默 2024-08-12 19:31

你是家里才通网吗? 龙芯早都弃用MIPS了，现在是自研的LoongArch。自己好好看看吧：https://loongarch.dev/zh-cn/posts/20210501-loongarch-manual/

来开源啊 2024-09-14 15:07

25× 23.1 √

深夜49 2024-09-14 14:36

免费版只能用30分钟，太坑了吧。

黑人牙膏 2024-07-21 12:12

真的人不要脸则无敌，只要他不尴尬，尴尬的是别人。

Yanlongli 2024-07-11 17:28

降低了视觉复杂性，增高了操作复杂性。

blue_think 2024-08-26 11:00

别光喷华为啊，说点你自己的能力，到了什么程度，有什么成就，这样好歹有点说服力吧

279778325 2024-08-16 16:22

好不容易有个国产开发平台，没有鼓励只有贬低，就算宣传夸大怎么了？那么较真干什么？遍地都是夸大的广告宣传怎么不一个一个去找厂家？批判的同时想想自己能搞一个吗？为什么加上国产俩字就非要这么较真？

天

天1天1天 2024-09-14 16:56

文章写的也没错，至于是不是steam的功劳，也无所谓，反正能玩了。

Binx 2024-09-07 08:28

最好提高苹果税到80%，不然怎么彰显尊贵的苹果用户身份

浪_客 2024-09-15 12:54

继续用vm吧，ensp不让用新版vbox😂

Azeroth008 2024-07-09 10:43

有自研操作系统挺好的啊，那些乱喷的人是什么心态？

高排量低炭烧 2024-09-14 23:34

牛逼🤬

阳光满地 2024-09-15 00:25

加个证书那么简单的事，为什么还要等下一步再优化呢？

zb79463626 2024-09-15 12:07

纯血鸿蒙不再是用android改的了，DevEco什么时候也纯血脱离Eclipse啊？😄

优秀良民 2024-07-10 16:17

明明能躺平，明明可以割韭菜，还花钱研发？为了找骂？说这个能割韭菜？你被割了？你买了吗？是谁年年换mac，是谁年年换iphone？华为的用户好像没有那么干的吧？真让我一个小米用户都看不下去了！

开源博客 2024-09-14 22:13

Virtualbox新管网使用vw布局单位，高分屏上使用浏览器的缩放没效果，字体仍老大==

我有我可以 2024-07-09 11:40

喷子们之所以喷，其本质是为自己的阴暗和自卑找理由罢了。

加百列Gabriel 2024-09-14 13:50

各位不要急着更新, 更新完之后linux虚拟机不支持3D加速了

平波 2024-07-07 16:54

吃完就砸锅，好像那个啥纯血，吃完了，就想把小米，oppo、vivo的锅咂了；😂

叨

叨叨颠颠 2024-09-14 16:17

代码这东西就和女人穿不同衣服一样，包装不同，就可以换个人样儿，其实里面还是。字符串替换--变量名改改、方法名改改、文件名改改，方法return的改为void，值参改形参，一个类改几个拼接，一个结构体改几个组合，一个方法改几代继承。哪个敢说这是抄，百分之百纯自研，原生态。

songdragon 2024-08-14 13:11

这个对比的条件还存在好几个问题。 1. solon使用的是smart-http，spring使用的是undertow 2. solon启动本身的自动配置少于spring 这两点就决定了对比的维度不同，性能更好的原因大概率是web服务器、应用配置依赖导致的。如果要拉齐，需要使用同样的web服务器，spring应用排除掉所有的自动配置，只保留web必须的，才能说明框架的性能差距。现在这个结果，无法说明solon本身性能好。

开发者实战丨如何利用 OpenVINO™ 部署 Phi-3.5 全家桶

热门内容

全站热门评论

关于作者

作者的专辑

作者的其它热门文章

热门资讯

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号

开发者实战丨如何利用 OpenVINO™ 部署 Phi-3.5 全家桶

热门内容

全站热门评论

关于作者

作者的专辑

作者的其它热门文章

热门资讯

推荐关注

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号