被压缩的视觉：视频编解码技术

文 | 何鸣网易云信音视频算法工程师

导读：视觉是人类获得信息的主要方式，每天有大量的视频信息被生产并传输。未经压缩的视频内容占用的存储空间和传输带宽十分巨大，以常见的30fps高清视频为例，采用avi格式存储的YUV420视频流一分钟就有2GB大小，传输带宽需要40MB/s。所以我们日常从手机和电脑等电子设备上获得的视频信息都是被压缩后再传输和存储的，压缩这些视频信息的技术便称为视频编解码技术。

1. 颜色空间

我们人眼的视觉信息是由视杆细胞和视锥细胞获得的。视杆细胞主要感受光线的明暗变化，获取视觉的亮度信息，而视锥细胞可以感受到颜色。根据仿生的原理，计算机采集视频信号也采用亮度信息和速度信息分别采集的方式。由于人眼的视杆细胞数量比视锥细胞的数量多很多，所以人眼对于亮度信息更加敏感，所以在采集视频信息时，常采用YUV420的格式采集。具体操作如图1中所示，四个亮度像素Y共用一组红色和蓝色的色度像素。

图1 YUV420颜色空间

采集来的像素在计算机内部都采用2进制的形式存储，为了表示人眼视觉的颜色空间，在计算机内部一般采用256色存储，即亮度信息和色度信息的取值范围都是0到255。通过不同的数值组合可以表示出不同的颜色，例如，YUV都是255时是粉色，YUV都是0时是深绿色。这样为了表示一个像素需要1.5字节的数据，而一幅图像中有成千上万个像素。一幅720p分辨率的视频包含92万个像素，一幅1080p分辨率的视频包含207万个像素，而一秒钟的视频包含30帧图像。对于数据量巨大的YUV视频数据，需要压缩后才能存储与传输。

2. 压缩原理

压缩视频信息与压缩文件信息不同，在视频中存在着大量的冗余信息。如图2所示，相邻帧之间的相似性会有时间上的冗余，同一帧的相邻块之间存在着空间上的冗余，由于人眼感知对于低频信息更敏感，所以存在着感知上的冗余。

图2 视频中的冗余信息

视频压缩的基本原理就是去除这些冗余信息，将视频压缩300到500倍，常见的压缩方法有预测编码、变换编码和熵编码技术。如图3所示，将输入的视频信息按照各个编码模块进行处理，输出码流的过程称为视频编码过程，再通过对应的熵解码、变换解码和预测解码过程，将码流还原成YUV420视频流的过程称为视频解码过程。可以将视频编解码的过程看作是压缩和解压缩的过程，但在该过程中，由于压缩的算法有所差异，所以解码的算法必须对应着编码的算法，不同的编解码算法称为视频标准。

图3 视频编码技术

现在常用的视频标准，例如H.26x系列标准，其中最常用的是H.264标准，由于开源编码器x264的普及，也将这代标准称为x264标准。H.26x系列标准的研发与进展一直是行业的标杆，最新的H.266/VVC标准加入许多新技术，而这些技术可以简单概括为以下几个方面：

图4 H.265的块划分示意图

块划分技术：除深度学习技术外，传统的视频编解码技术都是按块去处理视频，而且趋势是最大块越来越大，最小块越来越小，块的类型越来越多。对于相对静止的区域，采用大块可以提高压缩效率，使用一两个标志位或者很少的残差数据就可以表示一个大块，可以极大的压缩视频画面。对于运动比较多的区域，采用小块可以提高画质质量，将运动的细节更完整的表示出来。为了更精细的划分运动和静止的区域，块划分技术采用各种形状的矩形块代替原有的方形块划分。在工程落地方面，越来越复杂的块划分技术浪费大量的计算资源，所以很多快速算法都是针对块划分模式进行预测，将机器学习算法和深度学习算法应用到块划分预测过程中，可以在质量损失微乎其微的情况下，快速得出块划分模式。

图5 帧内预测示意图

帧内预测：帧内预测属于预测编码的范畴，在视频序列中，有一些帧和块的预测信息无法从参考帧中获得，这样的帧被称为I帧或帧内预测块。在I帧中所有的块都是帧内预测块，而帧内预测块可以存在于I帧或P帧和B帧中。具体怎么实现帧内预测呢，对于一个帧内预测块，首先在该块周围补偿出一圈像素（对于边缘部分，可以采用扩边的方式），根据这圈像素值，采用角度预测或者平面预测的方式补偿出当前块，再通过与原图比较，选择损失最小的预测模式。由于帧内预测补偿时采用的像素值都来自于当前帧，不需要参考帧信息，所以帧内预测常用于序列首帧或者视频信息变化比较大的区域。

图6 帧间预测示意图

帧间预测：与帧内预测相对应的是帧间预测技术，他们同属于预测编码技术。帧间预测的参考图像信息来自于参考帧，所以在视频首帧或者参考帧缺失的情况下不能使用帧间预测技术。帧间预测的关键过程便是运动搜索与运动补偿过程。运动搜索过程负责搜索出参考帧上最接近当前块的图像块，并生成运动矢量，运动补偿则根据参考帧信息生成当前帧信息。根据最新的帧间预测技术，运动信息可以包含平移、缩放和旋转。由于运动矢量指向的位置未必是整数像素的位置，所以在运动补偿过程中还涉及到亚像素补偿技术。通过帧间预测可以极大提高视频的压缩率，例如在参考帧中有着相似度很高的块，则可以对当前块采用skip的模式编码，仅需一个标志位即可编码原有块内所有的YUV信息。

图7 16x16DCT变换核

变换量化：变换与量化技术是配套使用的，在刚刚的分析中，由于人眼对于高频信息的不敏感，需要对高频信息进行压缩，在频域更容易对其进行操作，所以需要对图像进行变换。常用的变换方式有哈达玛、整数DCT和整数DST，由于有预测编码技术的存在，所以变换通常在残差信息上操作，根据不同的压缩率要求，可以对变换后的系数进行量化，仅保留人眼更敏感的低频信息。在解码过程中，需要配套的反量化和反变换技术，将压缩后的残差系数还原出来。

图8 CABAC编码器框架

熵编码：对于标志位和残差系数，还需要一套编码技术进一步压缩这些信息，对于一些关键信息，可以采用指数哥伦布，游程编码等方式压缩，对于大量的残差系数和图像帧内的编码信息，现在常用基于上下文模型的熵编码技术进行压缩。熵编码的基本原理是对小概率符号使用更多比特编码，而大概率符号则采用较少的比特编码，通过上下文模型，大部分的大概率符号都可以被压缩。区别于预测编码和变换量化过程，熵编码过程是无损的。

图9 环路滤波器SAO的4种边界补偿模式

环路滤波：对于参考帧来说，由于后续的视频都是依据前面视频帧的信息补偿出来，所以参考帧中出现的损失和错误，会延续到整个序列，随着运动补偿的过程，或扩散到整个视频帧当中。为了降低视频的损失，在每一帧编码完之后，都会对其进行后处理，处理这些视频帧的滤波器被称为环路滤波器，使其更加接近于原始视频序列。现阶段，许多基于深度学习的后处理技术被应用到环路滤波器当中，在编解码过程中起到很好的效果。

图10 WPP并行技术示意图

除了以上技术，在工程化落地过程中，码控技术、并行技术、指令集技术同样影响编码器效果。视频编解码技术包含着一系列算法的技术集成，将这些技术组合使用，形成各类视频编解码标准。除H.26x视频标准之外，还存在着开放视频标准联盟的AV1标准，国产的AVS标准等。

3. 视频编码技术的挑战与发展

根据现在的技术需求，未来的视频编码技术需要面对更高分辨率、更高帧率、更广色域及HDR视频的挑战。同时，面对更多形式的视频内容，例如全景视频、点云、深度学习特征图等，视频编码技术需要与时俱进，不断发展。现有技术方兴未艾，未来技术仍然可期。

直播预告

视频编解码技术一直是视频内容应用中的核心业务，基于各个平台和各个渠道的视频内容采集与分发都涉及到视频编解码技术的介入。在RTC业务场景下，如何构建高效快速的视频编解码引擎，如何对现有的编解码技术进行优化改进，如何在公有协议基础上实现私有协议，如何重写编解码框架等问题都值得关注。

今晚19:30，网易云信音视频算法工程师何鸣将为大家详细介绍网易云信RTC业务场景下的编解码技术优化与实践，以及未来的发展方向。

何鸣线上直播课海报

更多技术干货欢迎关注【网易智企技术+】微信公众号

叨

叨叨颠颠 2024-09-14 16:17

代码这东西就和女人穿不同衣服一样，包装不同，就可以换个人样儿，其实里面还是。字符串替换--变量名改改、方法名改改、文件名改改，方法return的改为void，值参改形参，一个类改几个拼接，一个结构体改几个组合，一个方法改几代继承。哪个敢说这是抄，百分之百纯自研，原生态。

HalLi 2024-09-09 01:10

普通用户不懂就算了，怎么连程序员都不懂？苹果是全平台30%，国产是渠道服50%。微信、抖音这种大app哪来的渠道服，除了游戏，哪个app带渠道服。

zb79463626 2024-08-26 15:51

IBM中国哪有什么研发? 全部都是测试！所谓的搞研发的都是去养老混日子的！

封神梦 2024-09-14 17:53

反正wps就是各种vip广告，挺恶心人的

longzz 2024-09-14 11:04

🤣65岁还在写代码吗？

kakai 2024-09-07 10:39

微信咋得罪你了？不管怎么样，微信此举哪怕从自身商业利益出发，让苹果降低中国税率这是利于中国人的，这个税率可不仅仅是针对微信的，还苹果大功一件，这是多么愚蠢、可耻的言论！

yh2216 2024-09-14 10:24

wps确实做的很棒，比微软的office好用，比libreoffice好用很多。wps加油，鸿蒙做的不错，继续加油，支持生态建设。

liming0101 2024-09-10 09:09

什么纳吉东西，还碰瓷黑神话

智布道 2024-08-13 12:02

不管是谁在打平安县城，我三五八团一定帮帮场子！

我有我可以 2024-07-09 11:40

喷子们之所以喷，其本质是为自己的阴暗和自卑找理由罢了。

呼呼南风 2024-09-14 11:18

幸好我把自己电脑换成win10了。

fasiondog 2024-09-14 17:26

👍

简洛-默 2024-08-12 19:31

你是家里才通网吗? 龙芯早都弃用MIPS了，现在是自研的LoongArch。自己好好看看吧：https://loongarch.dev/zh-cn/posts/20210501-loongarch-manual/

黑人牙膏 2024-07-21 12:12

真的人不要脸则无敌，只要他不尴尬，尴尬的是别人。

infoworld 2024-09-11 18:00

感谢，正是有你们这些先驱做的实事，才能避免被国外的系统和应用垄断。

开源中国首席路人王 2024-09-15 15:47

ipv6 tomcat需要改什么支持吗

字节跳动开源 2024-09-14 16:05

可以的，可以看看发布的一些用户案例

来开源啊 2024-09-14 15:07

25× 23.1 √

blue_think 2024-08-26 11:00

别光喷华为啊，说点你自己的能力，到了什么程度，有什么成就，这样好歹有点说服力吧

osc_566335 2024-08-01 15:05

“虽然两人只有大专学历”—— 大专也算高等教育，现在这些媒体口中已经文盲一个级别的感觉了吗？

奶奶灰 2024-09-15 20:28

换kvm 了

kushu001 2024-08-14 15:24

为什么一定要强调“国产”？是开源的项目么？如果开源，是不是不接受国外开发者的贡献？我只是好奇，不带“国产”，是宣传不了了么😀

Francesca 2024-09-15 17:30

会不会是你用的版本比较老，新版本应该没问题

开源博客 2024-09-14 22:13

Virtualbox新管网使用vw布局单位，高分屏上使用浏览器的缩放没效果，字体仍老大==

高排量低炭烧 2024-09-14 23:34

牛逼🤬

阳光满地 2024-09-15 00:25

加个证书那么简单的事，为什么还要等下一步再优化呢？

浪_客 2024-09-15 12:54

继续用vm吧，ensp不让用新版vbox😂

平波 2024-09-14 19:01

你了做过为为的项目啊；😂

fastfail 2024-09-15 08:37

捞钱捞到手抽筋

优秀良民 2024-07-10 16:17

明明能躺平，明明可以割韭菜，还花钱研发？为了找骂？说这个能割韭菜？你被割了？你买了吗？是谁年年换mac，是谁年年换iphone？华为的用户好像没有那么干的吧？真让我一个小米用户都看不下去了！

我要探索宇宙 2024-09-16 14:43

3.5.2版本，队列redis能用集群模式的redis吗？

Binx 2024-09-07 08:28

最好提高苹果税到80%，不然怎么彰显尊贵的苹果用户身份

Azeroth008 2024-07-09 10:43

有自研操作系统挺好的啊，那些乱喷的人是什么心态？

平波 2024-09-14 15:57

我倒是觉得好用，像真人就行；我可不希望它是真正的智慧生物；深度这些东东，本质就是曲面建模和贝叶斯/马尔科夫链这种概率建模；只要知识量够大，算力够强，机器就越像人；它有没有意识，并不重要；因为人的意思，估计也是伪命题；

Yanlongli 2024-07-11 17:28

降低了视觉复杂性，增高了操作复杂性。

加百列Gabriel 2024-09-14 13:50

各位不要急着更新, 更新完之后linux虚拟机不支持3D加速了

大后锋 2024-07-10 14:03

然后交警找责任方，打过去是牛逼高大上的生成式AI的客服

Artrener 2024-07-21 15:12

可以看他不爽，看360不爽，但人家说的是事实。比如说航空业的业内人士也这么说的。

天

天1天1天 2024-09-14 16:56

文章写的也没错，至于是不是steam的功劳，也无所谓，反正能玩了。

平波 2024-07-07 16:54

吃完就砸锅，好像那个啥纯血，吃完了，就想把小米，oppo、vivo的锅咂了；😂

Kevin586 2024-07-29 17:09

真降低成本还是得换go，java太吃内存了

vb2005xu 2024-09-14 10:17

这数据有1%真吗

CloudShi83 2024-07-06 17:13

感谢祖师爷赏饭吃，给你磕一个

fzn0268 2024-09-04 14:26

这是那个做代码生成器的老哥起的吧

zb79463626 2024-09-15 12:07

纯血鸿蒙不再是用android改的了，DevEco什么时候也纯血脱离Eclipse啊？😄

279778325 2024-08-16 16:22

好不容易有个国产开发平台，没有鼓励只有贬低，就算宣传夸大怎么了？那么较真干什么？遍地都是夸大的广告宣传怎么不一个一个去找厂家？批判的同时想想自己能搞一个吗？为什么加上国产俩字就非要这么较真？

osc_566335 2024-08-05 10:48

os是媾粉聚集地还不了解吗？只要碰到国产、华子相关报道，必然评论区乌烟瘴气口伏声难止。还能期待啥有深度发言？大佬敢发这些，那还给搞前端什么都懂的“程序员”粪死？

深夜49 2024-09-14 14:36

免费版只能用30分钟，太坑了吧。

无尽的拉格朗日 2024-09-14 12:56

底层代码大部分估计都能共用反正都是c/c++，上层界面层重写吧

RustDesk 2024-09-16 11:20

惨淡

0day 2024-07-21 11:52

一个流氓也配谈安全？

osc_50722289 2024-09-06 13:51

如果苹果不让步，微信也不让步那就好看了！微信在中国深入寻常百姓家！支付社交微信根本离不开，如果微信不在IOS上更新，苹果“不用混了”

烈冰 2024-07-22 08:41

不如说国内90%的电脑都没安装CrowdStrike软件

yh2216 2024-09-14 10:26

猜测：c++部分应该是切换了鸿蒙的系统api，UI则仅仅是使用鸿蒙的UI框架而已。

Tobyee 2024-07-09 11:04

没GMS是借口，本质还是不想适配国内的手机系统，等鸿蒙Next出来，看微软拥抱不拥抱就知道了

平波 2024-09-14 15:46

你真是行家里手啊，😂；这个本质是数学建模，就像初中数学中的板据两点确定一条直线，然后可以根据任意x,预测y值啊，其实就这么简单啊

songdragon 2024-08-14 13:11

这个对比的条件还存在好几个问题。 1. solon使用的是smart-http，spring使用的是undertow 2. solon启动本身的自动配置少于spring 这两点就决定了对比的维度不同，性能更好的原因大概率是web服务器、应用配置依赖导致的。如果要拉齐，需要使用同样的web服务器，spring应用排除掉所有的自动配置，只保留web必须的，才能说明框架的性能差距。现在这个结果，无法说明solon本身性能好。

dwingo 2024-07-18 10:12

不是不让用jni和unsafe啊, 只是做了"限制", 只要加命令行参数就能继续用, 目的是为了让使用者考量程序的安全性.

Ask_x_Seek 2024-09-14 15:19

支持

Kevin586 2024-09-14 16:00

vagrant什么时候支持7.1我才更

被压缩的视觉：视频编解码技术

1. 颜色空间

2. 压缩原理

3. 视频编码技术的挑战与发展

直播预告

热门内容

全站热门评论

关于作者

作者的专辑

作者的其它热门文章

热门资讯

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号

被压缩的视觉：视频编解码技术

1. 颜色空间

2. 压缩原理

3. 视频编码技术的挑战与发展

直播预告

热门内容

全站热门评论

关于作者

作者的专辑

作者的其它热门文章

热门资讯

推荐关注

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号