数字化领航总第18期《科技最前沿产业第一线》

Focus 焦点

视频编码技术5大趋势

文/常向青袁智雷昭燕林涛

研究显示，在人的感知系统所获取的信息中，视觉信息大约占到80%~85%。相应地，随着信息传递方式的逐渐丰富化和便捷化，以视觉方式表达和传递的信息越来越多，视频应用在各行各业呈现爆发趋势。用于视频压缩的视频编码技术是视频应用的基础、核心技术，始于20世纪五六十年代，积淀深厚，是视频应用发展背后重要的支撑力量。

视频编码技术演进的驱动力

近两年来，视频编码市场格外活跃，新的标准和实现方法开始萌生，关注和投入其中的企业也越来越多。技术发展背后的驱动力量可以归为以下三类：

1. 应用驱动

1) 各行业视频应用的爆发。互联网媒体上视频直播、点播、网络游戏等应用的日益流行，受到了互联网企业的重点关注。另外，教育行业的在线远程教学、医疗行业的远程诊断治疗以及各个企业的视频会议、虚拟桌面等应用的兴起也是很重要的推动因素。

2) 移动短视频普及。各大短视频应用是继文字、图片之后的另一大内容创新点，集微视频生产和分享于一体，成为微时代全新的社交平台和超级入口，视频编码是移动短视频平台的重要支撑技术。

3) 4K/8K高清视频。4K和8K超高清是广播电视领域继数字化、高清化之后的又一次重大技术变革。为大力推进超高清视频产业发展和相关领域应用的发展，2019年3月，工信部、国家广播电视总局、中央广播电视总台印发《超高清视频产业发展行动计划（2019-2022年）》，明确“4K先行、兼顾8K”的总体技术路线，指出2022年，我国超高清视频产业总体规模超过4万亿元，4K产业生态体系基本完善，8K关键技术产品研发和产业化取得突破。另外，中央广播电视总台2018到2021年将完成全台4K超高清频道技术系统建设，具备每天约100小时的4K节目制作能力，将于2021年开展8K超高清技术试验，为2022年北京冬奥会8K信号制作提供支撑，国际赛事的采用将会加速8K生态在全球各区域的布局。

4) VR（Virtual Reality，虚拟现实）/AR(Augmented Reality)的发展。作为将人与虚拟世界展开互动的标志性技术，VR/AR带来的身临其境的增强体验让人期待。VR游戏、AR购物、全景视频等应用正在以更大的步伐走进市场。据估计，AR/VR和其他高清视频一起将成为5G高带宽带来的一批应用。这些如雨后春笋般出现的新应用为传统的视频编码技术带来挑战。

2. 技术驱动

1) AI新技术。在大数据、计算能力提升的大背景下，近十年来人工智能在语音、自然语言和视觉领域取得很大突破，逐渐开始渗透到各行业去解决不同场景的问题，视频编码领域也不例外。2016年以来，基于机器学习的编码论文越来越多的涌现，AI为编码的技术实现带来了新的方法。

2) 异构硬件加速。除了基于CPU实现的软件编码方式外，为了加快执行速度，基于GPU、FPGA的硬件加速方案也成为重要的增强方式。

3. 成本驱动

带宽、存储、算力成本都在不断较低。由于视频文件本身所占空间较大，而且随着视频数量的增多、画幅的增大、时长的增加，视频处理、传输和存储的成本压力也急剧增加。视频编码性能效率的进一步提升，对减轻算力、带宽和存储成本有重要意义。

视频编码技术及其发展

视频压缩的本质是将数字化视频中的信息以最精简的方式予以表达，即核心任务是去除原有视频中的冗余表达，主要包括空间冗余、时间冗余和编码冗余（也叫信息熵冗余）三种。简单来说的话，去除冗余的过程主要贯彻两个原则：

一是重点表达差异信息，共同的信息只表达一次。因此，需要通过各种方法寻找共同点、计算差异，这是基于预测进行残差编码的方法。根据之前已编码块的信息预测当前块，计算当前块与预测块的残差，仅对残差进行编码，由于残差的能量比原始块的能量小，因此所需的编码也少很多。视频由连续的一帧帧图像组成，这个原则主要用于空间冗余和时间冗余的去除，空间冗余主要用于帧内压缩，时间冗余用于帧间压缩。

第二个原则是同样的信息用最短的方式表达。正如常见的汉字往往形式简单，罕见字往往笔画繁多一样，对于视频压缩也是如此，需要根据信息出现的概率分布，对于出现概率大的信息要用最短的编码表达，从而使得总体表达所用编码最少。这个原则主要用于编码冗余。

基于以上原理形成了以预测、变换和熵编码为核心的主流视频编码框架。

随着视频编码技术的发展，国际上相应地制定了一系列标准，图1为视频编码标准的发展历程图。可以看到，在ITU-T和MPEG形成联合工作组后，主要由这个联合工作组、Google 发起的AOM和中国联合IEEE的AVS三个组织在引领视频编码标准的制定。

按照提升规律，编码效率每提升50%以上就会成为新一代标准，如 H.264等比前一代提升50%左右就可称其为第二代，H.265等相对于第二代的提升达到50%，我们就将其称为第三代。现在正在探索的H.266 /AV1/AVS3则为新一代的压缩标准。在各个标准中，目前主流的视频编码框架基本保持不变，但其中每个环节的具体使用的方法有区别。比如，对于编码块，H.264用16*16方式，而H.265使用8*8到64*64的可变块方式。

需要提及的是，新一代标准更依赖于硬件条件的提高，在压缩效率大幅提升的同时，处理的复杂度也会增加到现有标准的三倍或更多。

图1 视频编解码标准的发展历程

图2是业界某机构对各标准未来全球市场占有率的预测。从图中可以看到，目前H.264标准仍然占主流，H.265会逐渐有一定比例的应用，但由于收费的问题，其应用会受限。Google主导的标准由于不涉及收费，会在国际上获得更大比例的应用，且其VP9的使用比例会逐渐被最新的AV1侵占。目前AV1虽然在压缩效率上好于H.265，但复杂度过高，压缩速度明显偏慢，会有一段时间来优化，这也给了H.265的下一代标准H.266新的机会。另外，AVS是中国广电主推的标准，也会占有一定的市场比例。

图2 未来视频编解码标准的全球市场占比预测

评估一款视频编码器是否优良有三个主要的标准：一个是压缩效率，即压缩后占用的空间与原始视频占用空间的减少量。第二个是画质，即编码压缩后解码出来的视频画质的主观感受，目前有PSNR，SSIM，VMAF等指标予以衡量。第三个是算法实现的复杂度，即编码速度，对于实时性要求比较高的视频应用，这是一个重要的指标。需要注意的是，过度追求某一方面的指标会影响另外两个方面的表现，在进行比较时，往往会需要根据使用场景综合衡量。比如，采用在保证场景所需要的最重要指标一样的情况下，比较其他两个指标的方法。

视频编码技术发展趋势

视频编码技术未来表现出以下几方面的发展趋势：

1.自适应选择编码方式与参数

视频中每一帧图像都有自己的特点，需要进一步挖掘空间与时间的相关性，不再粗略简化地对每一部分采用统一的编码参数，而是有针对性的选择编码方式。另外，需要考虑人眼视觉的特点，考虑面向视觉质量的优化。最后，与视频分析技术结合，可以对视频内容有更精准的把握，利于根据内容选择适度的编码质量。

2. 精准码率控制

根据网络和缓存允许的码率，更优的将码率分配到每一帧。为了更准确地达到目的码率，寻找更合适的方法对量化参数进行精细的调整。另外，与传输协议如何更好地整体性配合也是值得探索的一个改进方向。

3. 与超分技术结合

超分辨率技术，这里是指给定一张低分辨率的图像，通过计算机视觉中的方法、模型将其恢复成一张高分辨率的图像，要求恢复后的高分辨率图像要尽可能真实。在视频编码时可以尽量提高压缩比，在解压之后以超分的方式恢复图像，从而在进一步降低码率的同时获得更好呈现质量。

4. AI融合

视频编码在与AI结合上，目前有基于AI的端到端的整体架构和部分模块采用AI方法替换两种方式。对于前者，需要制定全新的标准才能保证在业界的事实，会需要比较长的探索和验证期。从目前看，将部分模块采用AI替换的方式会更快的落实。但不管哪种方式，都面临AI结构方案设计和降低复杂度的挑战。

5. 支持更强的并行性

随着高清视频的到来以及适应对实时性应用的支持，视频的编码速度也是重要的衡量指标。采用条块等方式方便编码的可并行性，提高视频编码速度也成为很重要的一个改进方向。

结束语

视频编码是一个有深厚积淀但却仍在保持以每八到十年更新一代的速度不断发展的领域，近年正处于新旧编码标准更替的时期。新标准的推出、AI的融入以及根据视频图像的内容复杂性和时空特点在软硬件相关算法上的优化和产品化，为编码技术带来了新的风景，也将进一步推动视频大潮的快速发展。