腾讯多媒体实验室夏珍：视频画质增强的现状、运用、未来_开云官方

腾讯多媒体实验室夏珍：视频画质增强的现状、运用、未来

时间：2023-04-25 08:31:45 来源：开云官方

全真互联时代，音视频技能内核不断更新迭代，LiveVideoStackCon 2022 北京站邀请到腾讯多媒体实验室视频技能研制负责人——夏珍，与咱们共享画质增强技能的一些前沿探究和运用研讨，在经典印象中非常重要的画质提高技能人脸修正和去紧缩失真的才能，以及在腾讯视频和云游戏中能带来画质增强的技能。

来自腾讯多媒体实验室的夏珍，一向从事视频处理技能的相关研讨与运用，希望共享的内容能给到咱们一些协助，也借此机会向各位同行学习。

本次共享的主题是《画质增强的前沿运用》，内容包含三部分：一是画质增强技能现状，第二部分是画质增强技能的前沿运用，第三部分是画质增强技能的趋势。

其时做PPT时仍是22年8月份，其时最火的概念应该是4K/8K超高清、VR、3D等是人们热议的论题，不管是学界仍是工业界都是高热门，在这些前沿技能运用里，画面分辩率、细节已到达非常高清的程度，制造内容也到达很高规范，乃至许多显示屏现已超越人眼能分辩的极限。

但是实践生活中，在不同的终端、场景和运用里，信任咱们都遇到过以下状况：比方为了视频时画面更明晰，给爸爸妈妈买了像素很高的相机，但是终究呈现的画面仍然含糊不清，或是参与线上会议时，经常呈现画面含糊，又或是看剧时画质很差。咱们会疑虑：内容为什么没有预期的明晰？

导致画面不如预期的要素有许多，包含硬件条件、网络带宽、编码办法、原始资料等，在这样受限的场景下，怎么提高用户体会的片面感触呢？

提高画质是摆在许多运用场景下绕不开的出题，画质增强包含哪些技能？又别离能处理什么问题呢？下文将从三个维度进行剖析，当然从信号处理的视点有更多维度去评价，比方频域等就不进一步打开了。

首要关于时域维度，即咱们了解的时刻维度上，他首要处理的视频接连播映时在时域上干扰人眼的信号，在实践场景中会有运动不流通、画面颤动和时域噪声等问题，所以在时域上会呈现对应的处理计划，比方插帧、视频去颤动、时域降噪等。

左边的哈士奇在滚动时会呈现卡顿，经过帧率上采样能够使其更流通。右侧上方是带噪声的影片，下方经过视频降噪算法优化后，画面噪声削减许多。

空域，即从空间的维度上，咱们能遇到的大部分问题也是在这个维度上，它首要是提高人眼片面感触的画质，播映时比方含糊、噪声、失真、低分辩率等常见问题，所以在空域上有品种繁复的增强算法，咱们都熟知的算法，超分辩率、去紧缩失真、细节增强、去划痕等。上方左图存在许多块，编码紧缩失真的问题、右图经过优化后获得了更好的画面作用。下方左图包含许多划痕和噪点，右图经过AI去划痕算法后极大改进了画面的画质。

色域，即从颜色的维度上，人眼对颜色是非常灵敏，颜色畸变或黑白画面在很大程度上会影响用户的片面感触，在色域上增强技能分SDR域和HDR域的算法，比方SDR2HDR、颜色增强、暗场景增强、HDR增强等算法，都是对颜色进行处理的算法。

上方的图画经过HDR转化后，颜色及色域都愈加丰厚。下方的图画经过AI主动上色，使得画面丰厚度和人眼片面感触有显着提高。

接下来会从两方面介绍画质增强的前沿技能，一个是不太考虑算力但对作用有极致要求的经典印象修正技能，另一个是非常考验算力的终端超分技能。

这是2022年多媒体实验室修正李苦禅白叟经典印象的画面，能够看到其中有许多影响片面质量的要素，包含划痕、雪花点、噪声、失真、含糊、颜色等问题。

这一页总结了印象修正中常见的问题，包含划痕、霉斑、噪声、低分辩率、含糊等，而经典印象修正包含以下几个首要进程：胶片物理修正、胶转磁，数字修正和优化，最终的上映或保存。

在经典印象修正的进程中，腾讯多媒体实验室堆集了深沉的技能和实践经验，构成一套较完好的依据AI的印象修正技能流程，首要分四个大的模块，包含智能剖析、画质修正、画质增强和智能转码。

智能剖析：对视频进行智能剖析，供给包含帧级、场景级和视频级不同粒度的剖析，包含画面杂乱程度、运动程度、噪声程度、失真程度、颜色丰厚度等剖析，用以辅导后续画质修正和画质增强技能才能的主动化运用。

画质修正：结合了智能剖析模块的信息，选取最佳模型对视频进行修正，包含去紧缩失真、视频降噪、人脸修正、去划痕等技能才能。

画质增强：依据智能剖析模块的信息，合理挑选最佳的算法和参数，包含视频超分辩率、颜色增强、细节增强、AI主动化上色、暗场景增强、帧率上采样等算法，经过这样处理后得到完好修正的视频。比方老的影片大部分是15fps或分辩率是720*468，此刻画质增强模块会默许敞开超分辩率和帧率上采样，对其进行插帧，然后使得影片在大屏播映时呈现出更好的作用。

智能编码：为了更好地进行传输和播映，结合腾讯多媒体实验室最中心的编解码才能，经过最佳人眼视觉的编码办法对视频进行转码紧缩，在确保视频片面质量状况下，对视频进行最小质量的转码输出。

这是多媒体实验室“光影焕新”经典印象修正的首要架构，从架构上分为运用层、解析层、剖析层、处理层、支撑层和封装层。架构上会将智能剖析的首要才能放在这一层，然后结合解析层的成果去辅导处理层算法的主动化处理，底层也会依据服务器不同选用不同的底层架构，比方GPU服务器会用TRT做一致的深度学习推理库，而如果在CPU架构上则会转化成OpenVINO和其他才能，最终在封装层，依据用户的需求挑选对应的码流。

当然在近年的研讨和堆集进程中，也遇到了非常多的问题和难题，比方去划痕在印象修正中很重要，但在业界研讨是个很小众的问题，咱们在数据集、算法和模型上都是从零开始构建，比方超分尽管不断有新的开展，但实践场景中适用性都不好，只能针对不同场景开发不同等级的模型。

以去失真生成模型研讨为例，首要去失真生成模型处理了什么问题？在经典印象中不同于常见的视频，比方左图扩大的画面，由于受限于经典印象拍照的时代、拍照硬件、存储等要素，导致画面存在严重破坏画质的问题，比方噪声、编码失真、含糊等等问题，之前的研讨进程是先进行去紧缩失真、降噪等处理再经过后边的超分辩率、细节增强等算法增强细节，但后边发现在前面进行去紧缩失真和降噪等处理现已把细节都丢掉了，后边的超分、细节增强很难康复细节康复，依据这个问题开发了去失真生成模型，首要处理的是在去紧缩失真的一同对细节进行增强和生成，只要两个才能在一个模型里才能在去掉失真的一同生成更丰厚的细节。

作为近年对超分辩率研讨工作的延伸，腾讯多媒体实验室提出一种高效的失真生成模型。首要模型需求有处理杂乱失真的才能，因而在数据集制造中参阅现有SR模型的降质进程结合经典印象数据集的特色，尽可能复原经典印象中失真的类型和生成办法，数据集上会选用多种视频编码办法、多种上下采样办法，多种含糊和噪声办法进行数据生成。

模型分为三个模块，对齐模块、AR模块和判别器模块。对齐模块是将前后两帧进行特征对齐，经过功能剖析发现，隐式的可变性卷积办法相对显性的光流对齐模块要更高效。AR模块是进行去失真和细节生成才能，最终经过判别器，判别器模块不同于单帧的判别，会提取当时帧空间信息和时域帧间的信息。为完成更高效的意图，选用前后两帧作为对齐帧，网络选用残差结构，光流和AR模块只需求重视特征部分，裁剪模型中对模型影响较小的层。

右图不只修正了很严重的噪声、失真和含糊等问题，比方画面中噪声、布景的颤动和含糊的问题，一同对细节比方人脸、衣服纹路和植物的细节做了很好的生成，做到线端侧-高效超分

接下来介绍腾讯多媒体实验室在云游戏中端侧超分的研讨，端侧超分也会运用在腾讯视频中以到达降低成本的意图，端侧超分也是正在研讨中的内容，因而提出来和咱们一同评论学习。

首要使用残差结构，使用有限网络结构学习尽量多的参数，一同经过蒸馏计划，在中间层的学习中使用导师网络进行辅导，第三重参数化，由于功能要素网络层数不行，便使用重参数思维练习杂乱的网络，在推理时兼并算子到达简化的意图。

以上是本次的共享，谢谢！如有问题请与腾讯多媒体实验室联络，了解更多信息。

哈萨克斯坦作为“一带一路”建议的重要国家，与我国在各个领域打开全方位协作，已签署了超越200多项协议。香港具有共同的优势，背靠强壮的祖国，面向国际窗口。屯门区是香港衔接内地及国际的重要纽带之一，距深圳湾口岸和香港国际机场仅20分钟车程，并接近港珠澳大桥，前往珠海澳门非常快捷。

未来，附近屯门的洪水桥将建立铁路站直接接往内地，屯门区有望成为“大湾区”和“一带一路”重要开展关键之一。活动希望为区内青年建立大湾区与哈萨克斯坦的交流平台，让香港的青年人能够在此创立更好的开展机会。