大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军(内含夺冠方案)
近日CVPR NTIRE 2023 Quality Assessment of Video Enhancement Challenge比赛结果揭晓。由大淘宝音视频技术团队的同学组建的「TB-VQA」团队从37支参赛队伍中脱颖而出,在该赛事(唯一赛道)斩获冠军。此次夺冠是该团队自MSU 2020世界编码器竞赛、CVPR NTIRE 2022压缩视频超分与增强技术挑战赛之后,在音视频核心技术领域的又一次斩获冠军
赛事介绍
自2013年以来已成功举办过七届的CVPR/NTIRE(New Trends in Image Restoration and Enhancement workshop and challenges on image and video processing)已发展成为该领域最具影响力的国际赛事之一
从上述竞赛可以看出, 视频增强技术已在学术领域获得广泛研究, 并已广泛应用于工业界. 随着互联网上视频应用的日益普及, 人们逐渐产生了大量非传统广播电视内容, 如UGC等, 在互联网平台生产或展示, 这些内容大多经过了数字化增强处理. 因此, 在量化评估增强后视频质量方面仍面临着诸多挑战.
因此,VQA竞赛应时而生,并由NTIRE于今年首次举行。主办方搭建了一个包含1,211个真实应用场景的视频数据集;这些视频经过色彩、亮度和对比度增强、去抖动以及去模糊等处理后被用于评估。评估结果作为GT(ground truth)使用;参赛者的设计方案用于对上述视频进行评分;与GT的相关性越高的评分越接近(如SRCC和PLCC指标,在该领域是最常用的),评分排名越高的选手获得越好名次。
本竞赛由苏黎世联邦理工学院计算机视觉实验室发起举办;仅设有"无参考视频质量评价"一个赛道;吸引了来自国内外近几十支参赛队伍;其中包括字节跳动科技有限公司(即字节)、快手 Inc.(即快手)、网易 Inc.(即网易)、小米 Inc.(即小米)、Shopee Pte. Ltd.(即Shopee)等知名科技企业的参赛队伍;同时还有来自北京航空航天大学以及新加坡南洋理工大学等高校的参赛者。
在激烈的竞争中,在大淘宝音视频技术领域的参赛队伍「TB-VQA团队」成功斩获该赛道的冠军,在Main Score、SRCC以及PLCC三项核心评估指标上均取得了优异成绩

表1. CVPR NTIRE 2023 VQA比赛排行榜
指望值较高的一次赛事中胜出的大淘宝音视频技术团队,在继去年两次世界性编码器大赛(MSU 2020及MSU 2021)以及今年CVPR NTIRE 2022年压缩视频超分与增强赛中夺冠之后,在音视频核心技术领域的权威赛事中再次斩获佳绩。
团队在其 video 编码、 video 增强处理、 video 质量评估以及 video 传输等多个核心领域均进行了深入布局,并取得了若干创新性突破的技术成果发表于 CVPR 和 ICCV 等计算机视觉及 video 领域顶级会议。
这次赛事中的出色表现亦可视为大淘宝音视频技术团队多年来的持续投入与创新探索所结出的重要阶段性成果。
在视频编码领域中,莫斯科国立大学世界视频编码大赛(MSU World Video Coding Contest)是最具影响力的全球性年度赛事之一。自1999年以来已连续举办二十三届此项赛事 Graphics & Media Lab研究团队不仅得到了广泛的学术认可还吸引了来自国内外如谷歌(Google)奈飞(Netflix)英特尔(Intel)英伟达(Nvidia)腾讯字节跳动(字节)以及华为等众多知名企业的积极参与这些比赛结果被视为行业的风向标
大淘宝音视频技术团队独立研发的奇点系列编码器S265与S266相较于目前流行的开源码块如x265与VVEnC在压缩效率性能等方面均有显著提升该系列 codec 已经全面应用于大淘宝平台下的淘宝直播逛逛首页信息流等多个核心业务场景经过压缩处理后即使使用普通手机凭借3G网络也能顺畅观看720p分辨率下的高画质视频而最新推出的产品甚至可以在4K 30FPS超高清画质下实现流畅播放
针对视频增强技术领域
赛道1:针对视频编码的高压缩比带来的失真的视频恢复问题;
赛道2:在赛道1的基础上,同时处理高压缩和2倍超分问题。;
赛道3:在赛道2的基础上,进一步探索4倍超分问题。
在工业界已有广泛运用的则是Track1与Track2相关问题,在 video reconstruction 领域已取得显著进展。将 video reconstruction 重建至 ideal video 品质能显著提升观感体验。在竞争激烈的环境下,大淘宝音视频技术团队自研的 video super-resolution 方法 TaoMC v2 在该方法的研发下,在三个赛道上获得了两个冠军和一个亚军的成绩(其中赛道3获得亚军)。TaoMC 系列技术已在包括点淘、逛逛在内的所有大淘宝内容业务领域得到广泛应用,并支持直播与短视频在实时及非实时码流转换过程中的画质优化;超分辨率技术系列则广泛应用于诸如弱网环境下等低码率传输场景下的 low-resolution video 传输,从而保障低传输带宽下的高分辨率播放体验。后文将分享我们的具体解决方案——
参考方案
根据对可作为参照的标准划分, 视频质量评价可大致分为三类: 全参考型, 部分参考型以及完全不依赖参照型[1]. 在实际应用中, 视频增强场景往往无法获得理想中的完美基准素材, 因此更为适合采用无参考类型的评估方法. 作为一种重要的研究方向, 无参考型的质量评估近年来受到了广泛关注. 目前主要的研究手段主要包括: 基于图像识别[2] 或者图像质量评估[3] 任务建立预训练模型来提取素材中的帧级特征; 考虑时空相关性并利用回归特征提取信息, 或者进一步融合时域特征[4]; 最后针对 video distortion 展开端到端的特征表征学习[5] 等等.
基于[5]的研究成果,在借鉴Swin Transformer在计算机视觉领域的卓越表现的基础上
模型设计
图1呈现了所提出的无参考视频质量评价模型的框架结构。该框架主要包含三个关键组件:即空域特征求取子网络、时序特征求取子网络以及时空融合回归子网络。详细而言,在空域维度上该系统主要关注图像的空间失真特性;而在时序维度上则着重于捕捉图像的运动特性;同时综合考虑运动信息对失真感知的影响后,在此基础上经过时空维度上的信息融合处理后,在此基础上采用回归分析方法将各子网络输出结果映射至最终的质量评估值Q上

图1. VQA模型的网络架构示例。
空域特征提取
在质量评价中常用作空间域特征的角色是语义特征。它不仅描述了物体的物理特性与时空关系,并且涵盖了内容信息。这种空间域特徵被视为图像处理中的高维数据源。面对不同类型的图像内容时, 语义特徵对人类视觉系统的影响因图景内 dung有所不同: 对于纹理复杂的情境(如草地或地毯), 人类视觉系统对模糊处理提出了严格要求; 相反, 对于较为简单的纹理场景(如天空或墙面), 模糊处理则显得更为宽容。基于上述考量, 我们采用了来自预训练模型的关键输出来构建空间域特徵序列, 如图2所示:

图2. 语义特征。

时域特征提取
在手机拍摄过程中产生的相机抖动会导致视频在时域上产生失真现象;此外,同样无法通过视频空域特征精确地进行描述。为了进一步提高模型性能,我们采用了预训练的SlowFast网络模型[7],通过该模型能够提取出视频片段级别的运动特性和空间特性,其中时间维度上的特性被定义为重要的时域特征表示,如图3所示

图3. 时域特征。

时空域特征融合与回归
考虑到不同层空域特征之间存在明显的差异性,在直接进行时空特征拼接时难以实现有效的融合效果

图4. 时空域特征融合与回归。
此外,在计算整体视频质量评分时,我们采用了基于时间序列的平均汇聚方法来整合各个视频片段的质量分数。如图5公式所示:

图5. 平均池化得到整个视频打分。

数据增强与训练
本次比赛所使用的训练数据集仅限于839个视频,在现有条件下难以基于Transformer架构构建有效的模型。为此我们需要通过采用两种不同的数据增强策略以及利用大规模预训练语言模型的方法进行系统性优化与调参才能显著提升模型性能。
数据集增强
通常采用在图像中对图像进行随机裁剪取固定尺寸的小块的方式进行空间数据增强。为了全面性分析的同时对时间和空间的数据增强进行了综合考量。

图6. 时空域数据增强示例。
其中,在整个视频中将按每隔1秒的间隔将其划分为T个视频片段。在提取空域特征的过程中,在每个分割出的视频片段中随机采样并获取一张图像。此外,在维持帧间的时间依赖关系的前提下,在抽样过程中始终保持一致的抽样周期。
大型数据集预训练
包含38,811个视频样本的LSVQ [8] 视频质量评价数据集代表了当前领域内规模最大的开源视频质量评估基准。基于此,在该数据集上开展预训练任务后随后,在针对特定任务的微调过程中采用了相对较小规模的数据集合。
实验结果
在两个开放获取的视频质量评价基准数据集KoNViD-1k和LIVE-VQC上,我们对现有最优方法进行了系统性比较。基于广泛认可的统计评估标准Spearman Rank Order Correlation Coefficient(SROCC)和Pearson Linear Correlation Coefficient(PLCC),我们对模型性能进行了量化评估。实验结果表明,在保序性方面,具有较高的SROCC值;在与标注分数拟合度方面,则表现出较高的PLCC值。如图所示

表2展示了MD-VQA与其他现有先进方案在KoNViD-1k和LIVE-VQC数据集上的性能对比分析。
从实验结果来看,在我们所用的数据集中,模型在SROCC和PLCC两个指标上表现出了优于现有SOTA方法的优势
此外,在探究不同优化策略对模型性能影响的过程中, 我们进行了消融研究(ablation study), 如表3所示

表三. 核心网络替换(Swin)、特征融合过程(Conv)、增强过程优化(DA)和大型数据集预训练阶段(Pre)对于模型性能的贡献分析比较。
通过表3的数据分析可知,关键网络替换方案(Swin)及其相关技术(包括特征融合技术(Conv)、数据增强技术(DA)及大规模数据集预训练.Pre)在提升模型性能方面均取得了显著提升效果
业务应用
基于以上分析可知,在互联网视频化深入发展的背景下
为了解决这一问题 大淘宝音视频技术团队自主研发了一款针对UGC视频的零参考视频质量评价模型 称之为 MD-VQA 全称是多维视图质量评估系统 这款模型通过综合分析视频的各种语义信息 失真程度以及运动特性 等多维度数据 综合评估视频的整体质量水平
具体而言,在以淘宝直播为案例时
此外,在整个阿里集团内部框架下
参考文献
Shyamprasad Chikkerur et al. have contributed significantly to the development of objective-based video quality assessment techniques. Their research paper titled "Objective video quality assessment methods: An analysis encompassing categorization, a review of existing methodologies, and a comparative assessment of performance metrics" was published in the IEEE Transactions on Broadcasting in 2011.
Dingquan Li, Tingting Jiang, and Ming Jiang. Quality evaluation of field-collected video sequences. Appearing in the proceedings of the ACM International Conference on Multimedia, pages 2351–2359, 2019.
Yilin Wang等(IEEE/CVF计算机视觉与模式识别协会会议)发表于《IEEE/CVF计算机视觉与模式识别协会会议论文集》第13卷第6期
Bowen Li, Weixia Zhang, Meng Tian, Guangtao Zhai, and Xianpei Wang. Unconditionally Evaluate Wild-Scene Videos' Quality Using a Quality-Aware Supervised Learning Approach Integrated with Motion Awareness. IEEE Transactions on Circuits and Systems for Video Technology, (9/共9):5944–5958, 2022.
Wei Sun, Xiongkuo Min, Wei Lu, and Guangtao Zhai. The paper titled "基于深度学习的无参考UGC视频质量评估模型" was presented at the ACM International Conference on Multimedia in the year 2022.
Ze Liu et al. introduced Swin Transformer v2 in their research paper titled "Scaling up capacity and resolution." The work was presented at the prestigious IEEE/CVF Conference on Computer Vision and Pattern Recognition in 2022.
Karl Schmuck,Haoqiang Fan,Jitendra Malhotra,Kaiming He.In the Proceedings of the IEEE/CVF International Conference on Computer Vision,published a research paper on video recognition: "SlowFast Networks"
Zhenqiang Ying, Maniratnam Mandal, Deepti Ghadiyaram, and Alan Bovik. Patch-VQ addresses the video quality challenge by patching up the issue. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14019–14029, 2021.
