【论文解读】Performance Comparison of VVC, AV1, HEVC, and AVC for High Resolutions
论文下载链接
论文下载链接
摘要
研究背景 :随着多媒体服务需求的增长,尤其是视频领域,企业和用户对视频的分辨率、帧率和采样精度的要求越来越高。这导致需要处理、存储和传输的数据量显著增加。
研究挑战 :为了应对数据量的增加,研究者面临的主要挑战是开发新的压缩标准,在减少所需处理和传输的数据量的同时,保持视频质量不受影响。
研究对象 :论文聚焦于四种最新且最常用的视频编解码器:H.266/VVC、AV1、H.265/HEVC和H.264/AVC。
测试集 :研究使用了七种不同内容的视频序列,这些序列包括8K、超高清(UHD)和全高清(FHD)分辨率,并针对不同分辨率设置了不同的比特率范围。
质量评估指标 :使用了客观质量评估指标,包括峰值信噪比(PSNR)、结构相似性指数(SSIM)和视频多方法评估融合(VMAF)来衡量不同编解码器的性能。
主要发现 :
* H.266/VVC在Bjøntegaard delta(BD)模型方面表现优于其他编解码器,包括H.264/AVC、H.265/HEVC和AV1。 * 在8K分辨率下,H.266/VVC相比于H.264/AVC平均比特率节省约为78%,AV1节省约为63%,H.265/HEVC节省约为53%。 * H.266/VVC和AV1相比于H.264/AVC的节省分别为59%和22%,H.266/VVC相对于AV1的节省为46%。
分辨率对性能的影响 :研究结果显示,编解码器的性能会根据分辨率的不同而变化,对于新开发的编解码器H.266/VVC和AV1,在更高分辨率下显示出更高的效率。
编解码器开发目的 :这些结果证实了H.266/VVC和AV1编解码器主要是为高分辨率视频(如8K和/或UHD)开发的。
介绍
需求增长 :近年来,对多媒体服务的需求显著增长,特别是视频领域。用户和公司都在寻求更高的分辨率、帧率和采样精度,这些已成为视频广播和流媒体的常见需求。
技术发展 :研究界特别关注8K分辨率的视频技术。此外,高帧率和高动态范围(HDR)技术也因能显著提升图像和视频质量而变得流行。
挑战 :这些技术参数对最终的比特率和带宽有显著影响,处理、存储和传输大量数据成为行业、研究者和公司面临的主要挑战。
压缩技术的必要性 :为了应对这些挑战,需要开发新的压缩技术和标准,这些技术和标准能够在保持感知质量的同时减少数据量。
编解码器介绍 :
* **Versatile Video Coding (VVC)** :新一代视频编解码器,也称为H.266或MPEG-I Part 3,是MPEG家族的一员,旨在替代高效率视频编码(HEVC)。 * **AOMedia Video 1 (AV1)** :由AOMedia联盟开发的开放、免版税的视频编解码器,用于替代Google的VP9编解码器。 * **High-Efficiency Video Coding (HEVC)** :也称H.265或MPEG-H Part 2,是2013年开发的用于超越H.264/AVC的视频压缩标准。 * **Advanced Video Coding (AVC)** :也称H.264或MPEG-4 Part 10,是2003年开发的,尽管已有多年历史,但仍然是最流行的视频编解码器之一。
相关工作 :许多专家和研究人员已经对上述编解码器的性能进行了分析,使用了如PSNR、SSIM、VMAF和MS-SSIM等客观方法来评估压缩效率。
研究空白 :尽管已有研究使用8K视频测试序列对最新编解码器的质量性能进行了调查,但使用的序列数量仍然较少,表明对8K分辨率下流行编解码器的复杂性能评估存在空白。
研究目标 :本文的目标是客观评估四种常用视频编解码器(H.264/AVC, H.265/HEVC, H.266/VVC, 和AV1)的性能。评估基于七个具有不同空间信息(SI)和时间信息(TI)值的测试序列,并在8K、UHD和FHD三种不同分辨率下的不同比特率进行测试。
论文结构 :引言之后,第2节将介绍实验设置,包括所使用的数据集、视频编码和客观质量评估方法。第3节将分析结果,第4节提供结论。
实验步骤
数据集描述
测试序列选择 :测试序列的选择对结果有重要影响。复杂的测试序列在空间信息(SI)和时间信息(TI)参数方面会增加编码过程的难度。相反,运动较慢或空间细节较少的序列可以更高效地编码。
输入参数 :分辨率、比特深度、帧率和色彩空间等输入参数也会影响最终结果。
编码参数调整 :实验设置中的编码参数调整会影响结果,包括:
* 图像组(GoPs)设置 * 编码质量选择(量化参数QP或比特率BR限制) * 编码模式选择(恒定比特率CBR、可变比特率VBR或自适应比特率ABR) * 码率控制模式(单遍1-pass、双遍2-pass或CRF编码) * 预设、调整或配置文件的选择
数据集 :实验使用了三个不同数据库的序列,这些是所知唯一包含8K分辨率测试序列的数据集:
* **Fraunhofer数据集** :由Fraunhofer HHI在2019年创建,包含七个8K视频序列。 * **SEPE数据集** :包含40个视频序列,使用Canon R5C摄像机捕获。 * **PP8K数据集** :包含16个8K视频序列,使用Sharp 8 C-B60A摄像机收集。
色彩空间和子采样 :使用了YUV色彩空间,这是一种由亮度(Y)和两个色度(UV)组成的色彩模型。在实验中使用了4:2:0子采样格式,这种压缩技术减少了视频信号中的颜色信息,以减少带宽使用,同时不会显著影响图像质量。
技术参数 :所有三个数据集的分辨率、色彩空间、比特深度、帧率和持续时间等技术参数在表1中呈现。

- 空间-时间分析:用于评估所有序列的性能时需执行空间-时间分析。基于Sobel滤波器的空间感知信息(SI)反映视频中细节的程度;而反映视频序列中时间变化的程度的时间感知信息(TI),通常较高于高动态视频序列的时间感知信息(TI)。

分辨率与缩放处理:研究不仅在高分辨率(如8K)下深入分析了视频质量,在超高画质(UHD)与宽屏画质(FHD)等较低分辨率下也展开了探究工作。为此,本研究借助FFmpeg工具将所有测试视频从8K分辨率系统性地降序处理至UHD与FHD分辨率框架。
目标序列的选择标准:为全面覆盖整个SI-TI图谱的目标需求,在实验过程中选取了具有广泛空间信息量与时间信息密度的测试序列集合。具体而言,在实验中选取了四个角点位置代表性的样本,并结合三个位于核心区域位置的关键代表性样本进行多维度建模。
结果展示与分析:表2及图2详细列出了所选测试样本及其关键特征参数,并对其进行了视觉层面的具体呈现。



视频编码
编码工具 :所有测试序列使用FFmpeg工具编码到H.264/AVC、H.265/HEVC、H.266/VVC和AV1这四种压缩标准。
VVC支持 :由于FFmpeg最初不支持VVC,作者根据相关文档手动提交了一个补丁以添加对VVC的支持。
比特率范围 :对于FHD和UHD分辨率,比特率设置为1, 3, 5, 7, 10, 和 15 Mbps;对于8K分辨率,比特率设置为5, 7, 10, 15, 30, 和 50 Mbps。共编码了420个测试序列。
图像组(GoPs)设置 :GoPs对于Fraunhofer和PP8K数据集设置为60,对于SEPE数据集设置为30,意味着每秒钟出现一个内帧(I帧)。
GoPs结构 :GoPs结构由两个数字N和M表示,N代表两个关键帧(I帧)之间的距离,M代表两个锚帧(I帧或P帧)之间的距离。H.264/AVC的GoPs结构为N=60,M=4;H.265/HEVC为N=60,M=5;AV1为N=1,M=1。对于H.266/VVC,内帧周期设置为64,启用了感知优化,并且使用了CRA(clean
random access)作为解码刷新类型。
编码参数 :在编码过程中没有设置特定的配置文件或预设。所有编码参数在表3中展示。

- 平均比特率编码(ABR):采用ABR模式,在配置时仅指定目标码率参数。
- 两遍编码:鉴于H.264/AVC与H.265/HEVC初始设计未考虑到8K分辨率下的优化需求,则采用了双重编码策略以确保目标码率尽可能精确地达成。
- 编码命令行:具体编解码器的配置指令列于表4中。

编码和评估流程图 :图3展示了编码和评估过程的流程图。

客观质量评价
评估指标 :使用了三种客观质量评估指标:峰值信噪比(PSNR)、结构相似性指数(SSIM)和视频多方法评估融合(VMAF)。
PSNR :
* 属于最古老的质量评估指标之一。 * 结果与主观评估方法的相关性不高。 * 尽管如此,PSNR仍然被广泛使用,原因有二:一是计算简单快速;二是用于计算BD率(Bjøntegaard delta rate)。 * PSNR的输出值以分贝(dB)为单位,理论上最大值为100 dB,相当于参考视频的质量。
SSIM :
* 考虑视频退化作为结构信息的感知变化。 * 测量图像结构的失真,包括亮度、对比度变化和图像模糊。 * 基于人类视觉系统对帧中结构变化的检测优于对具体错误的识别的假设,与主观质量评估的相关性更高。 * SSIM的结果范围在[0, 1]之间,1表示与比较的图像或视频完全相同,即最佳质量。
VMAF :
* 由Netflix与南加州大学、南特大学IPI/LS2N实验室和德克萨斯大学奥斯汀分校的图像与视频工程实验室共同开发的视频质量评估指标。 * 结合了现有的视频质量评估指标和其他属性来预测视频质量,包括视觉信息保真度(VIF)、细节丢失度量(DLM)和均值共位像素差异(MCPD)。 * 使用基于SVM的回归将所有特征串联起来,为每个视频帧确定一个从0到100的输出分数,100表示与参考视频的质量相同。
全参考方法 :上述三种指标都属于全参考客观方法,意味着评估时需要同时有参考图像/序列和测试图像/序列,质量是通过两者之间的直接比较计算得出的。
评估工具 :使用FFMetric工具进行客观评估,这是一个用于可视化FFmpeg计算的质量指标的FFmpeg GUI,可免费使用。
工具获取 :FFMetric工具可以从指定的链接[32]下载。
结果分析
第一部分:评估结果概述
- 评估方法 :使用PSNR指标通过Bjøntegaard delta (BD-rate)模型来计算比特率节省。
- 结果呈现 :结果在表格5至10中展示,分别对应8K、UHD和FHD分辨率的特定值。表格中列出了特定测试序列的比特率节省。此外,表格11和12展示了根据不同编解码器计算出的平均比特率节省。
- 编码效率 :H.266/VVC在所有编解码器中表现最佳,特别是在与H.264/AVC、H.265/HEVC和AV1的比较中。在FHD分辨率下,VVC与H.264相比比特率节省从59%开始,在8K分辨率下可达到93%。
- 编解码器性能 :AV1是第二有效的编解码器,它在FHD到8K分辨率下均优于H.264和H.265。
- 性能差异 :新开发的编解码器VVC和AV1与现有标准HEVC和H.264之间的比特率节省差异在UHD分辨率下约为1%,在8K分辨率下可达70%。











第二部分:编解码器技术和性能讨论
VVC技术特点 :
* 支持随机访问和参考图片重采样(RPR)。 * 编码树单元(CTUs)的大小可以大于HEVC,提供更灵活的分区和更大的块大小。 * 提供了更多精细的角预测模式和跨分量预测模式。 * 在变换和量化方面,VVC通过扩展变换和改进量化及残差编码实现更好的能量压缩。
AV1技术特点 :
* 支持高达128×128的超大区块分割,提供更多的编码灵活性。 * 引入了两阶段块分割搜索和多种预测模式,如方向内预测、平滑预测模式和内块复制(IntraBC)。 * 在帧间预测中,AV1支持多种工具集来利用视频信号中的时间相关性。
编码效率和质量 :VVC和AV1的这些特性帮助它们在高分辨率视频内容上实现了更好的编码效率和质量。




编码时间比较
- 编码时间评估 :主要基于比特率节省评估所有编解码器在不同分辨率下的编码时间,并选择"Nep-tuneFountain3"测试序列进行深入分析。
- 硬件配置说明 :详细说明实验环境所使用的PC各项参数设置。

第3节 时间对比分析中显示,H.264/AVC在运行时与AV1相近,相比之下,H.265/HEVC的运行时约为其两倍,而H.266/VVC的表现最为突出,尤其是在高分辨率(UHD)场景下,其运行时较之于前两者更是显著提升



结论
这篇论文主要研究了最新的和最常用的视频编解码器的压缩性能,包括H.266/VVC、AV1、H.265/HEVC和H.264/AVC。以下是对论文内容的分析和总结:
实验设计 :
* 使用了来自三个不同数据库的63个测试序列,这些序列具有很大的多样性。 * 根据SI-TI(序列完整性-测试完整性)分析选择了七个序列,包括SI-TI图四个角落各一个以及中间三个。
编码设置 :
* 将这些序列编码为FHD、UHD和8K分辨率的H.264/AVC、H.265/HEVC、H.266/VVC和AV1。 * 为FHD和UHD分辨率设置了1至15 Mbps的比特率,8K分辨率设置了5至50 Mbps的比特率。 * 总共编码了420个测试序列。 * 使用平均比特率编码(ABR)和单通率控制模式,除了在8K分辨率下对AVC和HEVC编码时使用了双通编码模式。
质量评估 :
* 使用了峰值信噪比(PSNR)、结构相似性指数(SSIM)和视频多方法评估融合(VMAF)等全参考方法进行质量评估。
性能比较 :
* 根据Bjøntegaard delta(BD)模型,H.266/VVC在所有编解码器中表现最佳。 * 与H.264/AVC相比,H.266/VVC、AV1和H.265/HEVC的平均比特率节省分别为78%、63%和53%。 * 与H.264/AVC相比,H.266/VVC和AV1的节省分别为59%和22%,与AV1相比,H.266/VVC节省了46%。
分辨率影响 :
* 结果显示,随着分辨率的提高,新开发的编解码器(如H.266/VVC和AV1)的效率更高。
编码时间比较 :
* 选择了位于SI-TI图中间的“NeptuneFountain3”测试序列来比较所有编解码器在所有分辨率下的编码时间。 * H.264/AVC的编码时间与AV1相似,而H.265/HEVC的编码时间大约是AV1的两倍。 * H.266/VVC的编码时间最长,从UHD分辨率1 Mbps比特率下的27倍到FHD分辨率15 Mbps比特率下的174倍。
未来计划 :
* 计划使用客观指标评估8K数据集中的其他测试序列。 * 选择适当的序列并使用主观方法(如绝对类别评分ACR、ACR-HR或双刺激损伤量表DSIS)进行评估。 * 计算客观和主观结果之间的相关性,并使用皮尔逊和斯皮尔曼相关系数。 * 将结果作为输入到神经网络中,以改进基于客观指标预测质量的模型。
