【论文解读】Performance of AV1 Real-Time Mode

阅读量：

论文下载地址： $time:$ AV1 Real-Time Performance
Download link: Performance of AV1 Real-Time Mode
Level: IEEE
Author: Ludovic Roux

摘要

背景：COVID-19疫情推动了数字化互动需求的增加，在这一背景下实时或低延迟编解码器的重要性显著提升。

现状：现有编解码器体系中AV1编码器等主要关注于编码性能这一核心指标。

研究目的：本研究旨在探讨视频点播（VOD）应用与交互式用例在编解码器设计角度间的差异性。

主要发现：在优化交互延迟与提升编码效率之间存在两种权衡关系。

方法：通过评估全高清视频序列在不同实时场景下的性能表现来比较H.264、VP8、VP9及AV1编码器的表现特点。

关键词：实时视频编解码器；视频编码性能

介绍

这段内容详细讨论了编解码器的使用案例、预录制内容与实时内容编码之间的区别，以及如何为交互式用例评估编解码器的性能。

A. Codec Use Cases（编解码器的使用案例）编解码器通常指的是用于编码和解码媒体的二进制表示的算法。目前，大规模编解码器使用有三个主要用例：
复制代码
 * 客户端原始内容的编码
 * 服务器端内容的转码
 * 接收端内容的解码
编解码器的性能通常基于编码效率进行评估，即在运行时间内实现的压缩/质量比。使用Bjøntegaard率差（BD-rate）进行比较，并且有多个文档指导研究人员选择最具代表性的数据集、最有意义的指标和最佳结果表示。

B. Difference Between Pre-Recorded Content and Live Content Encoding（预录制内容与实时内容编码的区别）在VOD中，编码器和解码器的延迟通常可以忽略不计。
对于编码器：
复制代码
 * 生产时间本身可能需要数周甚至数月，并且已经发生。
 * 媒体不需要立即消费。
 * 编码后的媒体在传输前需要存储，这使得存储成本成为一个问题。
 * 媒体将通过公共互联网传输，这使得带宽成本成为一个问题。
 * 媒体将被传输很多次，任何对媒体大小的减少都会对最终运营成本产生更大影响，通常比编码成本高出几个数量级。
对于解码器：
复制代码
 * 延迟或启动延迟（首次媒体播放时间）是可以接受的，只要播放开始后流畅即可。
 * 为了使播放流畅，解码器的吞吐量需要等于或高于任何给定公共互联网条件下的实时需求。
因此，编码和解码过程中引入的延迟或延迟几乎从未被考虑在内，几乎所有的研究和基准测试都集中在压缩比和吞吐量上。

C. Benchmarking Codecs for Interactive Use Cases（为交互式用例评估编解码器）研究表明，运行时间是延迟加编码时间，延迟是帧缓冲区深度和恒定捕获率的函数。提高帧率可以降低延迟，但会增加工作负载。降低延迟的最简单方法是减小帧缓冲区的大小或完全不需要帧缓冲区。

大多数编解码器都有一个速度变量范围在[0,8]之间。它反映了编码器的复杂性和结果速度，而不是延迟设置。例如，在AV1实时编译模式下，一些工具不使用，只使用单个参考帧，不使用前瞻（H.264中的B帧）或滞后帧，始终处于恒定比特率模式，分区决策基于方差分布而不是搜索等启发式方法。

这在编码效率方面是有代价的，使得实时编解码器与传统的速率压缩图不直接可比。本研究将提出一种评估交互式用例中编解码器的方法，并尝试将一些编解码器的实时模式性能放在更广泛的视频编解码器背景中。

H.264、VP8、VP9和AV1的实时版本今天都在webrtc.org代码中使用。它们也单独用于VOD流媒体，并且为这些情况提供了许多基准。最近的一项研究使用最佳质量模式和两遍压缩测量了libaom AV1编码器与x265和libvpx-vp9的编码性能。本文将专注于编码器的实时模式。在实时模式下（即在webrtc中，或一般交互式用例中）从一种编解码器切换到另一种编解码器时，我们可以预期的BD-rate改进是多少？它与现有的流媒体基准有什么关系？本文将解决这些问题。

方法论

A. Dataset（数据集）

研究中为了便于对比分析结果，在实验过程中采用了具有相同分辨率、帧率、色彩空间和深度的视频序列。这些视频序列仅在持续时间和帧率方面存在差异。

质量评估指标的转变：

过去压缩效果通常通过PSNR等客观量化指标进行评估
然而这些量化标准与人类对于图像或视频质量感知之间的关联度较低
近年来学术界逐渐转向使用主观评估方法并引入了视频多方法融合评估体系（VMAF）
研究表明基于VMAF的分数能够较好地反映人类视觉感受
本研究沿用当前编解码器领域前沿的研究方向

VMAF得分解释：

VMAF得分范围为[0, 100]，可与绝对类别评分（ACR）方法的五个等级相对应：

20分对应“差”

40分对应“较差”

60分对应“一般”

80分对应“好”

100分对应“优秀”

视频序列详情：

研究集中在1080p高清视频上，这是使用默认模型v0.6.1计算VMAF得分的推荐分辨率。

表I列出了研究中使用的12段视频，分为两组：一组7段视频帧率为25fps，另一组5段视频帧率为50fps。

所有视频序列均为全高清分辨率1920×1080像素，YUV格式，8位深度，且未压缩。

视频选自公开可用的Xiph.org视频测试媒体[derf的收藏]数据集。

B. Video Codecs（视频编解码器）

本研究将比较六种编码器的性能，分别为AV1的aomenc和SvtAv1EncApp，VP8和VP9的vpxenc，以及H.264的h264enc和x264。

编码器版本和编译选项：

表II提供了每种编解码器使用的版本、源代码获取位置以及编译时选择的选项。

实时模式与非实时模式的对比分析：

本研究旨在比较实时模式和非实时模式在编码性能上的差异。为此，在AV1编解码器中对AOM编码器aomenc进行了二次编译，并启用了选项-DCONFIG_REALTIME_ONLY=0以实现对实时编码功能的支持。

针对非实时编码路径，在aomenc参数设置范围内可选值为[0…6]中的一个整数值，默认采用–cpu-used=5这一参数设置以平衡编解码效率与资源消耗之间的关系。

为满足实时编码需求，在aomenc参数设置范围内可选值限定在[6…8]区间内，并采用–cpu-used=7这一参数设置以确保良好的运行性能。

其中实现实时编码功能的编解码器被命名为aomenc-rt（Real-time AOM Encoder），而选用较低资源消耗策略的编解码器则命名为aomenc-good（Good AOM Encoder）。

编码器运行时选项：

表III提供了运行时启动每个编解码器使用的选项。

编码器编译和视频编码：

编码器的编译和视频的编码是在一台搭载Intel® CoreTM i7-7700T 8核2.90 GHz处理器和16 GB内存、运行Ubuntu Desktop 20.04.1 64位操作系统的DellTM OptiPlex 5050上执行的。

结果与分析

我们对每种编码器在六个不同的比特率等级下的VMAF得分进行了评估：800、1200、2000、3000、5000和10000kbps（见图3a至3l中的VMAF曲线图），并根据每个比特率对应的VMAF曲线计算出每个比特率下的BD-rate值（见表IV和表V）。
该得分可视为人类观察者基于五级评价标准对视频质量进行主观评估的结果。

A. 数据集和评估指标

本研究采用了具有相同分辨率、帧率、色彩空间和深度的一致视频序列以简化比较结果。该研究采用该类视频序列的原因在于其差异仅限于持续时间和帧率两个方面。

本研究采用VMAF（Video Multimethod Assessment Fusion）作为主要的质量评估指标。该指标能更好地反映人类对视频质量的主观评价。

在85% kbps（即85千比特每秒）、1.2 Mbps（即1.2兆比特每秒）、2 Mbps、“2.4 Mbps、“5 Mbps和1.oo Mbps六个不同的目标比特率下进行实验，在每个编码器上分别进行了VMAF评分，并据此计算了对应的BD-rate。

B. BD-rate和BD-VMAF的解释

BD-rate ：衡量在相同视觉质量水平下能够获得的平均百分比比特率节省。例如，aomenc-rt与vpxenc-vp9相比，在相同的VMAF得分范围内（83至100），aomenc-rt平均能节省21.16%的比特率。

BD-VMAF ：计算相同比特率下的平均视觉质量改进。例如，aomenc-rt在相同的比特率范围内（799至9940 kbps）相比vpxenc-vp9，平均VMAF得分高出1.97点。

C. 讨论

在现有研究中所涉及的所有编码器中，在编码速度上追求更高的帧率（如从25 fps提升至50 fps）均面临显著的技术挑战。不仅在比特率上需要更高要求以维持与25 fps一致的画面质量，并且实时编码约束迫使编码器必须以至少两倍的速度处理每一帧。

实验结果表明，在采用openh264和x264 libvpx-vp8编码器时能达到较高的效率，在支持较高帧率的同时也能维持良好的图像质量。相比之下，在目标比特率低于2000 kbps的情况下，则无法生成高质量的25 fps视频。值得注意的是，在用于实验的个人计算机上这些编码器同样无法实现对50 fps 1080p视频的有效编码。

在实验条件下设定合理的比特率范围后发现，在支持较高帧率（如从13fps提升至14fps）时仍能维持良好的视觉质量（VMAF得分），但当帧率进一步提升至更高值时则会显著降低图像质量表现（通常VMAF得分会在67分左右徘徊）。因此建议采用合适的平衡策略来选择最佳的参数配置。

D. 结果一致性

实验数据显示，在编解码器的不同模式下（即实时模式与非实时版本之间），AV1的表现优于VP9（AV1 > VP9），而VP9又优于VP8。

aomenc在非实时编码方面展现了显著的优势，在所有测试序列中（除Riverbed视频外），即使未采用最高比特率（如10000 kbps），也能实现完美的视觉重建效果。

相对于AV1和其他主流格式而言，SVT-AV1展现出极高的编码效率（甚至可以说是无可匹敌）。然而需要注意的是，在实时性能方面略显不足。

E. 特定编解码器的观察

除了VP9和AV1之外，大多数实时编解码器在目标比特率低于2000 kbps时，难以保持80以上的VMAF得分，对1080p内容进行编码。Riverbed视频对于所有编码器来说，即使目标比特率为5000kbps，也难以编码出高质量视频。

x264实现的H.264通常与VP8表现相当，而openh264实现的H.264在该数据集的12个视频片段中通常表现出较低的编码效率。

这一研究结果不仅深化了我们对不同编解码器性能特征的理解，并且对于优化其在实际应用中的表现具有重要意义。这一研究结果不仅有助于理解不同编解码器在实时和非实时条件下的性能差异及其影响因素，并且能够帮助选择最适合特定应用场景的编解码器。

结论

这段内容主要讨论了预录制内容与实时内容在编码器处理时的不同影响，以及不同编码器在实时模式下的性能和效率。

预录制内容与实时内容的编码差异 ：

复制代码

 * 预录制内容允许编码器利用缓冲区提高编码效率，同时不会显著增加延迟。
 * 实时内容的编码需要等待帧的捕获，这使得使用缓冲区的操作变得不切实际，因为它们需要在I/O速度下填充，而在实时场景中则需要等待帧的获取。

基准测试的局限性 ：

复制代码

 * 通常，编码器性能的基准测试只针对预录制内容进行，这些测试结果不能直接应用于实时配置。

AV1编码器的实时模式性能 ：

复制代码

 * 与标准模式相比，AV1的aomenc编码器在实时模式下预计效率会降低约33%。
 * 虽然这一理论差异值得关注，但实际上，由于延迟问题，aomenc编码器即使在速度6的设置下，也不适合用于交互式场景。

实时编码器的带宽效率 ：

复制代码

 * 通过对比12个视频序列的测试结果，发现使用aomenc-rt（AV1的实时编码模式）相比于VP9-rt（VP9的实时编码模式），可以在保持相同视频质量的情况下，平均减少17%的带宽使用。
 * 与VP8相比，带宽使用可以减少40%，这表明AV1在实时编码方面的潜在优势。

总体而言，这段内容特别强调了实时编码对编码器性能的特殊要求，并且明确指出AV1编码器相较于其他如VP9与VP8等竞争对手，在进行实时模式下的带宽占用上具有显著的优势。此外还指出现有基准测试在评估实时编码性能方面的不足之处。

未来工作

这段内容概述了如果这篇论文被接受，作者计划进行的未来工作和可能的研究方向，以增强论文的完整性和实用性。具体包括：

扩大数据集 ：
复制代码
 * 增加更多的内容以构建更大的数据集，这有助于更全面地评估编码器的性能。
不同比特深度和色度采样的影响 ：
复制代码
 * 研究不同比特深度和色度采样对编码效率和视频质量的影响。
分辨率的影响 ：
复制代码
 * 探讨不同分辨率对编码性能的具体影响。
解耦延迟和吞吐量的测量 ：
复制代码
 * 为了能够更直接地比较编解码器性能，计划调整测试条件，使用统一的预录制数据集，并设置固定的播放速度（如25 fps或50 fps）。
修改代码以直接报告延迟和编码时间 ：
复制代码
 * 调整编码器的代码，使其能够直接输出延迟和编码时间的具体数值，以便于分析和比较。
测试其他AV1实现，包括硬件编码器 ：
复制代码
 * 评估不同实现方式的AV1编码器，包括软件和硬件编码器的性能。
SVC（可扩展视频编码）的影响 ：
复制代码
 * 研究SVC技术对视频编码性能和质量的影响。
16位pipeline的影响 ：
复制代码
 * 分析16位颜色深度的流水线对编码效率和视频质量的影响。

这些计划中的工作致力于进行深入研究以实现编解码器性能评估的提升，并探讨影响视频编码效率与质量的关键技术要素。基于这些研究成果，作者期望为视频编码领域的研究者及实践者带来更有价值的支持性数据与见解。

全部评论 (0)

还没有任何评论哟~

【论文解读】Performance of AV1 Real-Time Mode

论文下载地址：PerformanceofAV1RealTimeMode 时间：2020.10 级别：IEEE 作者：LudovicRoux 摘要背景：COVID19疫情增加了对数字互动的需求，使得实...

Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes解读

论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9042876年份：2020 关键词：轻量级、精度和速度的更好平衡一、工作...

【论文解读】Performance Comparison of VVC, AV1, HEVC, and AVC for High Resolutions

论文下载地址：PerformanceComparisonofVVC,AV1,HEVC,andAVCforHighResolutions 时间：2024年作者：MiroslavUhrina 摘要 1....

【论文笔记】THE SURVEY of REAL TIME OPERATING SYSTEM: RTOS

原文作者：PrasannaHambarde,RachitVarma，ShivaniJha 原文标题：THESURVEYofREALTIMEOPERATINGSYSTEM:RTOS 原文来源：ICESC...

《Real-Time Compressive Tracking》论文理解

这是KaihuaZhang发表在ECCV2012的paper，paper的主题思想是利用满足压缩感知compressivesensing的RIPrestrictedisometryproperty条件...

[京哥读论文]之Bi-Real Net：Enhancing the Performance of 1-bit CNNs With Improved Representational Capabilit

论文题目：BiRealNet:EnhancingthePerformanceof1bitCNNsWithImprovedRepresentationalCapabilityandAdvancedTra...

【论文阅读】YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

原始题目：YOLOv7:Trainablebagoffreebiessetsnewstateoftheartforrealtimeobjectdetectors 中文翻译：YOLOv7:可训练的免费包...

You Only Look Once: Unified, Real-Time Object Detection 论文解读

本文章用以JMUAIA（集美大学人工智能协会）于2024/01/27发布在课堂派上的期末考核FINAL。论文来自于期末考核附件。论文中提到的YOLO项目网站一、 YOLO（YouOnlyLook...

操作系统论文导读（二十四）：Balancing Energy Efficiency and Real-Time Performance in GPU Scheduling

2021RTSS:BalancingEnergyEfficiencyandRealTimePerformanceinGPUScheduling 目录一、背景介绍问题分析研究问题 sBEET框架 ...

论文阅读：Real-time Semantic Segmentation with Fast Attention

RealtimeSemanticSegmentationwithFastAttention 文章目录 RealtimeSemanticSegmentationwithFastAttention 摘要 ...

是否确定退出登录?

【论文解读】Performance of AV1 Real-Time Mode

摘要

介绍

方法论

A. Dataset（数据集）

质量评估指标的转变：

VMAF得分解释：

视频序列详情：

B. Video Codecs（视频编解码器）

编码器版本和编译选项：

实时模式与非实时模式的对比分析：

编码器运行时选项：

编码器编译和视频编码：

结果与分析

A. 数据集和评估指标

B. BD-rate和BD-VMAF的解释

C. 讨论

D. 结果一致性

E. 特定编解码器的观察

结论

未来工作

全部评论 (0)

相关文章推荐

【论文解读】Performance of AV1 Real-Time Mode

Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes解读

【论文解读】Performance Comparison of VVC, AV1, HEVC, and AVC for High Resolutions

【论文笔记】THE SURVEY of REAL TIME OPERATING SYSTEM: RTOS

《Real-Time Compressive Tracking》论文理解

[京哥读论文]之Bi-Real Net：Enhancing the Performance of 1-bit CNNs With Improved Representational Capabilit

【论文阅读】YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

You Only Look Once: Unified, Real-Time Object Detection 论文解读

操作系统论文导读（二十四）：Balancing Energy Efficiency and Real-Time Performance in GPU Scheduling

论文阅读：Real-time Semantic Segmentation with Fast Attention