摘要:
分布式编码是缩短内容准备云工作流程的周转时间的一种有效方法。当前已经提出了内容自适应比特分配的策略以保证存储和传输的效率。但这些方法中的许多方法本质上倾向于使用迭代,需要消耗大量额外的计算资源,我们应限制计算复杂度的这种增加。本文提出了一种非迭代的代码同义方法,它采用机器学习技术来实现平均比特率的节省,同时保证目标质量。方法是以一种方式为每个自适应比特率(ABR)表示中的每个ABR段选择内容自适应比特率和分辨率,使它同样适用于实时和按需工作流程。初步结果表明,所提出的方法可以通过更详细的技术实现约85%的比特节省可能,而其计算复杂度仅为双通可变比特率(VBR)编码的15%-20%。
本文内容来自于Sriram Sethuraman, Nithya V. S.和Venkata Narayanababu Laveti D.在SMPTE Motion Imaging Journal刊登的文章“Noniterative Content-Adaptive Distributed Encoding Through ML Techniques”
引言
由于能够随时在任何地方消费内容,通过因特网流媒体的多媒体内容消费开始成为最优选的模式。基于HTTP的自适应比特率流,基于Apple的HTTP直播流(HLS)或基于MPEG的动态自适应HTTP流传输(DASH)等规范,为客户端应用程序提供了基于静态方面选择合适的ABR表示的能力,例如客户端设备属性,用户偏好等;以及动态方面,例如端到端连接上的可用带宽。传统做法是使用Apple,Inc中保守的固定比特率/分辨率ABR表示阶梯。在过去三年中,出现了多种内容自适应编码或流媒体方法目标比特率和最大比特率,可以节省平均比特率并保证更一致的视频质量。实现的比特节省减少了内容传送网络边缘设备中的存储需求以及用于服务订阅用户的平均字节数,这两者都提高了服务的操作效率。这些方法还可以带来更好的体验质量(QoE),并减少了流媒体服务使用者的月度数据消耗。这些方法中的大多数需要评估质量度量以确保能够通过设置给定的峰值比特率来限制目标质量水平,最终实现比特节省。
分布式编码通过在云端的多个计算实例中同时生成标题的HLS / DASH段的ABR表示集,可以缩短周转时间,因此它在现今得到了广泛的应用。它还提供根据所获取的计算实例的异构属性来调度和负载平衡编码实例的功能。即使对于视频直播,这种传统模式中在单个计算实例上使用更快编码设置的实时流式场景,分布式编码和ABR段的概念也为一种具有更高压缩效率的较慢编码设置提供了可能。内容自适应编码可能实现的平均比特节省是互补的,有时与通过更慢的编码预设实现的比特节省相比更有意义。由于流行体育和现实事件的直播流有数百万订阅者消费接近实时时间线的内容,因此交付效率更具重要性。然而,大多数内容自适应方法本质上是迭代的,因此,这些方法可能导致实时传送用例的延迟最终超出可接受的限制,实时解决方案成本的增加,或者如果给定的ABR段本身跨越多个计算实例,可能使内容准备工作流程过于复杂。内容自适应流式传输方法或是通过创建过剩的表示,或是失去保存额外比特,或是进一步提高质量,来增加边缘存储。此外,需要为每个流和每次迭代评估有意义的质量度量以实现最大的比特节省可能,这进一步增加了计算复杂度需求。
在本文中,作者提出了基于机器学习(ML)的方法,该方法消除了对迭代的需求,这些迭代通常用于描述以不同比特率和分辨率组合针对每个内容段获得的感知质量。一个简单的内容分析过程只需要双通道编码时间的一小部分,以及一个基于机器学习的、用于使用速率与质量数据最近邻来估计每个段的目标比特和分辨率的程序,就能实现接近迭代方法的性能。它也消除了对明确的质量度量评估的需求。因此,这种方法适用于现场和按需使用的情况。它还允许使用任何现有的编码器(例如,已经预先集成到工作流中的编码器)来执行最终编码。
内容自适应比特率分辨率阶梯
指定比特率和分辨率组合的固定ABR阶梯是一种保守的方法,它量化了跨用户基础的可用带宽范围(在某一时段内测量),并且为那些相对较难编码的视频片段集合识别出了在每个比特率上以最高质量出现的分辨率。自然地,当段非常简单时,为它配置的比特率不需要很高。当配置成使用标准双通VBR编码设置进行编码时,这些段达到的质量显著高于复杂段达到的质量。这导致在相同的表示内质量水平不必要的波动和比特的浪费。本文参考了一种基于整数规划的方法,该方法试图展示与当时流行的固定阶梯相比,比特节省的范围,同时确定使目标受众的平均QoE最大化的编码参数。×264开源编码器首先提出了恒定速率因子(CRF)模式,该模式通过淡化需求,在尽量满足编码质量一致性时允许限制峰值比特率,来满足高级别的平均比特率。当然,要配置正确的CRF值以达到某个质量目标,需要跨越多个分辨率以多个CRF值对内容进行迭代编码。为了能在编码给定段时利用CRF,并识别实现比特目标的CRF值,本文参考了一种基于神经网络的回归,其中在网络中使用在恒定量化参数下从实际编码生成的一组特征。该方法在使用预估的CRF值编码时能够满足目标比特率±20%的精度。然而,该方法使用了CRF值作为质量指示符,并且不建议被用于估计不超过目标感知质量水平所需的比特分配的方法中。在另一篇文献中,Netflix宣布了一种适用于每个标题的优化方法,其中阶梯适用于每个标题,从而在某些标题上节省了20%的比特。此方法后来被改进为块自适应调整,其中对应于标题级(title-level)比特率的CRF值用于识别块级(chunk-level)比特,以便在VBR模式下为最终编码进行分配。这个过程将分配的比特限制到比每个标题的比特率更低的级别,因此,与基于标题的编码方法相比,能够转换为额外的比特节省。该过程涉及使用不同的CRF值对标题内的中度复杂的片段在每个分辨率下进行多个编码,以获得每个分辨率下的率-失真曲线。
虽然CRF根据时间复杂度(相对于恒定量化器选项)来调整量化级别,但通过使用主观相关的客观质量度量,可以通过充分利用给定内容中存在的空间和时间掩蔽来进一步增加比特节省。此外,当从每个标题转到每个块时应使用相同的逻辑,在块级(chunk-level),场景或帧级别确定特定的比特分配也在预期中将与块级别相比增加比特节省。 Rehrer和Begen都以多个比特率对标题的每个片段执行一组恒定比特率或VBR编码,并依赖于质量度量来为给定内容选择正确的比特率表示。有多个相关优化工作正在进行。一个工作在内容准备端的后处理步骤通过去除超过某个基于SSIMplus的特定质量等级的比特率表示(并指向满足质量等级的较低比特率表示)来优化ABR阶梯,从而实现平均比特率节省。一个工作在流测量的质量等级被流式客户端用于选择一致的质量段表示或者在可用带宽改变时减少质量波动。还有一个工作在内容自适应编码由在编码处理内在帧级计算的主观质量度量引导,并且调整帧消耗的比特以确保不超过目标最大质量,同时将复杂帧的质量向平均一致质量改进,直到峰值比特率限制它。选择正确的依赖于内容的分辨率的过程要求对每个分辨率进行编码,然后选择在给定比特率下以相同质量或最高质量实现最低比特率的分辨率。
虽然上述方法的计算复杂度存在很大程度的变化,但是可以看出它们本质上都是迭代的。即使平均迭代计数很低,对于实时用例,峰值迭代计数也会增加解决方案的延迟。因此,仍然需要一种在复杂度上更具确定性,并且与传统工作流(为固定ABR阶梯生成流)的复杂性相比足够轻量的方法。因此,在本论文提出一种基于ML的方法,它消除了多重试用编码的需要,也消除了对任何与主观质量良好相关的复杂客观质量度量的在线评估的需要。在“基于ML的非迭代方法”中详细解释了该方法。
基于ML的非迭代方法
假设流服务提供商具有跨目标受众测量得到的比特率范围,该比特率范围表示随时间获得的可持续峰值比特率。基于离线分析,假定服务提供商已经到达该范围内的一组量化峰值比特率。例如,这种量化可以通过从最高要求的峰值比特率开始,找到一系列比特率来执行,这些比特率在质量上根据一组相当高的复杂度内容,与前一个比特率恰好相差一个可观测到的差值。这种量化的峰值比特率(Rmax i,i=1,N)的数目(N)决定所需的ABR表示的最大数量(对于一个目标显示类型)。该部分还假定服务提供商具有目标显示的分布。对于每个目标显示类型(D),假定服务提供商定义了一个“不超过质量度量”(Qmax N)表示集合中的最高质量。该部分假设速率量化过程为每个其它的表示(N-1个)导出相应的质量度量(Qmax i)提供了指导。
现在,每个ABR段的内容自适应阶梯计算具有识别M对(B,R)的问题,其中B代表比特,R代表空间分辨率,并满足(M≤N),在这些条件下使得在(R i≤Rmax i)和(Qi)的约束下段质量达到最大化。对于i=1,…,n,内容自适应梯形还可以扩展到考虑帧速率的自适应确定,以及跨越内容帧速率的一小组子集。
为了减少在线计算,所提出的方法依赖于ML技术。有工作已经提出了一种在稍微不同的场景中的方法,将具有不同时空复杂度的大量视频片段用作离线训练集。有相关文献提出了一种在2D可视化复杂度空间中的方法,其中x轴是空间复杂度的指示器,y轴是相对于空间复杂度的时间复杂度的指示器。在给定峰值比特率受到限制的情况下,所有达到Rmax N但仍未达到Qmax N的段必须在Rmax N处编码。
在过滤出所有这样的段之后,剩余段的分布如图1所示。峰值比特率约束导致2D空间中的点分布为下三角分布。对于每个训练视频段,获得跨越多个分辨率的速率与质量数据。在每个训练段上执行视频分析遍历,在此期间收集从复杂性角度表征内容的多个度量。通过这些措施,通过训练过程获得与识别具有非常相似(R,Q)曲线的最近邻相关的特征。(R目标比特率和最大比特率,Q)数据和训练段的特征将以适当的格式存储。
通过执行以下有序步骤来确定给定(Rmax i,Qmax i)组合的给定ABR段的内容自适应(Bi,Ri)对。图2说明了本方法的关键阶段。首先,对该段进行相同的视频分析以获得复杂性度量。从这些措施中,训练好的ML模型将生成一个特征向量。利用这个特征向量,通过评估当前片段的特征和每个训练片段的特征之间的相似性度量,识别出来自训练集的最多k个最近邻。检索这些相邻的(R,Q)数据。对于每个邻居,在每个分辨率中,查找QMAX I所需的比特。需要将在QMAX I中最低位数的分辨率作为目标分辨率。当相邻分辨率不匹配时,使用最近相邻建议的分辨率。基于相似性度量,将目标分辨率下的所有比特估计适当地组合以导出最终比特估计。如果QMAX I以比最近的相邻Rmaxi更高的比特率来达到,那么将Rmaxi作为最终比特估计返回。在这种情况下,选择在RMAXI中达到最高质量的分辨率作为目标分辨率。
除了获得最佳(B,R)对之外,还可以使用最近相邻项来调整默认编码参数以使其更适合于内容。用于×264编码器的这种编码参数的一些示例是诸如psyrd强度、aq强度和解块强度之类的参数。计算得到的分辨率和比特率被用于使用在与用于为训练段生成(R,Q)数据的编码器相同的编码器来对段进行编码。这种编码参数的微调过程不在本文的范围之内。
段可以包含多达两个部分场景和许多完整场景,这取决于片段持续时间。所提出的方法已扩展到工作现场的水平,以确保一致的质量。这提供了节省比特的额外范围,也有助于提高片段中简单场景旁边的复杂场景的质量。通过提供对前段和后续段的访问,可以保证实现一致质量的比特分配。
因此,在分布式内容自适应编码工作流程中,每个计算实例可以从内容源(例如,云存储单元)摄取一个或多个片段,使用所提出的方法确定内容自适应阶梯,并以独立于其他计算实例的方式生成M个不同的表示,同时确保在整个标题中实现一致的质量。这将允许在按需内容准备场景中减少周转时间。在实时用例中,特别是对于较短的段,如果使用N个计算实例,则每个计算实例获得N*段持续时间以处理一个段。这有助于使用更高的压缩预配置用于现场使用。在这些情况下,权衡跨延迟、比特节省和工作流的复杂性之后我们将正确选择的N。
实验结果
本实验采用视频多媒体评估融合(VMAF)作为主观相关的客观质量度量。目标显示类型被假定为1080p,并且在测量VMAF之前,所有较低分辨率被适当地缩放到1080p。选择了一组覆盖复杂空间的100个1080p测试段。采用开源×264编码器对段进行编码。具体而言,该编码器在“非常慢”预设中的双通道VBR编码模式用于跨目标比特率范围对每个段进行编码,并且测量所得到的VMAF以获得针对每个段和段内每个场景的多分辨率的详尽R–Q数据。从固定阶梯中选取用于实验结果的参考表示作为5.8Mbits/s的目标比特率,峰值比特率设置为8.5Mbits/s,计算得到跨段的中值质量水平为95的VMAF。该质量水平被选择为QMAX值。
使用这些详尽的R- Q数据,我们可以计算在该目标质量水平上消耗的场景级(scene-level)比特。参考编码器消耗的场景级(scene-level)比特与该场景的计算比特之间的差异被认为是可以实现节省比特的几率。对于选定的片段,这个几率是47%。对于每个场景,使用所提出的基于ML的方法来获得目标质量水平的分辨率和比特估计。所提出的方法实现的比特节省为40%。图3说明了使用参考编码器的初始质量分布以及使用所提出的方法可能的质量分布。可以看出,比特节省的较高机会来自峰值质量大约为97的VMAF。然而,这个参考编码器具有质量低至VMAF为78的场景。所提出的方法将最小质量转移到VMAF为82。这是可能的,因为当片段内的其他场景更简单时,能够增加场景的分配。
为了说明所提出的方法如何跨越各种时空复杂度点,在空间中选择了四个代表性点。两个目标VMAF质量水平分别为90和95。表1总结了从详尽的R–Q数据中获得的最佳分辨率和比特,并将其与使用所提出的方法获得的结果进行比较。可以看出,在空间复杂度高和时间复杂度低时选择较高分辨率,在时间复杂度高时选择较低分辨率这两方面,分辨率的选择是符合预期的。虽然比特节约仅仅是预估的,但该表也说明了其中可以改进的空间。
视频分析模块带来的额外复杂度只有双通道VBR编码器复杂度的15%-20%。
总结
本文提出了一种基于ML的低复杂度方法,用于在ABR流传输场景中对分辨率和比特率组合进行内容自适应确定。与理想的实现比特节省的机会相比,所提出的方法在实现合理的比特节省水平方面表现出良好的前景。该方法还在分辨率选择方面表现得相当好。因此,在计算复杂性起着重要作用的现场用例中,所建议的方法预期将发挥更重要的作用。未来的方向包括改进特征选择和ML方法,以便为恢复更高的比特节省提供机会。
参考文献
1.Apple, Inc., “Best Practices for Creating and Deploying HTTP Live Streaming Media for Apple Devices,” Technical Note TN2224, Feb. 8, 2016. [Online]. Available:
2.L. Toni, R. Aparicio-Pardo, G. Simon, A. Blanc, and P. Frossard, “Optimal Set of Video Representations in Adaptive Streaming,” Proc. MMSys 2014, pp. 271–282, 2014. doi:
3.A. Aaron, Z. Li, M. Manohara, J. De Cock, and D. Ronca, “Per-Title Encode Optimization,” 2015. [Online]. Available:
4.J. De Cock, Z. Li, M. Manohara, and A. Aaron, “Complexity Based Consistent Quality Encoding in the Cloud,” Proc. ICIP 2016, pp. 1484–1487, 2016.
5.C. Chen, S. Inguva, A. Rankin, and A. Kokaram, “A Subjective Study for the Design of Multi-resolution ABR Video Streams with the VP9 Codec,” Proc. SPIE Electronic Imaging, Human Visual Perception, 2016.
6.M. Rehrer, “Using QoE scoring and ABR encoding,” presented at Bits by the Bay 2016, a SMPTE event. [Online]. Available: %202016%20111%20Telestream%20-%20Using%20QoE%20and%20ABR.pdf
7.A. C. Begen, “More Juice, Less Bits: Mediamelon Content Aware Streaming,” presented at ACM MMSys, May 2016, Klagenfurt am Wörthersee, Austria.
8.D. Gill, “Content Adaptive Encoding Approaches for Improved Video Quality at Reduced Bitrates,” Proc. Broadcast Eng. Inform. Technol. Conf., NABShow, 2017.
9.“×264 open source code.” [Online]. Available:
娜娜项目网每日更新创业和副业项目
网址:nanaxm.cn 点击前往娜娜项目网
站 长 微 信: nanadh666
10.M. Covell, M. Arjovsky, Y.-C. Lin, and A. Kokaram, “Optimizing Transcoder Quality Targets Using a Neural Network with an Embedded Bitrate Model,” Visual Inform. Proc. Comm., 2016.
11.Y. Wang, M. van der Schaar, S.-F. Chang, and A. C. Loui, “Classification-Based Multidimensional Adaptation Prediction for Scalable Video Coding Using Subjective Quality Evaluation,” IEEE Trans. Circuits Syst. Video Technol., 15(10), Oct. 2005.
12.Z. Li, A. Aaron, I. Katsavounidis, A. Moorthy, and M. Manohara, “Toward a Practical Perceptual Video Quality Metric,” Netflix Techblog, June 2016. [Online]. Available: metric-653f208b9652
娜娜项目网每日更新创业和副业项目
网址:nanaxm.cn 点击前往娜娜项目网
站 长 微 信: nanadh666