5G时代都在说自由交互视频，这项技术难在哪里？-EDA365

网络通信 > 通信技术 > 详情

5G时代都在说自由交互视频，这项技术难在哪里？

发布时间：

交互式视频技术，是随着网络传输速度的提升以及多媒体技术的成熟，经由各种技术手段融入产生的一种新型体验视频。而当5G时代来临，交互式视频是否会成为下一代黑科技，令业界关注。1dCednc

北京大学深圳研究生院教授王荣刚在今日举行的“第二届(2020)国际电子产业链资源对接大会”AI技术分论坛上，以“自由交互视频技术及其商业前景”为主题进行了解析。1dCednc

1dCednc

技术不断演进，沉浸视频时代来临

回顾视频技术的发展，从标清、高清、超高清，到如今的虚拟现实，视频需求从以前的看得见，到现在的看得清、看得真。尤其是现下5G非常火，带动了超高清视频的发展。我们把超高清视频和虚拟现实视频通称为沉浸式视频。1dCednc

沉浸视频带给用户更好“临场感”的视频，这其中的要素有：分辨率、帧率、动态范围、视野范围，和一个提及较少的交互性。直到现在为止，大家看到的视频是被动接收的，导演给什么视角观众看到的就是什么视角，观众无法切换，这就是缺乏交互性的直接体现。1dCednc

按照交互性，可以将现在的主流视频形式分为三种不同的形态：1dCednc

1. 零自由度沉浸视频：超高清视频。无论是4K还是8K，它依旧是完全被动的，只是清晰度提高了而已，这是零自由度，没有交互性。1dCednc

2. 三自由度沉浸视频：全景视频。典型的是大家熟知的VR视频，用户戴上VR头盔，随着头部的转动有相应的内容呈现，让人感觉身临其境，但这个自由度只是在三个方向上的转动，如果用户走动/移动，视频是不会发生改变的，这个时候自由度受限，所以叫三自由度。1dCednc

3. 六自由度沉浸视频：自由交互视频。与三自由度相比添加了移动时视频的改变，这就是更高级的交互，真正的使人有身临其境的感觉。1dCednc

视频技术发展的两大挑战

1. 网络传输带宽不足

目前家庭网络或是4G网络，稳定的传输带宽大概20兆左右，待到5G用到家庭，稳定的传输量在100兆左右，即使这样，传输自由沉浸视频还是非常有难度的。1dCednc

2. 实时处理困难

另外一个困难是实时处理的困难，巨大的数据量要在一秒钟处理上百帧，这个难度是非常大的，现在的算力完全不匹配。1dCednc

编码复杂度：编码算法复杂度 x 数据通量

计算挑战是由两个维度共同叠加造成的。一方面，数据通量爆炸了，比以前增加了十倍、上百倍；另一方面，编码算法的复杂度也增加了十倍，这样一叠加就不得了了，就是上万倍了，这个挑战是非常大的。1dCednc

（1）编码标准演进：目前进入第4代标准制定周期

每次标准迭代编码算法的复杂度都上升一个数量级：视频编码标准的演进，目前差不多演进了四代，第一代是以MPEG-2为代表的标清时代，再后来是H.264为代表的高清，现在是H. 265和AVS2为代表的4K时代，以及H.266和AVS3为代表的8K时代。每个时代都有不同的压缩标准，每一代压缩标准比前一代差不多提升了一倍，压缩效率提升一倍的代价是计算效率增加十倍。1dCednc

（2）数据通量爆炸，我们的数据量增加了十倍、上百倍

4K视频：1dCednc

3840 x 2160 x 50 x 15 = 6.2 Gbps1dCednc

8K视频：1dCednc

7680 x 4320 x 120 x 18 = 71.6 Gbps1dCednc

全景视频上限：1dCednc

360 x 60 x 180 x 60 x 120 x 18 = 500 Gbps！1dCednc

自由视点视频：1dCednc

？…1dCednc

从高清到超高清，最核心的挑战来自于数据通量的爆炸。以4K为例，他的数据量差不多是高清的十倍。除了水平垂直分辨率各增加两倍以外，实际上在帧率也增加了两倍，动态范围也增加了，原始的数据量6G/秒，8K视频不是比4K视频增长4倍而是10倍。VR视频上限是500G，很多人体验过VR视频，都感觉颗粒感很强，为什么呢？因为那个分辨率远远不够，要是VR视频的上限，到22K的分辨率才行，22K的分辨率对应到一秒的数据量有500G。自由视点视频比VR视频更高级，这个数据量就更加庞大了，这个数据通量是不得了的，即使5G也无法传输原始数据量，一定要经过压缩。1dCednc

视频技术不断演进，很重要的驱动力是不断的提升清晰度，让大家有临场感。但人眼视网膜分辨率的上线是有固定的指标，所以对于清晰度瓶颈，王荣刚先生认为，单视点清晰度已饱和，8K其实是个伪命题，分辨率已经饱和了，下一步视频技术的演进一定不是在分辨率上，而是往其他的纬度演进，目前往交互性上转VR已经是一种转变。1dCednc

如何实现自由交互视频？

VR全景视频是以用户为中心的360度视觉范围内的视频信息。自由交互视频技术，是在VR视频的基础上再往前走一步，允许用户移动，VR只是转动（头部），而自由交互是六自由度，也就是从3DoF交互到6DoF交互。1dCednc

要实现这个技术有很多路线：1dCednc

光场技术，可以看成以三维空间任意点为中心的无数全景视频。理解为无数的球面视频，每个球面视频有一个中心，那个中心可以认为是空间任何一个坐标，这样可以做到往哪儿移动都可以看到不同的画面，很显然这个数据量不得了，目前来说不太现实，距离应用还比较遥远。1dCednc

点云，将现实场景每个三维点视觉和空间信息全部创建出来。即将三维空间每个点的视频信息呈现出来，用点云表现出来，生成点云的过程就是一个挑战，即使有点云，点也是离散的点，弄在一起再渲染就不太自然，这种路线也不是很靠谱。1dCednc

多视点方案，这是相对比较实际的。方案基于多视⻆信息估计场景三维信息，基于场景三维信息合成任意虚拟视点。通过特殊布局的摄像机阵列，三维场景拍摄下来，把空间里的三维信息勾勒出基本的结构，有了这个结构，用户可以移动到任何的视角，移动到某一个视角再基于重建的三维信息对这个进行渲染。这个方案优势在于数据量没那么大，同时他渲染出的画面通过DR、UR渲染出的画面还是比较逼真的，这种路线相对比较可行。1dCednc