UCI和迪斯尼的研究人员开发了ai增强的视频压缩模型

加州尔湾，2020年2月18日——由加州大学尔湾分校和迪斯尼研究中心的计算机科学家开发的一种新的增强了人工智能的视频压缩模型表明，深度学习可以与现有的视频压缩技术竞争。

在会议上公布他们的工作在12月在神经信息处理系统在温哥华,不列颠哥伦比亚省,UCI /迪斯尼研究团队成员显示他们的压缩机,同时还在早期阶段,产生更少的失真和每像素色彩位数利率明显小于经典coding-decoding算法如H.265当训练专业视频内容缩减规模,取得了类似的结果,公开的YouTube视频。

“最终，每一种视频压缩方法都需要权衡利弊，”UCI计算机科学助理教授、研究小组组长Stephan Mandt说。“如果我允许更大的文件大小，那么我可以有更好的图像质量。如果我想要一个短的，非常小的文件大小，那么我必须容忍一些错误。我们希望基于神经网络的方法能够更好地权衡文件大小和质量。”

视频压缩，就像传统的解码器一样，很大程度上依赖于预测能力，Mandt说:“直观地说，一个压缩算法在预测视频的下一帧时表现得越好——考虑到前一帧发生了什么——它需要记住的东西就越少。”如果你看到一个人朝一个特定的方向走，你可以预测这个视频将来会如何继续，这意味着你需要记住的东西和需要存储的东西都更少了。”

当前的压缩算法使用大量的工程解决方案来执行这项任务，例如尝试计算小块的线性位移，局部化的小块相对于它们在前一帧上的位置。相比之下，深度神经网络采用以数据为中心的方法，通过绘制大型视频数据集来学习视频的底层动态。

这些数据驱动的方法，在过去十年的深度学习的进步中得以实现，在未来的视频压缩编解码器中显示出缩小视频文件大小的前景。

结合新颖和传统的步骤

UCI/迪斯尼研究团队的第一步创新是使用所谓的变分自动编码器来缩小视频的尺寸。这是一个神经网络，它以一系列动作处理每个视频帧，结果得到一个压缩的数字数组。然后，自动编码器尝试撤消此操作，以确保数组包含足够的信息来恢复视频帧。“你可以把自动编码器想象成沙漏形状，”Mandt说。“中间有一个低维、紧凑的图像;这就是我们如何把每一帧压缩成更小的东西。”

然后，该算法试图根据之前的情况猜测图像的下一个压缩版本，这依赖于一种称为“深度生成模型”的基于人工智能的技术。Mandt指出，其他研究人员已经在这个领域做了研究，所以这种特殊的方法并不是唯一的。以下是UCI/迪士尼研究团队的不同之处。

该算法通过将自动编码器的实值数组四舍五入为整数来对帧内容进行编码。这些数字比实数更容易存储，因为它们有很多小数位。最后一步是对数组应用无损压缩，以实现它的精确恢复。至关重要的是，这个算法是由神经网络告知下一个视频帧的期望，使无损压缩方面极为有效。

“例如，一种由有限字母组成的语言可以被完美地压缩和解压而不受任何损失，”Mandt说。“通过离散化视频的潜在帧，我们创建了一个离散的、可计数的字母表，现在我们应用无损压缩来进一步减少文件大小。”

他说，这些步骤，作为一个整体，使这种方法成为一种“端到端的”视频压缩算法:“这里的真正贡献是将这种基于神经网络的深度生成视频预测模型与其他所有属于压缩算法的东西结合起来，比如舍入和基于模型的无损压缩。”

Mandt补充说，他和他的合作者将继续致力于开发一个真正的、可应用的视频压缩器。一个挑战是，他们可能需要压缩神经网络本身，以及视频。

“因为接收器需要一个训练有素的神经网络来重建视频，你可能还必须考虑如何将它与数据一起传输，”Mandt说。“仍然有很多悬而未决的问题。这是一个非常早期的阶段。”

加州大学欧文分校:成立于1965年，UCI是美国著名大学协会中最年轻的成员。这所大学培养了三位诺贝尔奖获得者，并以其学术成就、主要研究、创新和食蚁兽吉祥物而闻名。由霍华德·吉尔曼校长领导，UCI有超过36000名学生，提供222个学位课程。它位于世界上最安全、经济最具活力的社区之一，是奥兰治县的第二大雇主，每年为当地经济贡献50亿美元。更多关于UCI的信息，请访问www.uci.edu。

媒体接入:广播节目/电台可以付费使用校内ISDN线路采访UCI的教师和专家，但须获得校方许可。更多UCI新闻，请访问news.uci.edu。记者可在communications.uci.edu/forjournalists处找到更多的资源。

新闻旨在传播有益信息，英文原版地址：https://news.uci.edu/2020/02/18/uci-and-disney-research-scientists-develop-ai-enhanced-video-compression-model/