分类
斯坦福大学新闻

斯坦福大学的工程师使编辑视频和编辑文本一样容易

一种新的算法允许视频编辑器修改会说话的头部视频,就像编辑文本一样——复制、粘贴或添加和删除单词。

在电视和电影中,演员们经常会把原本完美无瑕的表演搞砸。有时他们会漏掉一个关键字。对于编辑来说,目前唯一的解决办法是接受这些缺陷,或者用昂贵的重新拍摄来修复它们。

到网站上观看视频。

Ohad Fried等人的视频。

一种新的算法使基于文本的“会说话的头”视频编辑成为可能;也就是说,说话者要从肩膀以上。

但是,想象一下,如果编辑器可以使用文本文本修改视频。就像文字处理一样,编辑器可以很容易地添加新单词、删除不需要的单词,或者根据需要拖放这些单词来重新排列片段,从而组装出一个在未经训练的人看来几乎完美无瑕的成品视频。

斯坦福大学、马克斯·普朗克信息学研究所、普林斯顿大学和奥多比研究院的一组研究人员创造了一种用于编辑“会说话的头”视频的算法。

作者说,这项工作对视频编辑和制片人来说可能是件好事,但随着人们越来越多地质疑在线图像和视频的有效性,这项工作也引发了担忧。然而,他们提出了一些使用这些工具的指导方针,提醒观众和表演者视频被操纵了。

“不幸的是,这样的技术总是会吸引坏人,”斯坦福大学博士后学者奥哈德·弗里德(Ohad Fried)说。“但考虑到它所支持的许多创造性视频编辑和内容创建应用程序,这种努力是值得的。”

阅读的嘴唇

该应用程序使用新的文本从各种视频片段中提取语音动作,并使用机器学习将这些动作转换成最终的视频,让观众觉得很自然——假唱等等。

“视觉,是无缝的。弗里德说。他是发表在arXiv网站上的一篇关于这项研究的论文的第一作者。它也将在《ACM图形事务》杂志上发表。弗里德在Maneesh Agrawala的实验室工作,Maneesh Agrawala是工程学院Forest Baskett教授,也是这篇论文的高级作者。两年多前,弗里德还是普林斯顿大学计算机科学家亚当·芬克尔斯坦(Adam Finkelstein)的研究生时,就开始了这个项目。

如果演员或演员拼写错误或说错话,编辑器可以简单地编辑文本,应用程序将从视频中其他地方的不同单词或部分单词中组合出正确的单词。这相当于用视频重写,就像作家重新输入拼写错误或不合适的单词一样。然而,该算法需要至少40分钟的原始视频作为输入,所以它还不能处理任何视频序列。

在编辑文本的过程中,该算法会从录制的视频中选择带有运动的片段,这些片段可以被缝合,从而生成新的材料。在他们的原始形式,这些视频片段将有刺耳的跳跃削减和其他视觉缺陷。

为了使视频看起来更自然,该算法对运动参数进行了智能平滑处理,并渲染出了所期望结果的三维动画版本。然而,这张被渲染的脸离现实还很远。作为最后一步,一种叫做神经渲染的机器学习技术将低保真度的数字模型转换成完美的假唱真实感视频。

为了测试他们的系统的能力,研究人员进行了一系列复杂的编辑工作,包括添加、删除和更改单词,以及翻译成不同的语言,甚至创建完整的句子,就像用整块布一样。

在一项有138名参与者参与的众包研究中,团队的编辑几乎有60%的时间被评为“真实的”。它的视觉质量非常接近原作,但弗里德说,还有很大的改进空间。

“这对电影后期制作的影响很大,”马克斯普朗克信息学研究所(Max Planck Institute for Informatics)学生、论文第二作者阿尤什·特瓦里(Ayush Tewari)说。这是第一次提出了在不重拍的情况下修复已拍摄对话的可能性。

伦理问题

弗里德补充说,尽管如此,在一个合成假视频的时代,这种能力引发了重要的伦理问题。以这种方式编辑视频有非常有价值和正当的理由,即重新录制或修复视频内容中的此类缺陷,或根据观众定制现有视听视频内容所需的费用和努力。例如,教学视频可以根据不同的语言或文化背景进行微调,或者儿童故事可以根据不同的年龄进行改编。

弗里德说:“这项技术实际上是为了更好地讲故事。

弗里德承认,有人担心这种技术可能被用于非法目的,但是他说,冒这个风险是值得的。照片编辑软件也经历了类似的计算,但最终,人们希望生活在一个可以使用照片编辑软件的世界里。

弗里德说,作为补救措施,有几种选择。一种是开发某种选择加入水印,它可以识别任何已经编辑过的内容,并提供完整的编辑分类账。此外,研究人员可以开发更好的取证技术,如数字或非数字指纹技术,以确定视频是否被别有用心地操纵。事实上,这项研究和其他类似的研究也建立了开发更好的操作检测所需的基本见解。

弗里德说,没有一种解决方案可以解决所有问题,所以观众必须保持怀疑和谨慎。此外,他补充说,已经有许多其他的方式来操纵视频,这更容易执行。他说,也许最紧迫的事情是提高公众对视频操纵的意识和教育,这样人们就能更好地质疑和评估合成内容的准确性。

其他合著者还包括斯坦福大学客座助理教授迈克尔•佐尔霍费尔(Michael Zollhofer),以及马克斯•普朗克信息学研究所(Max Planck Institute for Informatics)、普林斯顿大学(Princeton University)和Adobe Research的同事。

这项研究由布朗媒体创新研究所(Brown Institute for Media Innovation)、马克斯•普朗克视觉计算与通信中心(Max Planck Center for Visual Computing and Communications)、欧洲研究理事会(European research Council)整合基金(ator Grant)、Adobe research和普林斯顿大学(Princeton University)院长办公室(Office of The Dean for research)资助。

要阅读有关斯坦福科学的所有故事,请订阅《斯坦福科学文摘》(Stanford science Digest)。

新闻旨在传播有益信息,英文原版地址:https://news.stanford.edu/2019/06/05/edit-video-editing-text/