分类
麻省理工学院新闻

3 个问题:您需要了解的有关音频深度伪造的信息

Cartoon image of an anthropomorphized computer character talking on an old-fashioned telephone

音频深度伪造最近出现了一轮负面新闻,因为一个人工智能生成的机器人声称是乔·拜登的声音,袭击了新罕布什尔州居民,敦促他们不要投票。与此同时,鱼叉式网络钓鱼者——针对特定个人或群体的网络钓鱼活动,特别是使用目标感兴趣的已知信息——去捞钱,而行动者的目标是保持他们的音频相似性。

然而,受到较少媒体关注的是音频深度伪造的一些用途,这些用途实际上可以使社会受益。在为麻省理工学院新闻准备的问答中,博士后瑙曼·达瓦拉塔巴德(Nauman Dawalatab)谈到了新兴技术的担忧和潜在优势。这次采访的更完整版本可以在下面的视频中看到。

问: 哪些道德考虑证明在音频深度伪造中隐藏源说话者的身份是合理的,尤其是当这项技术用于创建创新内容时?

一个: 例如,尽管在娱乐中大量使用生成模型进行音频创作,但为什么研究在模糊源说话者的身份方面很重要,这确实引起了伦理方面的考虑。语音不包含仅包含有关“你是谁”的信息?(身份)或“你在说什么?(内容);它包含了无数敏感信息,包括年龄、性别、口音、当前健康状况,甚至有关即将到来的未来健康状况的线索。例如,我们最近关于“从长时间的神经心理学访谈中检测痴呆症”的研究论文证明了从语音中检测痴呆的可行性,并且具有相当高的准确性。此外,还有多种模型可以非常准确地从语音中检测性别、口音、年龄和其他信息。需要技术进步,以防止无意中披露此类私人数据。对消息来源说话者的身份进行匿名化的努力不仅是一项技术挑战,而且是在数字时代保护个人隐私的道德义务。

问: 我们如何才能有效地应对鱼叉式网络钓鱼攻击中音频深度伪造带来的挑战,同时考虑到相关风险、对策的发展以及检测技术的进步?

一个: 在鱼叉式网络钓鱼攻击中部署音频深度伪造会带来多种风险,包括传播错误信息和假新闻、身份盗窃、侵犯隐私和恶意更改内容。最近在马萨诸塞州流传的欺骗性机器人电话说明了这种技术的有害影响。我们最近还与 《波士顿环球报 》就这项技术进行了交谈,以及生成这种深度伪造音频是多么容易和便宜。

任何没有重要技术背景的人都可以使用多种在线工具轻松生成此类音频。来自deepfake生成器的此类假新闻可能会扰乱金融市场,甚至选举结果。窃取一个人的声音以访问语音操作的银行账户,以及未经授权利用一个人的声音身份来谋取经济利益,这提醒我们迫切需要采取强有力的对策。进一步的风险可能包括侵犯隐私,攻击者可以在未经受害者许可或同意的情况下使用受害者的音频。此外,攻击者还可以更改原始音频的内容,这可能会产生严重影响。

在设计检测假音频的系统时,出现了两个主要和突出的方向:伪影检测和活体检测。当音频由生成模型生成时,该模型会在生成的信号中引入一些伪影。研究人员设计算法/模型来检测这些伪影。然而,由于音频深度伪造生成器的日益复杂,这种方法存在一些挑战。将来,我们还可能看到模型的伪影非常小或几乎没有伪影。另一方面,活体检测利用了自然语音的固有品质,例如呼吸模式、语调或节奏,这些特性对于 AI 模型来说很难准确复制。像 Pindrop 这样的一些公司正在开发这种用于检测音频假货的解决方案。

此外,音频水印等策略可作为主动防御,在原始音频中嵌入加密标识符以追踪其来源并阻止篡改。尽管存在其他潜在漏洞,例如重放攻击的风险,但该领域正在进行的研究和开发提供了有前途的解决方案,以减轻音频深度伪造带来的威胁。

问: 尽管它们有可能被滥用,但音频深度伪造技术有哪些积极的方面和好处?您如何看待人工智能与我们的音频感知体验之间的未来关系?

一个: 与主要关注音频深度伪造的恶意应用相反,该技术具有对各个领域产生积极影响的巨大潜力。除了创意领域,语音转换技术为娱乐和媒体带来了前所未有的灵活性,音频深度伪造在医疗保健和教育领域也具有变革性的前景。例如,我目前正在对认知医疗保健访谈中患者和医生的声音进行匿名化处理,这有助于在全球范围内共享用于研究的关键医学数据,同时确保隐私。在研究人员之间共享这些数据可以促进认知保健领域的发展。这项技术在语音恢复中的应用代表了语言障碍患者的希望,例如ALS或构音障碍,增强沟通能力和生活质量。

我对音频生成式 AI 模型的未来影响非常乐观。人工智能和音频感知之间的未来相互作用有望取得突破性进展,特别是通过心理声学的视角——研究人类如何感知声音。增强现实和虚拟现实的创新,以 Apple Vision Pro 等设备为代表,正在将音频体验的界限推向无与伦比的真实感。最近,我们看到几乎每个月出现的复杂模型数量呈指数级增长。该领域的快速研发不仅有望完善这些技术,而且有望以深远造福社会的方式扩大其应用。尽管存在固有的风险,但音频生成式人工智能模型在医疗保健、娱乐、教育等领域发生革命性变化的潜力证明了该研究领域的积极发展轨迹。

Video thumbnail播放视频

音频深度伪造解释
视频:麻省理工学院 CSAIL

新闻旨在传播有益信息,英文版原文来自https://news.mit.edu/2024/what-you-need-to-know-audio-deepfakes-0315