分类
宾夕法尼亚大学新闻

解决人工智能偏见和版权侵权的关键

宾夕法尼亚大学工程学院(Penn Engineering)的迈克尔·卡恩斯(Michael Kearns)是国家中心管理与技术教授,他质疑模型剥离是否可能解决与人工智能相关的许多问题。

到目前为止,生成式人工智能带来的挑战已经不是什么秘密了。众所周知,OpenAI 的 ChatGPT、Anthropic 的 Claude 和 Meta 的 Llama 等模型会“产生幻觉”,发明潜在的误导性反应,并泄露敏感信息,例如受版权保护的材料。

其中一些问题的一个潜在解决方案是“模型删除”,这是一组技术,迫使模型自行清除导致版权侵权或有偏见的反应的内容。

Michael Kearns.
迈克尔·卡恩斯(Michael Kearns),国家中心管理与技术教授。

(图片:由宾夕法尼亚工程公司提供)

《美国国家科学院院刊》(PNAS)的一篇论文中,计算机和信息科学(CIS)国家管理与技术中心教授迈克尔·卡恩斯(Michael Kearns)和亚马逊的三位研究人员分享了他们对模型剥离潜力的看法,以解决当今人工智能模型面临的一些问题。

Kearns解释了模型泄露与确保数据隐私的努力(如欧洲的《通用数据保护条例》)有何不同。“像GDPR这样的法律不太清楚在删除数据之前会发生什么。您的数据用于训练预测模型,而该预测模型仍然存在,在世界上运行。即使您的数据从 Facebook 服务器中删除,该模型仍将针对您的数据进行训练。这可能会导致许多问题,“卡恩斯说。“这并不是说模型剥离与确保数据隐私的努力不同,更多的是模型剥离技术可以用于当前隐私方法(如GDPR)不足的某些情况下。

Kearns提供了一些模型排污技术及其工作原理的例子。“一个概念上简单的解决方案是从头开始重新训练。考虑到这些网络的规模和规模,以及训练它们所需的计算时间和资源,这显然是不可行的。同时,再培训是一种黄金标准——您希望以更高效、更可扩展的方式实现的目标,“他解释道。“另一种算法方法是在差分隐私的约束下进行训练:在训练过程中添加噪声,以最小化任何特定训练数据的影响,同时仍然允许你使用数据集的聚合属性。

卡恩斯补充道:“互联网的伟大成功故事基本上来自于缺乏规则。在我们今天在这里讨论的领域,你要为缺乏规则付出代价。大多数认真考虑隐私和安全的人可能会同意我的观点,即这些主题中的许多最大问题来自缺乏规则,互联网的设计,但这也是它如此容易获得和成功的原因。

这个故事是伊恩·舍夫勒(Ian Scheffler)写的。在宾夕法尼亚工程学院阅读更多内容。

新闻旨在传播有益信息,英文版原文来自 https://penntoday.upenn.edu/news/penn-engineering-key-fixing-ai-bias-and-copyright-infringement