斯坦福大学(Stanford)、麻省理工学院(UMass)的阿姆赫斯特(Amherst)开发了训练人工智能避免特定不当行为的算法

人工智能已经进入商业主流，这要归功于机器学习算法日益强大的能力。机器学习算法使计算机能够训练自己做一些事情，比如开车、控制机器人或自动决策。

到网站上观看视频。

但随着人工智能开始处理一些敏感的任务，比如帮助挑选哪些囚犯获得保释，政策制定者坚持要求计算机科学家保证，自动系统的设计即使不能完全避免，也要尽量减少不必要的后果，比如过度的风险或种族和性别偏见。

由斯坦福大学和马萨诸塞大学阿姆赫斯特分校的研究人员领导的一个研究小组在11月22日的《科学》杂志上发表了一篇论文，建议如何提供这样的保证。论文概述了一种新技术，可以将模糊目标(如避免性别偏见)转化为精确的数学标准，从而让机器学习算法训练人工智能应用程序来避免这种行为。

斯坦福大学(Stanford)计算机科学助理教授、这篇论文的资深作者艾玛•布伦斯基尔(Emma Brunskill)表示:“我们希望推动人工智能的发展，尊重人类用户的价值观，证明我们对自主系统的信任是合理的。”

避免不当行为

这项工作的前提是，如果“不安全”或“不公平”的结果或行为可以用数学来定义，那么就应该有可能创建算法，从数据中学习如何避免这些不需要的结果，并具有很高的可信度。研究人员还想开发一套技术,方便用户指定他们想要什么样的行为约束,使机器学习设计师满怀信心地预测,系统训练时用过去的数据可以依靠应用于现实世界的情况。

“我们展示了机器学习算法的设计者如何方便那些想AI构建到他们的产品和服务描述的结果或行为的人工智能系统将避免高概率,”菲利普·托马斯说,计算机科学助理教授在马萨诸塞大学阿默斯特学院和该论文的第一作者。

公平和安全

研究人员测试了他们的方法，试图提高基于考试成绩预测大学生gpa的算法的公平性，这是一种可能导致性别偏见的常见做法。通过使用一个实验数据集，他们给他们的算法提供了数学指令，以避免开发出一种系统性地高估或低估某一性别平均成绩的预测方法。根据这些说明，该算法找到了一种比现有方法更好的方法来预测学生的平均成绩，而且系统的性别偏见要少得多。以前的方法在这方面很困难，要么是因为它们没有内置的公平过滤器，要么是因为为实现公平而开发的算法在范围上太有限。

研究小组开发了另一种算法，并用它来平衡自动胰岛素泵的安全性和性能。这样的泵必须决定在用餐时间给病人注射多大剂量或小剂量的胰岛素。理想情况下，泵送的胰岛素刚好能保持血糖水平稳定。胰岛素过少会导致血糖升高，导致恶心等短期不适，并增加心血管疾病等长期并发症的风险。过量摄入会导致血糖骤降，这是一个潜在的致命后果。

机器学习可以帮助识别个体对剂量的血糖反应的微妙模式，但现有的方法很难让医生明确自动给药算法应该避免的结果，比如低血糖崩溃。通过使用血糖模拟器，Brunskill和Thomas展示了如何训练泵来识别为那个人量身定做的剂量——避免过量或不足剂量的并发症。尽管该组织还没有准备好在真实的人身上测试这种算法，但它指出了一种可能最终改善糖尿病患者生活质量的人工智能方法。

在他们的科学论文,Brunskill和托马斯·使用术语“Seldonian算法”来定义他们的方法,引用哈里塞尔登,一个角色由科幻作家艾萨克·阿西莫夫发明,曾经宣称的机器人三定律开始的禁令“机器人不得伤害人类,或袖手旁观,允许一个人伤害。”

尽管承认这一领域仍然是保证三定律,托马斯说这个Seldonian框架将机器学习设计师更容易behavior-avoidance指令构建到各种各样的算法,在某种程度上,可以使他们能够评估训练系统将正常工作的概率在现实世界中。

布伦斯基尔说，许多计算机科学家正在努力在创建强大的算法和开发方法之间取得平衡，以确保它们的可靠性。

布鲁斯基尔说:“随着社会越来越依赖人工智能，思考如何创造出最尊重安全、公平等价值观的算法至关重要。”

艾玛·布伦斯基尔(Emma Brunskill)是斯坦福大学人类中心人工智能研究所的一名教员。这篇论文还有来自马萨诸塞大学阿姆赫斯特分校和联邦大学的共同作者。

这项工作得到了Adobe、国家科学基金会和教育科学研究所的部分支持。

新闻旨在传播有益信息，英文原版地址：https://news.stanford.edu/2019/11/21/stanford-helps-train-ai-not-misbehave/