我们采访了 Chris Yeh,他是 Resnick 学者,也是 CMS 的研究生,与 Adam Wierman 合作,讲述了他基于真实能源和可持续性环境构建“健身房”的项目,以测试新算法的性能。
什么是算法开发的“健身房”,为什么它们很重要?
自 2016 年 OpenAI(ChatGPT 的创建者)发布其 OpenAI Gym 软件以来,“健身房”一词已成为软件环境的代名词,其中可控代理(或多个代理)与环境交互。例如,“健身房”可以是视频游戏环境,也可以是机器人模拟器。软件代理(例如,视频游戏角色或机器人控制器)将“动作”提交到健身房环境,然后健身房环境在环境中模拟该动作并向代理返回奖励。例如,在视频游戏中,如果代理取得了进展,奖励可能是正的,如果代理犯了错误,奖励可能是负的。
这些“健身房”是控制算法的有用测试平台,特别是强化学习(RL)算法,这些算法通过与环境的重复交互来学习最大化奖励。虽然最初的 OpenAI Gym 可用于对适用于更简单视频游戏的 RL 算法进行原型设计,但人们越来越有兴趣开发更逼真地模拟现实世界系统(如电网、股票市场和自动驾驶汽车)的健身房。
是什么促使您为可持续发展应用制作了一套新的产品?
Wierman教授的研究小组在开发高效控制算法方面有着悠久的历史,从理论上讲,这些算法应该非常适合现实世界的控制任务,例如能源系统。然而,以可持续发展为重点的公共健身房很少,而且所有现有的健身房都存在一些明显的缺点,导致难以评估这些算法对以可持续发展为重点的问题。我之前有过领导一个多所大学的研究团队构建一个不同的以可持续发展为重点的遥感数据集(SustainBench)的经验,我想我也可以做同样的事情,但对于以可持续发展为重点的RL健身房。我们最终将重点放在描述真实世界情况的五个环境上,并使用真实数据构建,从而创建更准确的测试情况。这五种环境是 (1) 电动汽车充电网络,(2) 在电力市场招标的电池存储系统,(3) 安排数据中心作业以最大限度地利用清洁能源,(4) 控制火力发电厂的输入以最大限度地减少燃料消耗,以及 (5) 智能协调空调系统以降低整个建筑物的能源消耗。
健身房的推出情况如何?你有没有看到对采用它们的兴趣?
健身房的推出才刚刚开始!早在 2022 年 12 月,我们就发布了 SustainGym 的初始版本,许多研究人员已经联系了我,希望获得 SustainGym 的访问权限。从那时起,我们一直在努力修复错误并正确打包我们的软件以供发布。9 月中旬,我们的论文被 NeurIPS 2023 会议(将于 12 月举行)接受,我们正在准备本周发布的论文和软件的最终版本。下周,我还将在亚利桑那州凤凰城举行的 INFORMS 会议上展示 SustainGym,以提高运筹学社区的意识,运筹学社区通常与强化学习社区重叠。所有项目信息和代码都可以在项目网站上找到。
自从你开始使用这些算法来测试新算法以来,你有没有看到任何令人惊讶的结果?
是的!到目前为止,我们发现现成的 RL 算法在原始 OpenAI Gym 套件上表现得非常好,但在 SustainGym 上不一定表现得那么好。这表明 RL 研究社区可能过于专注于在特定基准上取得好成绩,我们希望 SustainGym 将为 RL 研究社区提供另一个基准。我们还发现,当在随时间变化的环境中进行测试时,这些现成的RL算法的性能会下降。最后,我们表明,多智能体强化学习算法(其性能研究较少)的性能往往与单智能体强化学习算法一样好,甚至更好,尤其是在随时间变化的环境中。
接下来是什么?
SustainGym 为许多有趣的研究方向打开了大门。首先,我们希望设计出对环境变化更鲁棒的 RL 算法。其次,我们想进一步研究为什么/如何多智能体RL算法有时表现得更好。第三,我们想研究RL算法,这些算法可以专门利用可持续能源系统中存在的独特特性。最后,如果我们能够显著提高这些算法的性能,那么我们可以考虑与更多的行业合作伙伴联系,看看是否有更广泛的兴趣在实际系统中采用它们。
新闻旨在传播有益信息,英文版原文来自https://resnick.caltech.edu/news/interview-christopher-yeh-caltech-grad-student-on-gyms-for-sustainability