拖放数据分析 - 美国大学新闻

在《钢铁侠》系列电影中，托尼·斯塔克(Tony Stark)使用全息电脑将3d数据投射到稀薄的空气中，用手操纵它们，并找到解决超级英雄问题的方法。同样，麻省理工学院(MIT)和布朗大学(Brown University)的研究人员现在开发了一套互动数据分析系统，可以在触摸屏上运行，让每个人——不仅仅是亿万富翁科技天才——都能解决现实世界的问题。

多年来，研究人员一直在开发一种名为北极星(Northstar)的交互式数据科学系统，该系统运行在云端，但其界面支持任何触摸屏设备，包括智能手机和大型交互式白板。用户输入系统数据集，使用手指或数码笔在用户友好的界面上操作、组合和提取功能，以揭示趋势和模式。

在ACM SIGMOD会议上发表的一篇论文中，研究人员详细介绍了北极星的一个新组件，称为VDS，代表“虚拟数据科学家”，它可以立即生成机器学习模型，在数据集中运行预测任务。例如，医生可以使用该系统来帮助预测哪些病人更有可能患某些疾病，而企业主可能希望预测销售额。如果使用交互式白板，每个人都可以实时协作。

其目标是通过使复杂分析变得简单、快速和准确，从而使数据科学民主化。

“即使一个咖啡店老板不知道数据科学应该能够预测他们的销售在未来几周内找出多少购买咖啡,”说,合著者和长期北极星项目主管蒂姆•克拉斯电气工程和计算机科学副教授在麻省理工学院的计算机科学与人工智能实验室(CSAIL)和建立新的数据系统和人工智能实验室的主任(DSAIL)。“在有数据科学家的公司里，数据科学家和非专业人士之间有很多交流，所以我们也可以把他们聚在一个房间里一起做分析。”

VDS是基于人工智能领域一种日益流行的技术——自动机器学习(AutoML)，这种技术让拥有有限数据科学知识的人训练人工智能模型，根据自己的数据集做出预测。目前，该工具领先DARPA D3M自动机器学习竞赛，每六个月评选出性能最佳的自动工具。

论文中加入Kraska的有:第一作者商泽源，研究生，和Emanuel Zgraggen, Northstar的主要撰稿人，EECS, CSAIL和DSAIL;贝尼代托·布拉蒂、约诺·钟、菲利普·艾希曼和伊莱·厄普法尔都是布朗大学的学生;卡斯滕·宾尼格最近从布朗大学转到了德国达姆施塔特工业大学。

一个用于分析的“无限画布”

这项新研究建立在麻省理工学院和布朗大学研究人员多年来在北极星上的合作基础上。四年来，研究人员发表了大量论文，详细介绍了北极星的组件，包括交互界面、多平台操作、加速结果和用户行为研究。

北极星从一个空白的、白色的界面开始。用户将数据集上载到系统中，系统将显示在左侧的“数据集”框中。任何数据标签将自动填充下面单独的“属性”框。还有一个包含各种算法的“运算符”框，以及新的AutoML工具。所有数据都存储在云中并进行分析。

研究人员喜欢在包含重症监护病房患者信息的公共数据集上演示该系统。考虑一下那些想要检查某些疾病在特定年龄群体中同时发生的医学研究人员。他们将一个模式检查算法拖放到界面中间，该算法最初显示为一个空白框。作为输入，它们进入了标有“血液”、“传染性”和“代谢性”等疾病特征的方框。数据集中这些疾病的百分比出现在方框中。然后，他们将“年龄”功能拖到界面中，界面会显示患者年龄分布的条形图。在两个盒子之间画一条线把它们连在一起。该算法通过圈出年龄范围，立即计算出这三种疾病在年龄范围内的共现情况。

北极星互动界面的主要发明者Zgraggen说:“这就像一个巨大的、无限的画布，在这里你可以展示你想要的一切。”“然后，你可以把这些东西连接在一起，创建关于你的数据的更复杂的问题。”

近似AutoML

使用VDS，用户现在还可以对数据进行预测分析，方法是让模型自定义地适合他们的任务，比如数据预测、图像分类或分析复杂的图结构。

使用上面的例子，假设医学研究人员希望根据数据集中的所有特征预测哪些患者可能患有血液病。他们从算法列表中拖拽“AutoML”。它首先会生成一个空白的框，但是有一个“target”选项卡，在这个选项卡下，用户可以删除“blood”功能。系统将自动找到性能最佳的机器学习管道，以标签的形式显示，并不断更新准确率。用户可以随时停止该过程，改进搜索，并检查每个模型的错误率、结构、计算和其他内容。

据研究人员称，VDS是迄今为止最快的交互式自动工具，这在一定程度上要归功于他们定制的“评估引擎”。引擎位于接口和云存储之间。该引擎利用自动创建数据集的几个代表性样本，这些样本可以逐步处理，以在几秒钟内生成高质量的结果。

尚说:“我和我的合著者花了两年时间设计VDS，以模仿数据科学家的思维方式。”这意味着它可以根据各种编码规则，立即识别哪些模型和预处理步骤应该或不应该在某些任务上运行。它首先从大量可能的机器学习管道列表中进行选择，并在样本集中运行模拟。在此过程中，它会记住结果并改进其选择。在快速逼近结果后，系统在后端对结果进行了细化。但是最终的数字通常非常接近第一个近似。

“使用预测器，你不会想要等4个小时才能得到你的第一个结果。您希望已经看到发生了什么，如果发现错误，可以立即纠正。这在任何其他系统中通常都是不可能的，”Kraska说。事实上，研究人员之前的用户研究“表明，一旦你延迟给用户结果，他们就开始与系统失去联系。”

研究人员在300个真实数据集上对该工具进行了评估。与其他最先进的自动化系统相比，VDS的近似是准确的，但生成时间只有几秒钟，这比其他工具要快得多，后者的运行时间只有几分钟到几小时。

接下来，研究人员希望增加一项功能，提醒用户注意潜在的数据偏差或错误。例如，为了保护病人的隐私，有时研究人员会在医疗数据集中标注0岁(如果他们不知道年龄)和200岁(如果病人超过95岁)的病人。但是新手可能没有意识到这样的错误，这可能会完全打乱他们的分析。

“如果你是一个新用户，你可能会得到结果，并认为他们是伟大的，”克拉斯卡说。“但我们可以警告人们，事实上，数据集中可能存在一些异常值，表明存在问题。”

新闻旨在传播有益信息，英文原版地址：http://news.mit.edu/2019/drag-drop-data-analytics-0627