大海捞针：提高政府报告可用性的人工智能工具

A needle in a haystack

花几个小时梳理无数的PDF报告以寻找一条相关信息，没有人会想到工作中的一天很有趣。也许是乏味的、压倒性的、令人心碎的。有意思？没有那么多。

兢兢业业的公务员——以及许多其他人——这样做，往往是为了某个更大的目标：为一项新政策辩护，倡导资金或解释立场。

最近，来自卡内基梅隆大学海因茨信息系统与公共政策学院（opens in new window）和综合创新研究所（opens in new window）的克里斯·戈兰森教授（opens in new window）的政策创新实验室：公共利益技术（opens in new window）的研究生团队课程提出了一个生成式人工智能应用程序，可以帮助研究人员在几秒钟内找到他们寻求的信息，而不是几个小时。

他们的工具GovScan为政府工作人员提供了大海捞针的能力。

团队成员戴维斯·克雷格（Davis Craig）、阿卡什·多拉斯（Aakash Dolas）、泰勒·法里斯（Tyler Faris）和埃什瓦里·萨曼特（Eashwari Samant）花了七周时间创建了一个工具，以提高政府报告的可用性。Craig 和 Faris 都攻读公共政策与管理理学硕士课程，Dolas 和 Samant 攻读产品和服务综合创新硕士课程。

GovScan Team Members, left to right: Tyler Faris, Eashwari Samant, Aakash Dolas, and Davis Craig. — *GovScan 团队成员，从左到右：Tyler Faris、Eashwari Samant、Aakash Dolas 和 Davis Craig。*

美国数字服务项目负责人 Maya Mechenbier 分享了 GovScan 团队在解决她在政府中面临的现实挑战。

在这种情况下，学生与负责审查所有 50 个州的儿童保育资金报告的政府工作人员联系;每个报告可能包含数百页。政策分析师需要在这些报告中找到特定的数据点，以便能够分析和比较计划的有效性。

“无论是医疗补助还是儿童保育发展基金的补贴资金，各州的计划通常以PDF格式存储和公开，”Mechenbier解释说。“50个州可能会用他们的计划做50种不同的事情。这种规模和变化可能使政策分析师难以吸收如此大量的数据，确定谁可能以某些方式解决某些规则，或了解全国各地出现的趋势。

学生团队创建了一个工作模型，该模型筛选了数千页的报告，以回答分析师的问题。例如，分析师可能会问 GovScan，“哪些州为低收入单亲家庭提供儿童保育资金？该工具扫描其数据库中的所有 PDF 报告，并提供结果列表，并附有源引文。

“GovScan就像类固醇上的’Control F’搜索功能，”Craig解释道。

为什么它是游戏规则的改变者

该工具有两个主要优点。首先是效率。

政策分析师告诉该团队，他们通常会花三到四个小时在这些报告中寻找数据点。GovScan 平台会在大约 30 秒内给出答案。

“这不是为了效率而效率，”法里斯说。“这是为了更好地做出决策和更好地管理而提高效率。”

分析师面临的另一个挑战是知道大海捞针是否包含针头。

“我们采访的人对固有的不确定性感到沮丧。知道你要找的东西在特定的报告中是一回事，只是需要时间才能找到它，“萨曼特说，但花几个小时寻找不存在的信息感觉就像是在浪费时间。GovScan 通过识别哪些报告包含他们需要的信息，帮助分析师更有效地利用他们的时间。

GovScan 应用程序的设计不是为了取代人类，而是为了作为一种工具，帮助他们更高效地工作。

“它减少了研究人员的认知负担，”Dolas解释说。“节省的时间和精力使人们能够将时间和精力花在分析和理解结果上。”

该应用程序在几个重要方面与其他搜索工具不同。

Google 或 Bing 等平台在互联网上搜索信息。ChatGPT 或 Bard 等大型语言模型也依赖互联网作为数据源。

相反，GovScan 在组织提供的 PDF 文件的单个安全数据库中进行搜索。这种区别很重要，因为它消除了作为数据源一部分的虚假信息。

GovScan 与 ChatGPT 等 LLM 还有另一个关键区别。GovScan 的结果与源材料相关联。当用户收到提示的答案时，他们可以单击每个事实的链接，并在原始报告中找到信息源的确切位置。

它是如何工作的

Craig 使用图书馆的类比来解释 GovScan 背后的技术检索增强生成（RAG）。

“想象一下，如果你去图书馆，地上有一大堆书。真的很难找到你想要的具体信息，“克雷格说。“这就是非结构化数据的问题，所有这些PDF报告的问题。因此，我们所做的基本上就是图书馆员的工作——把所有的书都拿出来，给它们编索引，使它们井井有条。

在此演示中观看 GovScan 的工作。

下一步是进行“语义搜索”。自然语言处理工程师（在本例中为 Davis）使用一种称为向量嵌入的技术来捕获问题的语义含义，然后扫描这些索引报表以查找哪些报表最相关，以及这些报表中的哪些数据点最适用于用户的查询。该应用程序的功能类似于图书管理员，帮助某人使用卡片目录来查找特定书籍，其中包含特定信息。

然后，应用程序将结果放在一起，将它们提供给 LLM，并指示 LLM 以符合特定用例的方式处理信息。使用 GovScan，模型被告知总结结果，提供信息的引用并链接到信息源。

接下来会发生什么

Craig、Dolas、Faris 和 Samant 在麻省理工学院开源许可下通过 GitHub 存储库提供了他们的工作，包括他们为查询引擎和数据管道创建的代码，这些代码支持 GovScan 的操作。他们正在探索进一步开发该工具的选项。

学生团队小心翼翼地指出，该应用程序需要额外的测试，但他们乐观地认为，GovScan是一个可行的工具，可以帮助研究人员和政策分析师更好地完成工作。

“这个工具可能看起来并不那么华丽，但它对大量数据的效用是巨大的，”Goranson说。“团队花时间真正了解他们的合作伙伴面临的挑战，然后创造了一些直接解决问题的东西。”

Mechenbier说，该工具可能适用于许多学科，也适用于任何必须处理和分析PDF文件中大量数据的联邦机构。

“他们的工具可以真正以切实的方式改善政策制定者的生活，让这些有创造力、聪明的人能够进行他们真正想做的分析和写作，”Mechenbier说。

新闻旨在传播有益信息，英文版原文来自https://www.cmu.edu/news/stories/archives/2024/march/finding-the-needle-in-the-haystack-ai-tool-to-improve-the-usability-of-government-reports