分类
哈佛大学新闻

Testing the test questionsTesting the test questionsWhat artificial intelligence will look like in 2030What artificial intelligence will look like in 2030

当涉及到开发测试问题时,有普通的方法和奇特的方法。

通常的方法是编造一些问题,然后把它们放在考试中。然而,这可能会导致一些误导、混淆的问题,或者根本不测试您想要测试的知识。

这种奇特的方法包含了很多可能的问题,在学生身上进行测试,然后把它们精简到最有用的部分。但是这个过程既耗时又昂贵。

哈佛-史密森天体物理中心(CfA)的一组研究人员发现了一种方法,可以让学校、教授、教科书出版商和教育研究人员检查他们的考题质量,结果证明,这种方法既快捷又便宜。它激发了众包的力量。

相关的

“AP classes give a lot to the top students, but pouring money into the program and trying to give every student an AP education is not efficient or effective,” said Philip Sadler, F.W. Wright Senior Lecturer in Astronomy, and co-editor of "AP: A Critical Examination of the Advanced Placement Program."

AP测试的问题增长

book说,程序越来越多地针对那些无法处理复杂材料的学生

“众包为人们创造测试提供了一种全新的可能性,”首席作者Philip Sadler说。“你可以在周末完成,而不是花一个学期或一年的时间。”

CfA小组有一个长期的项目,为不同的科学和年级开发严格的方法测试。研究人员用两个步骤来评估新的多项选择题。首先,他们对大量学生进行由内容专家开发的大量问题的试点测试。然后他们对1000 – 2000名学生进行实地测试。通过统计分析,他们为考试选择了最好的题目。

萨德勒和他的团队研究了众包是否有可能取代第一步,即试点测试。众包网站,比如亚马逊的土耳其机械公司(Mechanical Turk),会把思考任务分配给一个全球社区,这个社区由那些获得小额回报的人组成。在这项研究中,每位参与者的任务是回答一组为中学生设计的25道选择题。

该团队使用传统的试点测试和众包方式评估了总共110道选择题,并对结果进行了比较。由于众包参与者都是成年人,并且以目标人群(中学生)为样本进行了试点测试,研究人员想知道结果是否会相似。也许令人惊讶的是,通过众包确定的最好的测试问题也被证明是给学生的高质量问题。低质量的问题对成人和儿童都不好。

萨德勒强调,在制作高质量的测试时,众包不能完全替代对目标学生群体的研究。但是,通过使用它作为早期步骤,可以快速评估问题,以便删除、修改或接受。幸存下来的问题可以经受更严格的测试。

研究人员之一Gerhard Sonnert说:“创造好的标准化测试的关键不是在一开始就由专家精心设计每个测试问题,而是要发现隐藏在一大堆普通岩石中的宝石。”“众包,加上使用商业上可用的测试分析软件,现在可以很容易地为那些大海捞针的项目找到有前途的候选人。”

许多测试开发人员可以从这种新方法中获益。例如,一些学校正在标准化考试,并在整个学校系统中共享考试。测试学生的问题可以让学生确切地知道在未来的考试中会遇到什么问题。众包提供了一种低成本的替代方案。

此外,课程开发人员和教科书作者可以快速测试和完善他们的材料中包含的问题。教育研究人员将能够提出更有效地衡量学生知识变化的问题。专业发展项目现在让教师为学生提出评估问题,可以在一夜之间衡量这些问题的表现。

《教育评估》杂志发表了这项研究的全部结果。除了萨德勒和桑纳特,作者还包括CfA的哈尔•科伊尔(Hal Coyle)和哈佛大学约翰•a•保尔森工程与应用科学学院(Harvard John A. Paulson School of Engineering and Applied Sciences)的凯利•米勒(Kelly Miller)。