- · 《中国继续医学教育》栏[05/29]
- · 《中国继续医学教育》收[05/29]
- · 《中国继续医学教育》投[05/29]
- · 《中国继续医学教育》征[05/29]
- · 《中国继续医学教育》刊[05/29]
文献导读 | 自动题目生成在医学教育评价中的使(2)
作者:网站采编关键词:
摘要:研究设计与方法: HOME 研究以K-12数学选择题为对象,由两个题目开发小组(一个小组采用传统题目生成方式,即手工编写,另一个小组采用AIG)在同一测
研究设计与方法:
HOME
研究以K-12数学选择题为对象,由两个题目开发小组(一个小组采用传统题目生成方式,即手工编写,另一个小组采用AIG)在同一测试程序中进行研究。研究选择数学作为唯一领域,原因在于数学题目涵盖了广泛的内容和图形,且每个题目都有与其开发内容相关联的启动成本。传统的题目生成环节,团队开发了240个单独编写的数学题目。AIG过程中,内容专家、心理测量学家、研究人员和软件工程师合作制作了一个题目生成器,包含约40个涵盖了与计算面积有关的不同题目特征(例如:正方形与圆、整数与小数)的题目模型。
采用成本—效益法进行分析,分析步骤如下:
(1)计算传统题目生成成本:
其中,CM为传统题目生成的总成本,CW为手工编写和审查240个题目的成本,CF是现场测试240个题目的成本,r为现场测试的存活率(例:r=0.8,说明80%的题目在现场测试中表现良好)。
(2)计算AIG成本:
其中CA表示AIG在一个内容区域中生成40个题目模型的总成本,CS1是题目生成步骤1的成本(即开发认知模型),CS2是题目生成步骤2的成本(即创建题目模型);CS3a和CS3b是题目生成步骤3的成本(即生成题目的计算机技术),分为编程基础设施的初始成本(CS3a)和随后的特定内容编程成本(CS3b);CS4是题目生成步骤4的成本(即评估认知模型和题目模型),M是维持题目生成器一年的成本。
(3)AIG成本低于传统题目生成成本的阈值:
其中NM,是传统题目生成的小题目数量,当小题目的数量NM超过自动化成本与传统小题目成本的比率时,使用自动化方法,即AIG法更具成本效益。
研究结果:
HOME
考虑最简单的情况来帮助解释,假设所有的题目都能通过现场测试(即r=1),并且生成一个手工编写题目的成本为1美元。研究结果表明,在同一个内容领域内,基于40个题目模型的AIG成本为247.49美元。也就是说,AIG的成本是生成一个手工编写题目的247倍左右美元的总成本细分为:开发认知模型14.22美元,开发题目模型36.15美元,创建和部署生成题目的技术139.66美元(即第一批AIG实施的技术基础设施121.55美元,随后各批40个题目模型的AIG特定内容编程18.11美元),评估认知模型和题目模型27.59美元,以及一年的题目生成器维护29.87美元。
研究结论:
HOME
研究结果表明,在首次实施AIG的过程中(即尚未产生编程基础设施),如果测试题目在同一内容领域内需要生成173以上的题目,那么AIG比传统题目生成更具成本效益,此时,该内容领域包括大约3至5个相关技能,可用单个认知模型进行建模。在后续的AIG实施过程中(即已经存在编程基础设施),如果测试题目在特定内容领域内需要生成88至126个或更多的题目,那么AIG仍然更具成本效益。此外,对传统题目生成现场测试存活率的假设不同,成本收支平衡所需的最少题目数也不同。
文献来源:
HOME
Royal K D, Hedgpeth M W, Jeon T, et al. Automated Item Generation: The Future of Medical Education Assessment? J]. EMJ Innovation, 2018, 2(1): 88-93.
Kosh A E, Simpson M A, Bickel L, et al. A Cost-Benefit Analysis of Automatic Item Generation[J]. Educational Measurement: Issues and Practice, 2019, 38(01): 48-53.
导 读:周文静
审 校:江哲涵
文章来源:《中国继续医学教育》 网址: http://www.zgjxyxjyzz.cn/zonghexinwen/2021/0331/767.html