文献导读 | 自动题目生成在医学教育评价中的使(2)-中国继续医学教育杂志社投稿

一、本刊要求作者有严谨的学风和朴实的文风，提倡互相尊重和自由讨论。凡采用他人学说，必须加注说明。二、不要超过10000字为宜，精粹的短篇，尤为欢迎。三、请作者将稿件（用WORD格式）发送到下面给出的征文信箱中。四、凡来稿请作者自留底稿，恕不退稿。五、为规范排版，请作者在上传修改稿时严格按以下要求： 1．论文要求有题名、摘要、关键词、作者姓名、作者工作单位（名称，省市邮编）等内容一份。 2．基金项目和作者简介按下列格式：基金项目：项目名称（编号）作者简介：姓名（出生年－），性别，民族（汉族可省略），籍贯，职称，学位，研究方向。 3．文章一般有引言部分和正文部分，正文部分用阿拉伯数字分级编号法，一般用两级。插图下方应注明图序和图名。表格应采用三线表，表格上方应注明表序和表名。 4．参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定，采用顺序编码制。

文献导读 | 自动题目生成在医学教育评价中的使(2)

作者:

关键词:

摘要：

研究设计与方法：

HOME

研究以K-12数学选择题为对象，由两个题目开发小组（一个小组采用传统题目生成方式，即手工编写，另一个小组采用AIG）在同一测试程序中进行研究。研究选择数学作为唯一领域，原因在于数学题目涵盖了广泛的内容和图形，且每个题目都有与其开发内容相关联的启动成本。传统的题目生成环节，团队开发了240个单独编写的数学题目。AIG过程中，内容专家、心理测量学家、研究人员和软件工程师合作制作了一个题目生成器，包含约40个涵盖了与计算面积有关的不同题目特征（例如：正方形与圆、整数与小数）的题目模型。

采用成本—效益法进行分析，分析步骤如下：

（1）计算传统题目生成成本：

其中，CM为传统题目生成的总成本，CW为手工编写和审查240个题目的成本，CF是现场测试240个题目的成本，r为现场测试的存活率（例：r=0.8，说明80%的题目在现场测试中表现良好）。

（2）计算AIG成本：

其中CA表示AIG在一个内容区域中生成40个题目模型的总成本，CS1是题目生成步骤1的成本（即开发认知模型），CS2是题目生成步骤2的成本（即创建题目模型）；CS3a和CS3b是题目生成步骤3的成本（即生成题目的计算机技术），分为编程基础设施的初始成本（CS3a）和随后的特定内容编程成本（CS3b）；CS4是题目生成步骤4的成本（即评估认知模型和题目模型），M是维持题目生成器一年的成本。

（3）AIG成本低于传统题目生成成本的阈值：

其中NM，是传统题目生成的小题目数量，当小题目的数量NM超过自动化成本与传统小题目成本的比率时，使用自动化方法，即AIG法更具成本效益。

研究结果：

HOME

考虑最简单的情况来帮助解释，假设所有的题目都能通过现场测试（即r=1），并且生成一个手工编写题目的成本为1美元。研究结果表明，在同一个内容领域内，基于40个题目模型的AIG成本为247.49美元。也就是说，AIG的成本是生成一个手工编写题目的247倍左右美元的总成本细分为：开发认知模型14.22美元，开发题目模型36.15美元，创建和部署生成题目的技术139.66美元（即第一批AIG实施的技术基础设施121.55美元，随后各批40个题目模型的AIG特定内容编程18.11美元），评估认知模型和题目模型27.59美元，以及一年的题目生成器维护29.87美元。

研究结论：

HOME

研究结果表明，在首次实施AIG的过程中（即尚未产生编程基础设施），如果测试题目在同一内容领域内需要生成173以上的题目，那么AIG比传统题目生成更具成本效益，此时，该内容领域包括大约3至5个相关技能，可用单个认知模型进行建模。在后续的AIG实施过程中（即已经存在编程基础设施），如果测试题目在特定内容领域内需要生成88至126个或更多的题目，那么AIG仍然更具成本效益。此外，对传统题目生成现场测试存活率的假设不同，成本收支平衡所需的最少题目数也不同。

文献来源：

HOME

Royal K D, Hedgpeth M W, Jeon T, et al. Automated Item Generation: The Future of Medical Education Assessment? J]. EMJ Innovation, 2018, 2(1): 88-93.

Kosh A E, Simpson M A, Bickel L, et al. A Cost-Benefit Analysis of Automatic Item Generation[J]. Educational Measurement: Issues and Practice, 2019, 38(01): 48-53.

导读：周文静

审校：江哲涵