文献导读 | 自动题目生成在医学教育评价中的使-中国继续医学教育杂志社投稿

一、本刊要求作者有严谨的学风和朴实的文风，提倡互相尊重和自由讨论。凡采用他人学说，必须加注说明。二、不要超过10000字为宜，精粹的短篇，尤为欢迎。三、请作者将稿件（用WORD格式）发送到下面给出的征文信箱中。四、凡来稿请作者自留底稿，恕不退稿。五、为规范排版，请作者在上传修改稿时严格按以下要求： 1．论文要求有题名、摘要、关键词、作者姓名、作者工作单位（名称，省市邮编）等内容一份。 2．基金项目和作者简介按下列格式：基金项目：项目名称（编号）作者简介：姓名（出生年－），性别，民族（汉族可省略），籍贯，职称，学位，研究方向。 3．文章一般有引言部分和正文部分，正文部分用阿拉伯数字分级编号法，一般用两级。插图下方应注明图序和图名。表格应采用三线表，表格上方应注明表序和表名。 4．参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定，采用顺序编码制。

文献导读 | 自动题目生成在医学教育评价中的使

作者:

关键词:

摘要：

导读

自动题目生成（AIG）作为心理测量领域的一项重大创新，具有革新医学教育评估的潜力，其需要确定最少的题目生成数量用以抵消大量前期投资（即模型开发和技术部署），从而实现成本节约。今天的文献导读推荐结合了两篇文章：（1）2018年发表在《EMJ Innovation》的文章，探讨的是AIG在医学教育评价当中的特点与前景;（2）2019年发表在《Educational Measurement: Issues and Practice》的文章，其运用成本—效益分析法，在估算出AIG和传统题目编写开发成本的基础上，确定AIG成本低于传统题目编写成本的阈值。

自动题目生成在医学教育评价中的使用及其成本—效益分析

Automatic Item Generation in Medical Education Assessment and its Cost-Benefit Analysis

研究背景：

HOME

近年来，测量学领域的一项重大创新——自动题目生成（AIG）——具有革新医学教育评估的潜力。从广义上讲，AIG是指在计算机技术的辅助下，利用题目模型来创建考试题目的过程。与传统题目生成过程（内容专家编写单个题目）不同，AIG通过利用内容专家的专业知识、题目模板和计算机算法来创建各种题目组合，通常会在单个题目模型的基础上生成数百或数千个新题目。AIG的突出优势表现在：（1）可以提供基于测试开发程序和测试内容的有效性证据来源；（2）具备在不进行预测试的情况下，估计题目特点和质量提供预校准；（3）由于使用了认知模型和预校准，AIG可以通过预先指定所需的题目难度来帮助生成各种难度范围的题目；（4）高效、快速地生成大量题目，进而可能会在测试开发过程中节省成本。

在医学教育领域，选择题（MCQ）是最常用的评估方法，其拥有客观性好、效率高等突出优势，但同时也在时间、难度、费用和安全性等方面存在局限。自动题目生成（AIG）技术的出现，为解决这些局限提供了可能。AIG在医学教育领域的开发与应用具有巨大潜力，表现在：第一，医学执照和认证委员会花费大量资金培训医生编写高质量的MCQ，并邀请专业编辑对新生成的题目进行审查，以确保MCQ质量与格式标准化。AIG可有效减轻医生和专业编辑职责，并通过让内容专家几乎完全专注于内容创建和审查来显著提高效率；第二，当前医学教育工作的重点内容之一是维持医学认证与再认证。大多数维持认证的工作要求医生完成一系列实践案例，以达到专业持续发展目的。鉴于认证维持案例和实践题目制作的高额花费，AIG可显著降低成本，促进效率提升；第三，对于研究者来说，AIG能够有效减少题目编写缺陷，从而产生对学生知识或能力的准确估计。此外，如果医学教师希望在题目库中拥有更多临床题目，AIG可通过使用标准化模板提供帮助；第四，对于学生来说，AIG能够为其提供无限的学习与自我评估机会。

Royal等人（2018）认为AIG的主要局限在于目前它仍然是一门新兴科学。在一种范式成为一门成熟的科学之前，其必须经过严格的审查、彻底的测试，并得到科学界充分的理解。尽管数十年来学者们一直在研究AIG的理论基础，但AIG范式尚未在大多数研究和实践领域扎根，原因可能是软件的可用性有限，或是那些有机会获得软件的研究者不愿分享。显然，如果其他人不能亲自测试AIG并为新的发现做出贡献，AIG科学就无法发展。假设AIG理论成熟，得到科学界充分理解，那下一个挑战则是将其推广到日常实践，此时，鉴于对学生和医疗专业执业人员进行持续、严格评估的需要，医学领域很可能成为AIG的首批应用领域之一。

然而，AIG是否能在测试开发过程中节省成本，这一点仍有待商榷。研究认为，AIG理论分为四个步骤：（1）开发认知模型（即关于考生如何处理题目的理论）；（2）开发题目模型（即计算机用来生成题目的模板）；（3）部署计算机技术来生成题目；（4）评估认知模型和题目模型的心理测量性能。以上步骤说明AIG并不是完全自动的，开发认知模型和题目模型仍需要大量工作，进行大量基础投资。自动化只发生在AIG技术基础设施开发完成后的最后一步，这也就意味着，如果实施AIG的前期基础投资大于传统题目生成的最终投资，那么与传统题目生成相比，AIG在成本效益方面没有优势。

Kosh等人（2019）以成本效益为导向，设计研究方案，旨在估算AIG和传统题目生成相关开发成本，以了解AIG是否以及何时能对题目生成所需的前期投资产生回报，确定AIG成本低于传统题目编写成本的阈值。研究问题为：必须生成多少题目，AIG才会比传统题目编写方式更具成本效益？

文章来源：《中国继续医学教育》网址: http://www.zgjxyxjyzz.cn/zonghexinwen/2021/0331/767.html

上一篇：市二医院成功举办市级继续医学教育项目“心律
下一篇：河南：高校无医学教育基础不得设置医药卫生类