当前位置: 首页 > 期刊 > 《心理学报》 > 2016年第9期
编号:1061567
两种新的计算机化自适应测验在线标定方法*
http://www.100md.com 2016年2月1日 心理学报 2016年第9期
新题,样本量,1引言,2方法,1IRT模型,2FFMLE与ECSE方法,3FFMLE-MethodA与ECSE-MethodA方法,3实验,1被试与题库生成,2新题生成,3CAT全过程模拟程序描述,4在线标定实施程序描
     陈 平

    (北京师范大学中国基础教育质量监测协同创新中心, 北京 100875)

    1 引言

    在传统纸笔测验(Paper-and-Pencil, P&P)中,所有被试不论能力高低都作答相同的一批题目, 所以P&P中题目的难度分布较广, 一般覆盖整个能力范围。于是, 题目对高能力被试而言大多比较容易、对低能力被试来说大多比较难, 不利于对被试能力的准确估计(漆书青, 戴海琦, 丁树良, 2002)。计算机化自适应测验(Computerized Adaptive Testing,CAT)的基本思路是让计算机自动模仿聪明主试的做法, 每次都呈现最适合被试作答的题目(Wainer et al., 1990)。因此, 相对于P&P, CAT使用更少的题目就能达到相同的能力估计精度(如Weiss, 1982),大大提高了测验效率。CAT还有很多其他优点, 比如:(1)随着计算机硬件的不断升级, 可以在短时间内完成越来越复杂的计算; (2)与多媒体技术结合可以提供包括音频与视频在内的新颖题目类型(如短时记忆题和空间记忆题)。如果有语音合成器, 还可进行听力与口语测试; (3)与认知诊断相结合可以测量新的技能类型(如知识状态); (4)与多级项目反应理论(Polytomous Item Response Theory, PIRT)结合可以提供基于表现的题目类型(如开放题); (5)与多维IRT (Multidimensional IRT, MIRT)相结合可以提供被试在多个分维度上的精细信息; (6)主试如果感兴趣还可以记录被试在每个题目上的反应时, 以作为评价被试能力的辅助指标(Wang, 2012); (7)当题库得到良好维护时, 测验可以全年提供, 被试可以选择方便的时间参加测验(Cheng, 2008)。上述优点使得国内外很多大规模的选拔性与资格性考试都推出CAT版本的测验, 例如美国商学院研究生入学考试与美国医生护士资格考试(Chang, 2012, 2015),还有我国第四军医大学对应征公民进行的图形智力测验(田健全, 苗丹民, 杨业兵, 何宁, 肖玮, 2009)等。

    题库是CAT的重要组成部分, 也是CAT顺利实施的重要前提。构建CAT题库一般包括“明确题库大小”、“确定题库结构”、“开发题目”以及“标定题目参数”等核心步骤(陈平, 2011; Flaugher, 2000),每个步骤的完成质量都会影响题库质量, 进而影响在后续评分过程中对被试能力进行估计的准确性。而且CAT在使用一段时间后, 对题库的维护与管理就显得尤为重要, 因为题库中的某些题目会因为过度曝光、过时等原因不再适合被继续使用(Wainer& Mislevy, 1990) ......

您现在查看是摘要页,全文长 39878 字符