复杂决策规则下MIRT的分类准确性和分类一致性*

http://www.100md.com 2016年2月1日心理学报 2016年第12期

测验,1引言,2多维等级反应模型和Lee方法,1多维等级反应模型,2多维模型下Lee方法,2.1基于Lee方法的分类一致性指标,2.2基于Lee方法的分类准确性指标,3决策规则和新指标,1决策规则,2基于Guo

     汪文义宋丽红丁树良

    (1江西师范大学计算机信息工程学院; 2江西师范大学初等教育学院, 南昌 330022)

    1 引言

    标准参照测验(CRT)关注学生具体知识或技能的掌握情况及达到的水平。CRT有助于发挥考试的诊断功能和促进学生发展, 从而对教育评价产生了深刻影响(戴海琦, 2010)。CRT的广泛应用或需求,很好地体现了其在教育评价中的重要性：教育部基础教育质量监测(NAEQ)中心开发的监测工具采用了CRT; 美国的“力争上游”教改计划中强调采用新型标准和评价, 促使学生在大学或工作岗位上取得成功, 在全球范围内具备更好的人才竞争力; 美国前教育部长阿恩·邓肯(Arne Duncan)曾表示“一旦建立和采用新标准, 就需要创建新测试, 测量学生是否满足这些标准” (Duncan, 2009)。CRT已经广泛应用于水平和资格考试等, 如国际学生评估项目(PISA)、国际阅读素养进步研究项目(PIRLS)、国际数学和科学成就趋势研究(TIMSS)、美国教育进步评价(NAEP)、美国研究生入学考试(GRE)、美国大学水平考试(CLEP)和NAEQ等(甘良梅, 余嘉元,2006; 辛涛, 李勉, 任晓琼, 2015)。

    CRT一般将被试分为“掌握、未掌握”或“初级、中级、高级”等表现水平, 测量结果直接决定学习进程、被试选拔和教学质量评价等。而测量往往存在测量误差, 如何根据标准和综合各种测验分数对被试表现水平给出可靠而有效地评价, 以及如何量化评价分类结果的一致性和准确性, 成为研究者关注的重点(Douglas & Mislevy, 2010; 陈平, 李珍, 辛涛,高慧健, 2011)。

    分类一致性是指两次平行测验中被试观察分类相同的概率, 主要反映测验信度; 分类准确性是指被试观察与真实分类相同的概率, 主要反映测验效度(Lee, Brennan, & Wan, 2009; 陈平等, 2011)。分类一致性和准确性指标的发展趋势为：从平行测验过渡到单个测验指标估计; 从经典测验理论(CTT)过渡到项目反应理论(IRT)下指标估计。本文关注IRT下单个测验指标估计, 这是该领域的研究热点之一(Guo, 2006; Lathrop & Cheng, 2013; Lee, 2010;Rudner, 2005; Wyse & Hao, 2012)。指标主要分为两类：一类是以Lee方法为代表的基于观察分数(测验总分)的决策指标; 另一类是以Rudner方法为代表的基于能力分数的决策指标(Lathrop & Cheng,2013; Rudner, 2005) ......

百拇医药网 http://www.100md.com/html/paper/0439-755X/2016/12/009.htm

您现在查看是摘要页，全文长 33399 字符。