用信息函数法对标准参照测验作质量分析(2)
第1页 |
第6页 |
参见附件(774KB,6页)。
我国测量学界一贯主张全面对待选择题与非选择题(主观题)。特别是我国的标准参照测验,如高等教育自学考试等,更是主张既使用选择题又使用非选择题;要求多种题型综合,不宜单一使用(1,0)计分的选择题型。由于BILOG程序只能处理(1,0)计分题的资料,所以是不适合作我国的标准参照测验质量分析的。而MULTILOG与PARSCALE[12,13]程序虽然把(1,0)计分题当作等级计分题的特例,可以处理各种题型综合运用的测验的实测资料,但等级计分题的级别数有限,一般不能超过10级。然而,我国标准参照测验的等级记分题型的分值,不少是十几分、二十几分甚至更大值的。因而,国外流行的上述所有这些测量分析程序,都难于普遍适应我国测验资料的实况。前面提及的我国测量学界至今很少开展用信息函数来作测验质量分析,其原因恐怕也正是因为缺少合用的专业化测量分析程序。
鉴于我国心理和教育测量理论与实践发展的迫切需要,我们已经成功开发研制成“现代心理与教育测量通用分析系统”(简记为ANOTE)。它既可作经典理论的分析,更可作项目反应理论的分析;作项目反应理论分析时,既可处理纯(1,0)计分资料,更可处理多种题型综合运用的资料;在按项目反应理论处理多等级计分题资料时,级别数并不限于10级以下,可多达几十级。另外,还有专门模块针对标准参照测验分析需要,去计算多种题型综合组成的测验中,求取指定掌握比例对应特质水平值的功能。该程序已通过教育部考试中心主持、张厚粲教授为主任的专家委员会鉴定,结论是“国内领先,国际先进”。
2.1 研究对象
对象I,国家某部委资格考试2001年一门科目的测验,以下称为测验A。共有105题,其中前60题为(1,0)计分的“单选题”,后45题为5级计分的“多选题”(0,0.5,1,1.5,2)。得分矩阵为从全国随机抽样获得的12000名考生的实测资料。这一分析对象的特点是,测验题型综合,被试与项目数都甚大。
对象II,某省高教自考2002年一个学科的测验,以下称为测验B。共有24题:其中2分题有16道,6分题有4道,10分题有3道,14分题有1道。得分矩阵为从该省随机取样抽得的1540名考生的实测资料。这一分析对象的特点是,测验题型综合,有的项目计分级别超过10级;被试与项目数量不如测验A大,但仍不算小,符合项目反应理论分析要求。
以上两对象都属标准参照测验,都以掌握比例π0=0.60所对应的被试能力值为划界分数;实际执行时由于测验A卷面满分为150分而测验B为100分,故测验A的及格线是90分而测验B是60分。
2.2 分析工具
采用江西师大“统计与测量研究开发中心”自主研制的“现代教育与心理测量通用分析系统”。
3 研究结果与分析
3.1 A测验
3.1.1 测验A整体质量分析
按项目反应理论要求,经模型-资料拟合检验,A测验因素分析第一特征值对第二特征值的比为3.52,故应视为该测验单维,且项目间局部独立。再经信息函数法分析,从测验质量分析表(表1)中可以看出测验在划界分数为90分(即掌握比例π0=0.60 )时,测验的信息量为I0=18.94,对应的被试能力值θ0=1.31, 测验估计标准误SE(θ0)=0.23。而测验的最大信息量IM=21.46,它所对应的掌握比例πm=0.66,考生能力值θM=1.73,这时测验估计标准误SE(θM)=0.216。这说明该测验在划界分数θ0=1.31处的测量误差偏大,其估计标准误SE(θ0)=0.23,比一般认可的0.20大。同时又说明在测试能力水平为1.73的考生,即划界分数为99分(即掌握比例πM=0.66)时,测验才能提供最大的信息量,命题者实际上是以此作为合格标准的。因此,测验标准掌握得还不很准确,测量精度(信度)也不很合要求,应降低测验难度,使测验在划界分数为90分处的信息量达到更大。从本测验信息函数曲线图(图1)来看,就应使曲线高峰向左移,并增大高度。
3.1.2 测验A项目分析
分析项目质量就应考察划界分数处的项目信息量。一般认为测验标准误应不大于0.20,即测验总信息量应达到25以上;而标准误处于0.20~0.25之间,即测验总信息量处在25~16之间时,应对测验进行改进,以提高质量;当测验总信息量小于16,即标准误值大于0.25时,测验就无存在价值了。测验信息由项目信息累加构成,故它应按各题型占分比分摊到每一项目上去。按上述要求就可建立项目优劣分类标准。现测验A的(1,0)记分题有60道,占分比重2/5,多级记分题有45道,占分比重3/5。当测验标准误0.20时,测验信息量是25,故(1,0)记分题每题信息量应达到0.17, 多级记分题每题信息量应达到0.33。所以当(1,0)记分题的信息量大于0.17,多级记分题的信息量大于0.33时,可认为其质量良好。类此可以认为,当(1,0)记分题中信息量在0.11~0.17的项目和多级记分题中信息量在0.21~0.33的项目,可认为其质量一般,还需改进;(1,0)记分题、多级记分题的信息量分别低于0.11、0.21的项目,则应视为质量很差,应删除重拟。表2列出了按此标准划分的项目质量类别。
对需修改的项目来说,可调整难度与增强区分力以提高项目信息量。如图2第83题(属多级记分题),从项目信息曲线可看到,该项目在测验掌握比例是0.60时(即能力水平是1.31)的信息量很小(0.27左右),但在能力水平为2.6时项目信息量达到最大(IM=0.54)。若能把项目难度降低到1.3 左右时,该项目的质量将会得到改善。
图2 A测验第83题的项目信息曲线
图3第14题[属(1,0)记分题]的项目信息曲线可看到,在能力水平[-3,3]区间,其信息量都不大,原因是该项目的区分度小,只有0.12。但该项目在能力水平1.2左右时信息量达到最大,接近划界分数值,故其难度合适。所以要改善该项目的质量就应提高区分度。图4第12题[属(1,0)记分题]的信息曲线图反应出项目的区分度小,为0 ......
您现在查看是摘要介绍页,详见PDF附件(774KB,6页)。