当前位置: 首页 > 期刊 > 《心理与行为研究》 > 2003年第1期 > 正文
编号:12066291
用信息函数法对标准参照测验作质量分析(1)
http://www.100md.com 2003年1月1日
第1页
第3页

    参见附件(774KB,6页)。

     摘 要 根据项目反应理论的信息函数法,以自主开发的“现代教育和心理测量通用分析系统”为工具,对两个大规模实施的标准参照测验进行了测验质量分析。结果说明,信息函数分析法比经典真分数理论分析法,可以获得更丰富、深刻、有针对性的资料,能对项目筛选修订、测验编制开发给出有力的指导,值得大力引进、推广。

    关键词 信息函数,划界分数,估计标准误,项目反应理论,真分数理论。

    分类号 G449

    1 问题的提出

    测验质量分析是筛选修订测验项目、改进与保证测验质量的关键措施和必经工作环节。在心理和教育测量理论发展过程中,经典真分数理论(CTT)已开发出一整套的技术来为此服务。但由于其模型和策略思想上的局限,传统真分数理论的项目分析与测验质量检验技术虽起过重要历史作用,今天却显现出了许多严重不足:(1)分析有关测验质量的统计量,如项目难度、区分度以及测验信度等,完全依赖于样本,结果难于普遍推广;(2)项目难度与被试水平定义在不同量尺上,无法直接联系与比较;(3)测量精度是针对整个被试团体来说的一个笼统值,不能具体问题具体分析;(4)项目难度与区分度分别评估求取,没有项目性能综合评价指标;(5)整个质量分析工作主要针对着测验总分来进行,最后只能通过试误筛选以组编测验,并无严格的逻辑来分析各个项目对全测验性能的影响,也不能主动按预定测验目标来挑选最恰当项目[1,2]

    上世纪中期逐步发展起来的作为现代测量理论主要代表的项目反应理论(IRT),迳直以被试在测验项目上的作答反应作为分析对象,提出了揭示被试在项目上的答对概率跟内部潜在特质和项目测量特性间关系的数学模型,将项目难度合理地定义在特质水平量尺上,并采取统计估计方法,从实测数据出发来估出不依赖于样本资料的被试特质参数与项目性能参数;特别是,还定义了项目信息函数(item information function)与测验信息函数(test information function)这种真分数理论中根本没有提出过的科学概念,以此为工具来综合地、动态地、在不同条件下有区别地考察项目与测验的计量学性能,深刻而合逻辑地分析每个测验项目跟整个测验性能间的定量关系[1,2,8~11]。因此,项目反应理论就给项目分析、测验质量检验与测验开发编制,提供了许多崭新的极为有力的工具、方法与策略。

    标准参照测验是现代心理和教育测量中一种重要的测验类型,其科学开发与编制,上世纪后期起,尤其受到测量学界的特别关注。代表测验标准的划界分数(cutoff score)或者说合格线的准确把握问题,则是该种测验编制开发中的核心与关键[6]。但是,在真分数理论框架中,项目难度定义在某一被试组上,是该被试组的通过率,能力水平则定义在某一测试项目组上,是该项目组上的通过率;这两种通过率虽然数字形式都是百分比,含义却截然不同,推论逻辑各相殊异。于是,在标准参照测验中假定以掌握比例(一般可记为π0)达到0.60的能力水平作为合格线即划界分数的话,人们并不能从这个0.60的数字出发,去选择难度为0.60或其它值的项目,以便合目的地编组出一个性能确属优良的测验来。项目反应理论却不同,它已为解决标准参照测验质量分析以及测验的改进开发提供了新方法与新策略[1,2,9~11]。然而,对项目反应理论的研究与应用,国内测量学界虽已做了不少工作,在参数估计、测验等值、计算机化自适应测验开发乃至项目有偏性探查等方面,都有良好成果[1~8],但用信息函数法对标准参照测验作质量分析的研究,迄今尚属少见。所以,我们就集中了一定力量,为此开展了一些探索。目的是要为我国心理与教育测量学界分析测验质量,引进新思路、开拓新途径积累经验。

    2 研究的方法与过程

    信息是一个重要的科学与哲学概念,可一般地定义为“不肯定性的消除”。所获资料若信息量大,即意味着据此资料对应考察对象所作推论更可靠、估计误差小。在心理和教育测量中施测项目,正是要从被试在项目上的作答反应资料出发,去估计出被试内部潜在特质水平。因此,若项目性能优良适于对被试水平作考察,根据被试反应资料估出的特质水平就可靠,误差就会小,亦即项目提供的信息量就会大。资料的信息量是需要分析评估的,项目反应理论中的项目信息函数,正是这样一个评价项目性能的综合指标。它定量地刻划了项目难度、区分度等跟测量精度或者说信息量间的关系。项目信息函数的数学定义是

    这里,Ii(θ)是项目测试特质水平为θ的被试时的信息量;Pi(θ)是水平为θ的被试在项目i上的答对概率,它又叫项目反应函数;Pi′(θ)是项目i的反应函数的一阶导数。项目反应函数的具体表达式取决于是1-0计分还是多级计分项目,采用的是什么数学模型。就1-0计分的选择题来说,若项目反应函数选取单维双参数Logistic模型,则上式可写为:

    式中ai,bi分别是项目的区分度与难度参数。上式说明,同一项目对不同特质水平提供的信息量是不一样大的;随着(θ-b)差值的增大,项目所提供的信息量越来越小;当项目测试特质水平跟项目难度相当时,项目信息趋于变大。具体说,在测试下列水平被试时项目提供出最大信息量:

    也就是说,当被试水平略高于项目难度时,项目信息量可达最大。同时,式(2)还说明,项目所能提供出的信息量值跟区分度有关,区分度值越大,项目性能越优良,所能提供出的信息量值就越多。

    测验信息函数是项目信息函数的累加和,即有:

    也就是说,信息函数具有可加性,测验中各个项目都对测验信息量独立地作出自己的贡献。若要测验整体信息量大,就要使各个项目的信息量都大,全是性能优良而又跟所测被试水平相适应的项目。被试水平是要根据测验的实测资料来进行估计的,项目反应理论已经证明,被试水平估计标准误(standard error of estimation),就是测验信息函数算术根的倒数。即有:

    因此,测验信息函数值越大,被试水平估计标准误就越小,亦即测量精度越高。对标准参照测验来说,应该在划界分数θ0处使测验有最大信息量,也就是有最高的测量精度,从而能最好地将θ0附近的被试加以鉴别区分,将误判率降到最低。划界分数θ0应由测验上的掌握比例π0来确定。项目反应理论证明在划界分数θ0跟掌握比例π0间存在下述关系: ......

您现在查看是摘要介绍页,详见PDF附件(774KB,6页)