LGM模型中缺失数据处理方法的比较:ML方法与Diggle-Kenward选择模型*
均值,精度,变量,1引言,2问题提出,3基于增长模型的缺失数据处理方法,1基于MAR假设的极大似然估计,2Diggle-Kenward选择模型,4研究方法,1模拟设计,2数据
张杉杉 陈 楠 刘红云(1首都经济贸易大学劳动经济学院,北京 100070)(2北京师范大学心理学院应用实验心理北京市重点实验室,北京 100875)(3艾美仕市场调研咨询(上海)有限公司,北京 100005)
1 引言
追踪研究(Longitudinal Study)通过在一段时间内,对个体的某种或某些特征进行有系统的、定期的观测,来探讨特质发生、发展以及变化的特点。在追踪研究中,研究者虽尽量使得前后观测样本相同,但是由于追踪研究耗时较长,被试常常会因为个体特质或者其他外部影响因素而退出实验,造成大量的缺失情况。追踪研究中数据的缺失是研究者普遍会面临的问题,但是如何选取合适的处理方法并不容易。
缺失数据处理方法的选择依赖于缺失数据产生的机制以及缺失模式。缺失数据机制描述了缺失数据与该数据集中变量的真实值之间,以及与协变量之间的关系,主要有完全随机缺失(Missing Completely at Random,MCAR)、随机缺失(Missing at Random,MAR)和非随机缺失(Missing Not at Random,MNAR)三种。前两种情况下缺失值被视为可忽略的(Little &Rubin,2002),而非随机缺失机制常被视为是不可忽略的(Power et al.,2012),所谓“不可忽略”,指的是非随机缺失的数据不能够作为其来源完整数据的有效代表,因此如果仅用非随机缺失后的完整数据进行统计分析,将得到有偏的参数估计结果,甚至可能得到无效的结论 (Schafer &Graham,2002;Little &Rubin,2002)。
关于缺失数据处理方法的研究颇受重视,大量的研究表明,研究者常用的一些简单的缺失数据处理方法,如列删除(Listwise Deletion)和对删除(Pairwise Deletion),单一插补的方法,由于其得到的参数估计结果有偏,检验力下降等种种局限性,并不推荐使用(Enders,2010)。近年来,关于缺失数据处理方法的研究主要集中在MAR缺失机制下的探讨,其中多重插补法和极大似然估计法是应用最广泛的两种方法(Rotnitzky,2009)。对于MNAR缺失机制的数据,研究者也提出了一系列的处理方法(Albert &Follmann,2009;Enders,2011a,2011b )。
对于非随机缺失数据的处理,由于需要描述缺失机制与目标变量的关系,其处理方法大多是采用基于模型的方法 (Little &Rubin,2002)。对于有非随机缺失的追踪数据的分析过程,则是在增长模型的基础上加入一个描述缺失特征的模型来矫正偏差(叶素静,唐文清,张敏强,曹魏聪,2014) ......
您现在查看是摘要页,全文长 30102 字符。