临床科研定性资料统计分析错误辨析(2)
很多人盲目运用一般χ2检验处理各种R×C表资料,这样很不妥当。应根据列联表的类型、统计分析目的和资料所具备的前提条件,有针对性地选择统计分析方法。本文拟通过临床实例分析介绍R×C表的4种具体表现形式、对应的统计分析方法及其合理选用时所需要的前提条件。
临床实例分析
【例1】某医师用一般χ2检验处理表1和表2资料。
【差错辨析与释疑】表1和表2都叫做双向无序的R×C列联表资料,简称R×C表,顾名思义,就是表中两个定性变量都是名义变量。通常对于这种资料,统计分析的目的是“考察表中两个定性变量之间是否独立”。对表1而言,具体地说,4种甲状腺病在4个季节内发病的人数构成是否相同,即表中各列(或各行)上频数分布规律是否相同;对表2而言,具体地说,4种缓慢心律失常疾病在4个部位上发病的人数构成是否相同,即表中各列(或各行)上频数分布规律是否相同。也就是说,表1和表2资料属于同一种类型的列联表资料,分析目的也相同,通常情况下可以选择一般χ2检验予以处理。但仔细检查资料所具备的前提条件时,不难发现,表1资料具备而表2资料却不具备一般χ2检验所要求的前提条件。
, http://www.100md.com
那么,一般χ2检验所要求的前提条件是什么?就是表格中小于5的理论频数的个数不应超过总格子数的1/5。表格中现有的频数被称为观察频数,与每个观察频数对应着一个理论频数,各理论频数的计算方法为:“(该观察频数的行合计数×该观察频数的列合计数)/总频数。”所以,可以选用一般χ2检验处理表1中的资料,而应当选用Fisher的精确检验处理表2中的资料。
【例2】某医师用一般χ2检验处理表3和表4资料。
【差错辨析与释疑】表3和表4中都有一个定性变量是有序的,故可笼统地称它们为“单向有序的R×C表资料”。但在进行统计分析时,要特别强调结果变量是否为有序的,因为这一点与统计分析的目的和对应的统计分析方法的合理选择有直接关系。
若仅原因变量是有序的单向有序的R×C表资料,此时,原因变量的有序性对统计分析没有什么参考价值,故仍应将其视为“双向无序的R×C表资料”,见表3;只有当结果变量是有序的而原因变量是名义的二维列联表资料,才称其为“单向有序的R×C表资料”。为了不引起误解,宁愿繁琐一些,常将此类列联表称为“结果变量为有序变量的单向有序的R×C表”。
, 百拇医药
若用一般χ2检验处理表3资料,其目的是希望回答3行上的频数分布是否相同,换句话说,是希望回答不同食管癌TNM分期的患者,其CAM-1的表达率是否相同。这是符合临床医师需要的。但这并不意味方法一定选对了,还应检查资料是否满足此方法所要求的前提条件。表3中原始频数共占用了6个格,其中竟有3个格上的理论频数小于5,说明需要改用Fisher的精确检验处理,而不适合直接选用一般χ2检验。
表4应叫做“结果变量为有序变量的单向有序R×C列联表”,若用一般χ2检验处理该资料也可以,只不过其结论是“3种药物医治的患者在4个疗效等级上的频数分布规律是否相同”,而临床医师关心的是“3种药物医治该病患者的疗效之间的差别是否具有统计学意义”,即此统计分析方法(即一般χ2检验)所能达到的分析目的与临床医师希望达到的分析目的不吻合。要想有针对性地回答这个问题,所选用的统计分析方法应当是能对“疗效”的等级进行评分后再计算,其对应的统计分析方法有:秩和检验、Ridit分析和有序变量的logistic回归分析。
, 百拇医药
【例3】某医师用一般χ2检验处理表5和表6资料。
【差错辨析与释疑】表5和表6中两个定性变量都是有序变量,但其属性是不同的,故它们被称为“双向有序且属性不同的R×C表资料”。若用一般χ2检验处理此类资料,其结论只是各行(或各列)上的频数分布规律是否相同,这个结论并不是临床医师最关心的。临床医师关心的可能是下列问题:
其一,各行上“疗效之间的差别是否具有统计学意义”。此时,应将此表视为“结果变量为有序变量的单向有序的R×C表”,其对应的统计分析方法有:秩和检验、Ridit分析和有序变量的logistic回归分析。
其二,表中“两有序变量之间存在的相关关系是否具有统计学意义”。此时,应选用定性资料的相关分析方法,对应的统计分析方法有:Spearman秩相关分析、Kendall秩相关分析和典型相关分析。
其三,若表中两个有序变量之间的相关关系存在且具有统计学意义,希望进一步弄清它们之间的关系是否为单纯的“线性”关系,此时,应选用线性趋势检验。
, 百拇医药
【例4】某医师用一般χ2检验处理表7和表8资料。
【差错辨析与释疑】当R×C列联表中的两个定性变量都是有序变量,且它们的属性相同且水平数也相同,此时,称这样的列联表资料为“双向有序且属性相同的方表资料”,见表7和表8。这两张表在本质上是相同的,但稍有点区别。表7中两个有序变量对应着“时间”上先与后产生的诊断结果,而表8中是两种诊断方法同时诊断的结果。
若选用一般χ2检验处理此类资料,其结论仍然是各行(或列)上的频数分布规律是否相同。若最终的结论为“各行(或列)上的频数分布规律相同”,说明两种诊断方法互相独立,即两种诊断方法所产生的结果之间互不相干,换句话说,两种诊断方法不可互相替代;若最终的结论为“各行(或列)上的频数分布规律不相同”,说明两种诊断方法不互相独立,但它们之间的关系是怎样的,却解释不清楚了。
临床医师更关心的是“两种方法诊断结果(或前后诊断结果)之间的一致性是否具有统计学意义”。对表7而言,研究者希望回答前、后两个不同时间点上诊断的结果是否具有一致性;而对表8而言,研究者希望回答两种方法诊断的结果是否具有一致性。它们要回答的问题在本质是相同的。这样的资料实际上就是配对设计2×2列联表资料的“扩大”,只不过在处理配对设计2×2列联表资料时,人们更关心的是两种检测方法检测的结果不一致部分的数量之间的差别是否具有统计学意义,而在处理“方表”资料时,人们更关心的是两种检测方法检测的结果之间的一致性是否统计学意义,故常用的统计分析方法叫做一致性检验或称为Kappa检验。, http://www.100md.com
临床实例分析
【例1】某医师用一般χ2检验处理表1和表2资料。
【差错辨析与释疑】表1和表2都叫做双向无序的R×C列联表资料,简称R×C表,顾名思义,就是表中两个定性变量都是名义变量。通常对于这种资料,统计分析的目的是“考察表中两个定性变量之间是否独立”。对表1而言,具体地说,4种甲状腺病在4个季节内发病的人数构成是否相同,即表中各列(或各行)上频数分布规律是否相同;对表2而言,具体地说,4种缓慢心律失常疾病在4个部位上发病的人数构成是否相同,即表中各列(或各行)上频数分布规律是否相同。也就是说,表1和表2资料属于同一种类型的列联表资料,分析目的也相同,通常情况下可以选择一般χ2检验予以处理。但仔细检查资料所具备的前提条件时,不难发现,表1资料具备而表2资料却不具备一般χ2检验所要求的前提条件。
, http://www.100md.com
那么,一般χ2检验所要求的前提条件是什么?就是表格中小于5的理论频数的个数不应超过总格子数的1/5。表格中现有的频数被称为观察频数,与每个观察频数对应着一个理论频数,各理论频数的计算方法为:“(该观察频数的行合计数×该观察频数的列合计数)/总频数。”所以,可以选用一般χ2检验处理表1中的资料,而应当选用Fisher的精确检验处理表2中的资料。
【例2】某医师用一般χ2检验处理表3和表4资料。
【差错辨析与释疑】表3和表4中都有一个定性变量是有序的,故可笼统地称它们为“单向有序的R×C表资料”。但在进行统计分析时,要特别强调结果变量是否为有序的,因为这一点与统计分析的目的和对应的统计分析方法的合理选择有直接关系。
若仅原因变量是有序的单向有序的R×C表资料,此时,原因变量的有序性对统计分析没有什么参考价值,故仍应将其视为“双向无序的R×C表资料”,见表3;只有当结果变量是有序的而原因变量是名义的二维列联表资料,才称其为“单向有序的R×C表资料”。为了不引起误解,宁愿繁琐一些,常将此类列联表称为“结果变量为有序变量的单向有序的R×C表”。
, 百拇医药
若用一般χ2检验处理表3资料,其目的是希望回答3行上的频数分布是否相同,换句话说,是希望回答不同食管癌TNM分期的患者,其CAM-1的表达率是否相同。这是符合临床医师需要的。但这并不意味方法一定选对了,还应检查资料是否满足此方法所要求的前提条件。表3中原始频数共占用了6个格,其中竟有3个格上的理论频数小于5,说明需要改用Fisher的精确检验处理,而不适合直接选用一般χ2检验。
表4应叫做“结果变量为有序变量的单向有序R×C列联表”,若用一般χ2检验处理该资料也可以,只不过其结论是“3种药物医治的患者在4个疗效等级上的频数分布规律是否相同”,而临床医师关心的是“3种药物医治该病患者的疗效之间的差别是否具有统计学意义”,即此统计分析方法(即一般χ2检验)所能达到的分析目的与临床医师希望达到的分析目的不吻合。要想有针对性地回答这个问题,所选用的统计分析方法应当是能对“疗效”的等级进行评分后再计算,其对应的统计分析方法有:秩和检验、Ridit分析和有序变量的logistic回归分析。
, 百拇医药
【例3】某医师用一般χ2检验处理表5和表6资料。
【差错辨析与释疑】表5和表6中两个定性变量都是有序变量,但其属性是不同的,故它们被称为“双向有序且属性不同的R×C表资料”。若用一般χ2检验处理此类资料,其结论只是各行(或各列)上的频数分布规律是否相同,这个结论并不是临床医师最关心的。临床医师关心的可能是下列问题:
其一,各行上“疗效之间的差别是否具有统计学意义”。此时,应将此表视为“结果变量为有序变量的单向有序的R×C表”,其对应的统计分析方法有:秩和检验、Ridit分析和有序变量的logistic回归分析。
其二,表中“两有序变量之间存在的相关关系是否具有统计学意义”。此时,应选用定性资料的相关分析方法,对应的统计分析方法有:Spearman秩相关分析、Kendall秩相关分析和典型相关分析。
其三,若表中两个有序变量之间的相关关系存在且具有统计学意义,希望进一步弄清它们之间的关系是否为单纯的“线性”关系,此时,应选用线性趋势检验。
, 百拇医药
【例4】某医师用一般χ2检验处理表7和表8资料。
【差错辨析与释疑】当R×C列联表中的两个定性变量都是有序变量,且它们的属性相同且水平数也相同,此时,称这样的列联表资料为“双向有序且属性相同的方表资料”,见表7和表8。这两张表在本质上是相同的,但稍有点区别。表7中两个有序变量对应着“时间”上先与后产生的诊断结果,而表8中是两种诊断方法同时诊断的结果。
若选用一般χ2检验处理此类资料,其结论仍然是各行(或列)上的频数分布规律是否相同。若最终的结论为“各行(或列)上的频数分布规律相同”,说明两种诊断方法互相独立,即两种诊断方法所产生的结果之间互不相干,换句话说,两种诊断方法不可互相替代;若最终的结论为“各行(或列)上的频数分布规律不相同”,说明两种诊断方法不互相独立,但它们之间的关系是怎样的,却解释不清楚了。
临床医师更关心的是“两种方法诊断结果(或前后诊断结果)之间的一致性是否具有统计学意义”。对表7而言,研究者希望回答前、后两个不同时间点上诊断的结果是否具有一致性;而对表8而言,研究者希望回答两种方法诊断的结果是否具有一致性。它们要回答的问题在本质是相同的。这样的资料实际上就是配对设计2×2列联表资料的“扩大”,只不过在处理配对设计2×2列联表资料时,人们更关心的是两种检测方法检测的结果不一致部分的数量之间的差别是否具有统计学意义,而在处理“方表”资料时,人们更关心的是两种检测方法检测的结果之间的一致性是否统计学意义,故常用的统计分析方法叫做一致性检验或称为Kappa检验。, http://www.100md.com