自相矛盾的统计分析结果是如何产生的
□军事医学科学院生物医学统计学咨询中心 胡良平
很多从事临床试验研究的人面对实际资料时,首先想到的是选用什么统计分析方法处理资料合适。笔者认为,这样一种思维模式正是“把统计学等同于计算工具”的传统统计学教学模式的缩影。缺乏正确统计思想指导的“统计学教学模式”实在害人不浅。请看“一个有国际影响的经典案例”给我们带来的启示。
国外有一位学者于1951年提出了一个有趣的问题,被后来的很多人称为Simpson悖论。这个悖论的大意是:假如有一组关于吸烟与肺癌关系的调查研究数据(见表1),对其进行统计分析时,若考虑的影响因素的个数不同,将会得到自相矛盾的结论。
具体地说,在这个调查研究数据中,总调查人数N=400,若按是否吸烟划分,其中吸烟者200人,不吸烟者200人;若按性别划分,其中男性200人,女性200人;若按年龄划分,其中≤40岁225人,>40岁175人。设P1代表吸烟者患肺癌率、P2代表不吸烟者患肺癌率。
, 百拇医药
原作者所采用的分析策略和结果如下。分析策略(1):若仅考察吸烟与不吸烟者患肺癌率之间的差别时,发现吸烟者似乎更不易患肺癌;分析策略(2):若分别在男性组与女性组中考察吸烟与不吸烟者患肺癌率之间的差别时,发现吸烟者似乎更易患肺癌;分析策略(3):若先将调查资料按受试者的年龄分为“≤40岁组”和“>40岁组”,再在每个年龄组内采用前述第(2)种分析策略进行计算,得到的结论为:吸烟者似乎更不易患肺癌。
为什么会得出这种前后自相矛盾的分析结果呢?究竟哪一种分析策略计算的结果正确?出错的原因是什么?首先让我们仔细考察原作者对每一个分析策略是如何具体实施的:
分析策略(1)的具体计算过程如下:若仅考察吸烟与不吸烟者患肺癌率(P1=40.0%(80/200)与P2=50.0%(100/200))之间的差别时,因P1小于P2,发现吸烟者似乎更不易于患肺癌。
分析策略(2)的具体计算过程如下:若分别在男性组与女性组考察吸烟与不吸烟者患肺癌率(男性组:P1=70%(35/50)与P2=60%(90/150);女性组:P1=30%(45/150)与P2=20%(10/50))之间的差别时,都因P1大于P2,发现吸烟者似乎更易患肺癌。
, 百拇医药
分析策略(3)的具体计算过程如下:若先将调查资料按受试者的年龄分为“≤40岁组”和“>40岁组”,再在每个年龄组内采用前述第(2)种分析策略的计算方法进行计算,此时得到的四个2×2列联表资料分别为:A类(≤40岁、男性):P1=50%(5/10)与P2=52%(60/115);B类(≤40岁、女性):P1=44.4%(40/90)与P2=50.0%(5/10);C类(>40岁、男性):P1=75.0%(30/40)与P2=85.7%(30/35);D类(>40岁、女性):P1=8.3%(5/60)与P2=12.5%(5/40)。比较各组P1与P2的数值大小时,不难发现:因P1小于P2,得到的结论为:吸烟者似乎更不易患肺癌。
下面再让我们来认真分析一下,便可使Simpson悖论问题真相大白。
在分析策略(1)中,只考察了一个因素(即吸烟与否)对是否患肺癌的影响,并不能保证“性别构成”和“年龄构成”在吸烟组和不吸烟组之间分别是完全相同的。若吸烟组和不吸烟组之间受到来自性别和年龄的影响相差悬殊,其结果(即两个患肺癌率)自然就不能单纯用吸烟与不吸烟来解释了。因此,据此得出的结论是不可信的。
, 百拇医药
在分析策略(2)中,从表面上看是同时考察了“吸烟与否”和“性别”两个影响因素对是否患肺癌的影响。而从本质上看,只是按“性别”简单分层后,来考察“吸烟与否”对是否患肺癌的影响。若“年龄构成”在吸烟组和不吸烟组之间是不同的,则得出的结论很可能是不真实的。因此,据此得出的结论也是不可信的。
在分析策略(3)中,从表面上看是同时考察了“吸烟与否”、“年龄”和“性别”三个影响因素对是否患肺癌的影响。而从本质上看,只是按“年龄”和“性别”的水平组合简单分成四层后,来考察“吸烟与否”对是否患肺癌的影响。若各层中样本含量很小(事实上,有些组中样本量仅为10),样本的代表性很差,则得出的结论很可能是不真实的。不仅如此,还割裂了多个因素之间的联系,用多次单因素分析取代多因素分析,无法考察因素之间的交互作用,因此,据此得出的结论也是不可信的。
由此可见,统计学不等同于计算工具,它也是指导科研设计的一项重要举措,使用不当,就很可能出现并不客观的科研结果。(四), 百拇医药
很多从事临床试验研究的人面对实际资料时,首先想到的是选用什么统计分析方法处理资料合适。笔者认为,这样一种思维模式正是“把统计学等同于计算工具”的传统统计学教学模式的缩影。缺乏正确统计思想指导的“统计学教学模式”实在害人不浅。请看“一个有国际影响的经典案例”给我们带来的启示。
国外有一位学者于1951年提出了一个有趣的问题,被后来的很多人称为Simpson悖论。这个悖论的大意是:假如有一组关于吸烟与肺癌关系的调查研究数据(见表1),对其进行统计分析时,若考虑的影响因素的个数不同,将会得到自相矛盾的结论。
具体地说,在这个调查研究数据中,总调查人数N=400,若按是否吸烟划分,其中吸烟者200人,不吸烟者200人;若按性别划分,其中男性200人,女性200人;若按年龄划分,其中≤40岁225人,>40岁175人。设P1代表吸烟者患肺癌率、P2代表不吸烟者患肺癌率。
, 百拇医药
原作者所采用的分析策略和结果如下。分析策略(1):若仅考察吸烟与不吸烟者患肺癌率之间的差别时,发现吸烟者似乎更不易患肺癌;分析策略(2):若分别在男性组与女性组中考察吸烟与不吸烟者患肺癌率之间的差别时,发现吸烟者似乎更易患肺癌;分析策略(3):若先将调查资料按受试者的年龄分为“≤40岁组”和“>40岁组”,再在每个年龄组内采用前述第(2)种分析策略进行计算,得到的结论为:吸烟者似乎更不易患肺癌。
为什么会得出这种前后自相矛盾的分析结果呢?究竟哪一种分析策略计算的结果正确?出错的原因是什么?首先让我们仔细考察原作者对每一个分析策略是如何具体实施的:
分析策略(1)的具体计算过程如下:若仅考察吸烟与不吸烟者患肺癌率(P1=40.0%(80/200)与P2=50.0%(100/200))之间的差别时,因P1小于P2,发现吸烟者似乎更不易于患肺癌。
分析策略(2)的具体计算过程如下:若分别在男性组与女性组考察吸烟与不吸烟者患肺癌率(男性组:P1=70%(35/50)与P2=60%(90/150);女性组:P1=30%(45/150)与P2=20%(10/50))之间的差别时,都因P1大于P2,发现吸烟者似乎更易患肺癌。
, 百拇医药
分析策略(3)的具体计算过程如下:若先将调查资料按受试者的年龄分为“≤40岁组”和“>40岁组”,再在每个年龄组内采用前述第(2)种分析策略的计算方法进行计算,此时得到的四个2×2列联表资料分别为:A类(≤40岁、男性):P1=50%(5/10)与P2=52%(60/115);B类(≤40岁、女性):P1=44.4%(40/90)与P2=50.0%(5/10);C类(>40岁、男性):P1=75.0%(30/40)与P2=85.7%(30/35);D类(>40岁、女性):P1=8.3%(5/60)与P2=12.5%(5/40)。比较各组P1与P2的数值大小时,不难发现:因P1小于P2,得到的结论为:吸烟者似乎更不易患肺癌。
下面再让我们来认真分析一下,便可使Simpson悖论问题真相大白。
在分析策略(1)中,只考察了一个因素(即吸烟与否)对是否患肺癌的影响,并不能保证“性别构成”和“年龄构成”在吸烟组和不吸烟组之间分别是完全相同的。若吸烟组和不吸烟组之间受到来自性别和年龄的影响相差悬殊,其结果(即两个患肺癌率)自然就不能单纯用吸烟与不吸烟来解释了。因此,据此得出的结论是不可信的。
, 百拇医药
在分析策略(2)中,从表面上看是同时考察了“吸烟与否”和“性别”两个影响因素对是否患肺癌的影响。而从本质上看,只是按“性别”简单分层后,来考察“吸烟与否”对是否患肺癌的影响。若“年龄构成”在吸烟组和不吸烟组之间是不同的,则得出的结论很可能是不真实的。因此,据此得出的结论也是不可信的。
在分析策略(3)中,从表面上看是同时考察了“吸烟与否”、“年龄”和“性别”三个影响因素对是否患肺癌的影响。而从本质上看,只是按“年龄”和“性别”的水平组合简单分成四层后,来考察“吸烟与否”对是否患肺癌的影响。若各层中样本含量很小(事实上,有些组中样本量仅为10),样本的代表性很差,则得出的结论很可能是不真实的。不仅如此,还割裂了多个因素之间的联系,用多次单因素分析取代多因素分析,无法考察因素之间的交互作用,因此,据此得出的结论也是不可信的。
由此可见,统计学不等同于计算工具,它也是指导科研设计的一项重要举措,使用不当,就很可能出现并不客观的科研结果。(四), 百拇医药