应用聚类分析研究医学论文中统计学设计的部分问题
摘要:为研究中文现刊医学论文统计学设计应用方面存在的问题,采用Q型聚类方法对3个指标进行聚类,用KruskalWallis秩和检验和Nemenyi检验对各类的总体分布位置进行检验。243篇论文聚为4类,各类论文均存在问题。Ⅰ类最好,占43.2%,其统计分析方法正确的70(66.7%)篇,抽样方法不明确的占91.4%,试验设计方法不明确的占78.1%;Ⅱ类其次;Ⅳ类再次;Ⅲ类最差,三项指标都最差,90%以上均为“无”。
关键词:医学论文;统计学设计;系统聚类;秩和检验
统计学设计是指遵循对照、随机化、重复原则,围绕专业设计制定的研究计划,作为医学科研的重要组成部分,是科学研究成功的基础。本研究主要对2004年刊登在国内医学期刊中的医学论文统计学设计的抽样方法、实验设计方法和统计分析方法三方面进行了研究,旨在引起有关人员注意,并为医学科研工作者提供参考。
1 对象和方法
11 研究对象
河北医科大学(本部)图书馆2004年4~6月中文医学现刊刊登的需要进行实验设计的临床和基础医学研究文章。
12 抽样方法
单纯随机抽样。
13 样本含量
用率的抽样公式[1]计算,取δ=0.065,π=0.5,α=0.05,得所需样本容量为237篇。
14 指标及量化赋值 表1 指标和量化赋值(略)
15 Q型系统聚类[2,3]
151 对样品进行聚类,聚类统计量使用欧式距离,计算公式如下:dij=∑m[]k=1(xik-xjk)2
152 类与类间的距离定义为最长距离,即以一类中各样品与另一类中各样品间距离的最大值为类间距离。计算时采用下面的递推公式:设某步将Gp、Gq合并成Gp(p
153 根据CCC、伪F和半偏R2统计量确定类数。数据处理使用SAS统计分析软件。
16 KruskakWallis秩和检验和Nemenyi检验[2]
用KW检验对等级资料的总体分布位置进行比较,在得到差异有统计学意义后,进一步使用Nemenyi检验两两比较。数据处理使用CS2000统计分析软件。
2 结果
全部243篇论文共聚为4类,见表2。其中Ⅰ类105篇,Ⅱ类46篇,Ⅲ类33篇,Ⅳ类55篇。表
2 统聚类过程(略)
21 抽样方法
4类论文总体分布位置不全相同,见表3。进一步两两比较,按α=0.05的水准,Ⅱ类与Ⅰ类和Ⅳ类的总体分布相同;Ⅰ类与Ⅳ类,按α=0.05的水准,总体分布位置不同;其他各类按α=0.01的水准,总体分布位置不同,见表4。表3 4类抽样方法的秩和检验结果(略)表4 4类抽样方法的两两比较结果(略)
22 实验设计方法
经KW检验(表5)和Nemenyi检验(表6),按α=0.05的水准,Ⅱ类、Ⅲ类和Ⅳ类总体分布位置相同;按α=0.01的水准,Ⅰ类与Ⅱ类、Ⅲ类和Ⅳ类的总体分布位置不同。表5 4类实验设计方法的秩和检验(略)注:χ2=184.3575, P=0.0000。表64类实验设计方法的两两比较(略)
23 统计分析方法
4类在各等级中的分布位置的KruskakWallis秩和检验(表7)和Nemenyi检验(表8),说明按α=0.05的水准,Ⅰ类与Ⅱ类、Ⅱ类与Ⅳ类的总体分布位置相同;其他各类按α=0.01的水准,总体分布位置不同。表7 4类统计分析方法的秩和检验(略)表8 4类统计分析方法的两两比较(略)
3 分析讨论
研究结果显示目前医学科研中统计学设计方面存在严重问题,必须提起注意。这一结果的得出一方面是由于医学科研人员在研究中不够重视统计学设计,另一方面还可能是由于调查人员水平有限、研究时间短、研究范围窄所致。
统计学设计中抽样方法、实验设计方法、统计分析方法三个指标相互关联,抽样方法和实验设计方法都会影响到统计指标的计算以及统计方法的使用,不同的实验设计方法,不同的抽样方法,统计指标的计算方法和统计分析方法会不同。因此,在科研时要进行全面的统计学设计,论文中要明确陈述,这样才能使研究结果更科学、更真实可靠。
参考文献
1 倪宗瓒.卫生统计学.第4版.北京:人民卫生出版社,2001,163.
2 孙振球.医学统计学.北京:人民卫生出版社,2002,308~314;130~133.
3 胡良平.现代统计学与SAS应用.北京:军事医学科学出版社,2000,343~344.
(河北医科大学公共卫生学院卫生统计教研室石家庄050017), http://www.100md.com(唐龙妹 杨俊英)
关键词:医学论文;统计学设计;系统聚类;秩和检验
统计学设计是指遵循对照、随机化、重复原则,围绕专业设计制定的研究计划,作为医学科研的重要组成部分,是科学研究成功的基础。本研究主要对2004年刊登在国内医学期刊中的医学论文统计学设计的抽样方法、实验设计方法和统计分析方法三方面进行了研究,旨在引起有关人员注意,并为医学科研工作者提供参考。
1 对象和方法
11 研究对象
河北医科大学(本部)图书馆2004年4~6月中文医学现刊刊登的需要进行实验设计的临床和基础医学研究文章。
12 抽样方法
单纯随机抽样。
13 样本含量
用率的抽样公式[1]计算,取δ=0.065,π=0.5,α=0.05,得所需样本容量为237篇。
14 指标及量化赋值 表1 指标和量化赋值(略)
15 Q型系统聚类[2,3]
151 对样品进行聚类,聚类统计量使用欧式距离,计算公式如下:dij=∑m[]k=1(xik-xjk)2
152 类与类间的距离定义为最长距离,即以一类中各样品与另一类中各样品间距离的最大值为类间距离。计算时采用下面的递推公式:设某步将Gp、Gq合并成Gp(p
153 根据CCC、伪F和半偏R2统计量确定类数。数据处理使用SAS统计分析软件。
16 KruskakWallis秩和检验和Nemenyi检验[2]
用KW检验对等级资料的总体分布位置进行比较,在得到差异有统计学意义后,进一步使用Nemenyi检验两两比较。数据处理使用CS2000统计分析软件。
2 结果
全部243篇论文共聚为4类,见表2。其中Ⅰ类105篇,Ⅱ类46篇,Ⅲ类33篇,Ⅳ类55篇。表
2 统聚类过程(略)
21 抽样方法
4类论文总体分布位置不全相同,见表3。进一步两两比较,按α=0.05的水准,Ⅱ类与Ⅰ类和Ⅳ类的总体分布相同;Ⅰ类与Ⅳ类,按α=0.05的水准,总体分布位置不同;其他各类按α=0.01的水准,总体分布位置不同,见表4。表3 4类抽样方法的秩和检验结果(略)表4 4类抽样方法的两两比较结果(略)
22 实验设计方法
经KW检验(表5)和Nemenyi检验(表6),按α=0.05的水准,Ⅱ类、Ⅲ类和Ⅳ类总体分布位置相同;按α=0.01的水准,Ⅰ类与Ⅱ类、Ⅲ类和Ⅳ类的总体分布位置不同。表5 4类实验设计方法的秩和检验(略)注:χ2=184.3575, P=0.0000。表64类实验设计方法的两两比较(略)
23 统计分析方法
4类在各等级中的分布位置的KruskakWallis秩和检验(表7)和Nemenyi检验(表8),说明按α=0.05的水准,Ⅰ类与Ⅱ类、Ⅱ类与Ⅳ类的总体分布位置相同;其他各类按α=0.01的水准,总体分布位置不同。表7 4类统计分析方法的秩和检验(略)表8 4类统计分析方法的两两比较(略)
3 分析讨论
研究结果显示目前医学科研中统计学设计方面存在严重问题,必须提起注意。这一结果的得出一方面是由于医学科研人员在研究中不够重视统计学设计,另一方面还可能是由于调查人员水平有限、研究时间短、研究范围窄所致。
统计学设计中抽样方法、实验设计方法、统计分析方法三个指标相互关联,抽样方法和实验设计方法都会影响到统计指标的计算以及统计方法的使用,不同的实验设计方法,不同的抽样方法,统计指标的计算方法和统计分析方法会不同。因此,在科研时要进行全面的统计学设计,论文中要明确陈述,这样才能使研究结果更科学、更真实可靠。
参考文献
1 倪宗瓒.卫生统计学.第4版.北京:人民卫生出版社,2001,163.
2 孙振球.医学统计学.北京:人民卫生出版社,2002,308~314;130~133.
3 胡良平.现代统计学与SAS应用.北京:军事医学科学出版社,2000,343~344.
(河北医科大学公共卫生学院卫生统计教研室石家庄050017), http://www.100md.com(唐龙妹 杨俊英)