SAS软件在医学统计中的应用
作者:李永宏 赵荣山 董玉环 郝京生 孙国山
单位:北京军区军事医学研究所 石家庄050081
关键词:
数理医药学杂志990433
SAS(Statistical Analysis System)是美国SAS研究所于1976年推出的用来分析数据及编写报告的软件系统。经不断完善,SAS有运行于DOS及Window系统下的不同版本,可运行于不同档次的计算机,能对数据进行各种统计、多元分析并建立每次处理的报告,给出不同的统计图形并进行预测。现就SAS特点及在医学统计中的应用简介如下。
1 具有强大资料贮存、检索及其它系统进行信息交换的能力。
SAS系统本身具有强大的数据管理能力。可直接输入原始资料建立永久数据集,也可利用已创建的数据集产生所需要的新的数据集;可将含有相同变量的两个数据集纵向(前后)联接,也可含有相同观测数目的两个数据集横向(左右)联接,还可根据需要将一个大数据集拆成几个小数据集;在统计分析过程中,根据需要还可自动生成一些新的数据集。
, 百拇医药
医学实践中,为有效方便管理数据,我们常习惯使用FOXPRO数据库系统及诸如EXCEL、LOTUIS之类的电子表格系统。对这些已花费大量时间和精力建立的电子数据,借助于文本及数据交换格式文件,SAS系统能方便与这些系统进行信息交换,实现资源共享。
2 具备强大、灵活的统计分析能力
SAS软件提供了丰富的语句,不仅具有一般程序设计语言所共有的循环控制、条件判断、赋值、输入输出等语句,而且还具有丰富的概率函数、分位数函数、样本统计量函数以及随机函数等特有的语句。由若干SAS语句组成的SAS数据步和过程步,根据不同的要求可灵活组合,以适应不同统计分析的需要。SAS系统除能完成医学中常用的描述性统计、卡方检验、t(u)检验、完全拉丁方试验分析及一般直线回归外,还可方便快速进行下列统计分析。
2.1 直接输出图形,进行有效预测
, 百拇医药 SAS的PLOT过程可在一张图形中表现多组散点图,用来反映变量之间的相互关系,直观显示变量的变化趋势及规律;CHART过程可根据不同需要,给出各变量的水平或垂直条图、立体直方图、饼图、星图以及频数、百分位数、均值、总和的条形图,形象反映一个或多个变量值之间的关系及分布。这些过程还可结合其它过程使用,检验数据的分布,预测变化规律,选用合适回归模型。
2.2 计算四格表的确切概率
卡方检验是临床医学常用的统计方法,当理论频数(T)小于5或观察例数(n)小于40时,按照常规计算公式得出的概率往往偏低,此时需计算精确概率才能较好反映事物本质,但由于涉及大量运算,一般计算器难以胜任。SAS在进行卡方检验时,无论T、n大小,均给出未校正卡方、似然比卡方、连续性校正卡方以及Fisher精确检验的结果,使统计学结论更符合事物的本质。
2.3 Logisitic回归
, 百拇医药
医学研究中还常遇到因变量为互斥的二分类资料(如治愈与未愈、生存与死亡、发病与未发病等)和有序分类变量(如轻、中、重),同时有许多自变量可能对结果产生影响,而且这种影响不一定是线性的。利用SAS的LOGISTIC、REG过程,处理流行病学研究中常收集到的病例-对照研究资料,可初步确定与研究对象密切相关的因素;在临床医学中则可用于鉴别诊断、评价治疗措施的好坏、分析与疾病预后有关的因素等。
2.4 判断分析
判别分析的任务就是根据已掌握的一批分类明确的样品,建立较好的判别函数,使产生错判的事例减少,进而对给定的一个新样品判断它来自哪个总体。
利用SAS的STEPDISC及DISCRIM过程,我们可方便检验各种新的检查及化验指标是否有助于某一疾病的诊断或通过逐步判别分析判断各检验指标对研究对象是否有显著性贡献。
2.5 生存分析
, 百拇医药
临床上为确定癌症病人术后生存时间及各种因素对病人存活时间的影响而常进行随访观察。但由于种种原因经常导致我们在随访过程中收集到的资料不全,造成观察数据删失。对这些资料,我们只有用专门的生存分析才能进行科学的统计处理。
SAS系统提供了完整的生存分析方法。可用乘积-极限法和寿命表法求出生存时间的分位数、中位数生存期、平均生存期并图示生存时间分布;能根据不同情况用对数秩检验、威尔科克森检验和似然比检验法判断不同生存曲限之间是否有显著性差别;也可进行COX模型回归分析,了解不同危险因素作用的大小,并根据危险因素的不同取值对生存率进行预测。
2.6 具备完善的方差分析,可进行完全及不完全拉丁方资料的统计分析
当研究无交互作用的多个变量对同一因变量的影响时,如观察不同种系小鼠及体重对甲状腺提取液影响、不同照射时间及剂量对狗造血干细胞的影响,我们常选用设计均衡、效率高、所用受试对象较少的拉丁方设计。SAS不但能分析完全拉丁方资料,而且能对某行某列存在有较多缺失数据的资料进行可靠、有效的统计分析。
收稿日期:1999-02-27, http://www.100md.com
单位:北京军区军事医学研究所 石家庄050081
关键词:
数理医药学杂志990433
SAS(Statistical Analysis System)是美国SAS研究所于1976年推出的用来分析数据及编写报告的软件系统。经不断完善,SAS有运行于DOS及Window系统下的不同版本,可运行于不同档次的计算机,能对数据进行各种统计、多元分析并建立每次处理的报告,给出不同的统计图形并进行预测。现就SAS特点及在医学统计中的应用简介如下。
1 具有强大资料贮存、检索及其它系统进行信息交换的能力。
SAS系统本身具有强大的数据管理能力。可直接输入原始资料建立永久数据集,也可利用已创建的数据集产生所需要的新的数据集;可将含有相同变量的两个数据集纵向(前后)联接,也可含有相同观测数目的两个数据集横向(左右)联接,还可根据需要将一个大数据集拆成几个小数据集;在统计分析过程中,根据需要还可自动生成一些新的数据集。
, 百拇医药
医学实践中,为有效方便管理数据,我们常习惯使用FOXPRO数据库系统及诸如EXCEL、LOTUIS之类的电子表格系统。对这些已花费大量时间和精力建立的电子数据,借助于文本及数据交换格式文件,SAS系统能方便与这些系统进行信息交换,实现资源共享。
2 具备强大、灵活的统计分析能力
SAS软件提供了丰富的语句,不仅具有一般程序设计语言所共有的循环控制、条件判断、赋值、输入输出等语句,而且还具有丰富的概率函数、分位数函数、样本统计量函数以及随机函数等特有的语句。由若干SAS语句组成的SAS数据步和过程步,根据不同的要求可灵活组合,以适应不同统计分析的需要。SAS系统除能完成医学中常用的描述性统计、卡方检验、t(u)检验、完全拉丁方试验分析及一般直线回归外,还可方便快速进行下列统计分析。
2.1 直接输出图形,进行有效预测
, 百拇医药 SAS的PLOT过程可在一张图形中表现多组散点图,用来反映变量之间的相互关系,直观显示变量的变化趋势及规律;CHART过程可根据不同需要,给出各变量的水平或垂直条图、立体直方图、饼图、星图以及频数、百分位数、均值、总和的条形图,形象反映一个或多个变量值之间的关系及分布。这些过程还可结合其它过程使用,检验数据的分布,预测变化规律,选用合适回归模型。
2.2 计算四格表的确切概率
卡方检验是临床医学常用的统计方法,当理论频数(T)小于5或观察例数(n)小于40时,按照常规计算公式得出的概率往往偏低,此时需计算精确概率才能较好反映事物本质,但由于涉及大量运算,一般计算器难以胜任。SAS在进行卡方检验时,无论T、n大小,均给出未校正卡方、似然比卡方、连续性校正卡方以及Fisher精确检验的结果,使统计学结论更符合事物的本质。
2.3 Logisitic回归
, 百拇医药
医学研究中还常遇到因变量为互斥的二分类资料(如治愈与未愈、生存与死亡、发病与未发病等)和有序分类变量(如轻、中、重),同时有许多自变量可能对结果产生影响,而且这种影响不一定是线性的。利用SAS的LOGISTIC、REG过程,处理流行病学研究中常收集到的病例-对照研究资料,可初步确定与研究对象密切相关的因素;在临床医学中则可用于鉴别诊断、评价治疗措施的好坏、分析与疾病预后有关的因素等。
2.4 判断分析
判别分析的任务就是根据已掌握的一批分类明确的样品,建立较好的判别函数,使产生错判的事例减少,进而对给定的一个新样品判断它来自哪个总体。
利用SAS的STEPDISC及DISCRIM过程,我们可方便检验各种新的检查及化验指标是否有助于某一疾病的诊断或通过逐步判别分析判断各检验指标对研究对象是否有显著性贡献。
2.5 生存分析
, 百拇医药
临床上为确定癌症病人术后生存时间及各种因素对病人存活时间的影响而常进行随访观察。但由于种种原因经常导致我们在随访过程中收集到的资料不全,造成观察数据删失。对这些资料,我们只有用专门的生存分析才能进行科学的统计处理。
SAS系统提供了完整的生存分析方法。可用乘积-极限法和寿命表法求出生存时间的分位数、中位数生存期、平均生存期并图示生存时间分布;能根据不同情况用对数秩检验、威尔科克森检验和似然比检验法判断不同生存曲限之间是否有显著性差别;也可进行COX模型回归分析,了解不同危险因素作用的大小,并根据危险因素的不同取值对生存率进行预测。
2.6 具备完善的方差分析,可进行完全及不完全拉丁方资料的统计分析
当研究无交互作用的多个变量对同一因变量的影响时,如观察不同种系小鼠及体重对甲状腺提取液影响、不同照射时间及剂量对狗造血干细胞的影响,我们常选用设计均衡、效率高、所用受试对象较少的拉丁方设计。SAS不但能分析完全拉丁方资料,而且能对某行某列存在有较多缺失数据的资料进行可靠、有效的统计分析。
收稿日期:1999-02-27, http://www.100md.com