当前位置: 首页 > 期刊 > 《医学临床研究》 > 1999年第6期
编号:10218176
医学统计学概论
http://www.100md.com 《医学临床研究》 1999年第6期
     作者:熊国强

    单位:湖南医科大学卫生统计学教研室(长沙 410078)

    关键词:统计学;医学;数据说明,统计

    湖南医学990631 一般而言,统计学(Statistics),亦可称为统计方法(Statistical Methods)。按其性质,统计学也属一种方法论(Methodology)。宇宙间万事万物,混混沌沌;但各种事物,可依特定性质,予以归类,形成各种群体。这些群体,不论是属于社会的、自然的、医学的或实验的,凡以数字表现者,均可作为统计学的研究对象。

    1 医学统计学的定义

    统计学一词,其含意众说纷纭。早期学者认为统计学是依据收集事实或估计数字的分析结果,以研究一般自然现象或社会现象的一群方法。那么医学统计学仅是统计学中的一个分支。因此现代学者认为,医学统计学是运用概率论和数理统计的原理、方法,结合医学实际,研究数字资料的收集、整理分析和推断的一门学科。医学的研究对象主要是人体(内环境)及与人们身心健康有关的各种因素(外环境)。由于生物现象的变异较大,各种内外影响因素错综复杂,故需运用统计方法透过偶然现象来探测其规律性和必然性。因此,医学统计学是进行医学科学研究所必需的重要手段。
, http://www.100md.com
    医学统计学与生物统计学、卫生统计学是统计学原理和方法在互有联系的不同学科领域的应用,三者间虽有区别,但无截然界限。生物统计学应用于生物学研究,从生物范畴也包括人的角度来说,它比医学统计学的范围更广。医学统计学和卫生统计学应用于医学研究,前者侧重于医学的生物学方面,后者侧重于医药卫生的社会方面(社会卫生事业管理和人民健康状况研究)。

    医学统计学方法是医学科学研究中一种必要和必备的工具。无论是查阅文献、科研定项和定题、实验设计、调查设计、临床观察研究,进行实验、分析资料、作出结论,都需要借鉴统计学方法。特别是计算机技术的发展及在医学中的广泛使用,促进了多元分析等统计方法在医学研究中的应用。同时也丰富了医学统计学的内容。

    2 医学统计学的主要内容

    人们使用统计学方法,旨在简化资料,以便揭示事物发生、发展的真相。统计学方法很多,在医学科研中的应用也日益深入和广泛,那么该门学科的内容和任务如何,不妨在此进一步探讨。
, 百拇医药
    2.1 统计研究设计 在医学科研设计时,除了要从专业上考虑外(专业设计),还必须从医学统计学的角度考虑,使研究结果能够科学地回答所研究的问题。一份优秀的设计方案可以用较少的人力、物力和时间取得更多、更可靠的资料。

    2.2 统计描述和参数估计 医学研究中常需对调查、观察或实验结果进行统计学描述,手中所掌握的资料大部分是样本信息,如平均数、率、构成比,相关系数和回归系数等。更重要的是通过样本信息,来估计总体中相应的统计指标,即参数估计。这一步骤称为统计学推断。

    2.3 假设检验 假设检验也是统计学推断的主要内容之一。依据资料性质和所需解决的问题,建立统计假设,然后采用适当的检验方法,参照假设检验水准来判断概率的大小,说明样本是否支持原假设,确定该假设是否拒绝或不拒绝。

    2.4 联系、分类、鉴别和监测等研究 ①在疾病的防治工作中,经常要探讨各种现象数量间的联系,寻找与疾病关系密切的因素。②需要进行多种检查结果的综合评定,探讨疾病的分类分型、计量诊断、选择治疗方案。③需要对某些疾病进行预测预报、流行病学监督。④需对药品制造、临床检验结果等作质量控制。⑤需要了解人们的生活质量。生存资料的分析、医学人口学研究以及计划生育研究等诸多领域。医学统计学,特别是其中的多元分析,为解决这些问题提供了必要的方法和手段。
, http://www.100md.com
    统计工作最根本的一条原则是实事求是,如实反映情况。因此,在医学科研工作中必须养成严肃认真的科学作风和良好的科研道德。

    3 医学统计学方法的分类

    根据数理统计学的原理及方法的应用条件,人们在选择统计方法时,必须遵循这些基本原理,反之将得出错误的结论。

    3.1 参数统计 凭个人经验或总结他人的结论或有关规定等,一部分统计数据是服从某一特定分布。如人群中一部分生理学指标服从正态分布、生物现象中的性别分布和血型分布是二项分布和四项分布(多项分布)。在已知总体分布类型的前提下,可选用参数统计方法。如对统计量作t检验、F检验等。

    3.2 非参数统计 在不明总体分布类型的条件下,进行抽样研究,可选用非参数统计方法。这类方法计算简便,且方法种类繁多,特别是在各种业务统计中被广泛采用,但也损失少量信息。这些方法包括卡方检验、秩和检验等。
, 百拇医药
    3.3 医学统计中的多元分析 多元分析又称多变量分析、多因素分析,是研究多因素和多指标问题的一种统计分析方法。影响人体生理、病理变化和疾病发生发展过程的因素很多,而这些因素之间常有交互作用。这是由于:①某种疾病是否发生,取决于致病源,环境条件及机体状况等许多因素。②疾病的诊断要根据病人的很多症状、体征及检验结果。③疾病的预后则视治疗情况及机体状况而定。④某些医学和生物学现象的分类要根据许多生物学特征。凡此种种,这些复杂的问题在统计学中可应用多元分析法来处理。用多元分析法来研究医学问题,不仅可以同时考虑多个因素对人体生理、病理变化及疾病发生发展的影响,还可以分析各因素间的相互作用。多元分析的方法很多,医学统计学常用的有多元线性回归、多元线性相关、逐步回归、Cox回归、Logistic回归、判别分析、聚类分析、因子分析等。

    多元分析涉及的数学知识较多,计算量较大。通常用PC机装上统计软件处理这类复杂问题往往得心应手。医务人员要应用这些方法时,可与医学统计学人员协作进行。
, 百拇医药
    4 医学统计学的基本概念

    初学统计学的人往往被那些复杂的公式、符号难倒,花大量时间去推敲。其实这是对医学统计学的误解。我们认为最为重要的是必须熟练掌握一些基本概念和每种方法的适用范围和条件。

    4.1 统计工作的步骤 统计工作一般分为统计设计,资料的收集、整理和分析四个步骤。四者之间既有顺序上的先后,又密切联系,是前后呼应不能截然分开的整体。①统计学设计:统计学设计就是密切结合专业设计,根据研究目的和方向对研究课题全过程的设想与安排,也是后续步骤的依据和严密的工作计划,更是课题成败的最关键的一环。②收集资料:这是统计工作中最重要的一步。即按照研究设计中收集资料的要求,用较少的人力、物力、时间,及时取得准确、完整的原始资料。原始资料若残缺不全或不正确,会使整理及分析资料造成困难,甚至得出错误的结论。统计方法根本无法弥补这种缺陷。③整理资料:就是根据研究设计中整理分析计划的要求进行分组与汇总。其任务就是精化原始数据,使其条理化、系统化,便于进一步计算相关统计指标和分析及推论。④分析资料:其内容包括指标的计算、统计图表的绘制、统计学处理,并作出结论。统计处理泛指用统计方法对经整理的资料进行加工,通常指各种统计推断方法,如参数的估计、假设检验、多元分析的数理统计模型等。分析资料时要求选用恰当的统计推断方法,计算准确无误,最后结合专业理论作出正确的结论。
, http://www.100md.com
    4.2 研究单位间的同质与变异 根据研究目的所划定的观察单位的基本条件大致相同,可以认为这些观察单位是同质的。但是即使性质相同的事物,单从同一观察指标来看,各观察单位之间还存在差异。所以在同质的基础上,个体间的差异称为变异。变异是事物或现象的个性反映,在生物学和医学研究中尤为重要,它使统计学有特殊用武之地。个体间的变异来源于一些未加控制或无法控制,甚至不明因素所致的随机误差。在收集资料时,首先必须确定观察单位(亦称研究个体),它是研究的基本单元,可以是一个人、一群人、一个地点或一只动物等。一群同质观察单位的某项特征称为变量。变量的观察结果由研究者决定其性质,经定量或定性的变量通称为变量值或观察值。如以人为观察单位调查某地某年一群人的寿命情况,性别变量的观察结果有男有女;年龄变量的观察结果有大有小。

    4.3 统计资料的类型 统计资料的类型依赖于变量的性质,各种类型的变量采用其相应的统计分析方法。①数值变量:亦称计量资料、定量变量。就是根据研究目的对观察单位的某项指标先定量,然后测量其大小,带有度量衡单位。如研究一群同质青年的体质,每个人的形态指标身高(cm)、体重(kg)、胸围(cm)、坐高指数(%,坐高/身高)等均属数值变量。②分类变量:亦称定性变量,表现为互不相容的类别或属性。这类变量又可分为无序分类和有序分类两种。无序分类变量包括互不相容的二项分类和多项分类,如阳性与阴性、生存与死亡、发病与未发病;A,B,AB,O型;治愈与无效等。无序分类变量即对观察单位某项指标先定性,然后清点各类别观察单位的个数,编成分类频数表,因此又称计数资料,指标间只有质的不同,而无量的大小之分。然而有序分类变量各类之间有数量程度的区别,但数量之间的界限模糊,给人以“半定量”的概念,亦称等级型资料。有序分类变量即对观察单位某项指标先定等级,然后清点各等级观察单位的个数,编成等级频数表以便进一步分析。各等级又是按一定顺序如由轻到重,由小到大排列的。如临床检验报告单表示大便常规中的浓细胞分为-、±、++、+++、++++五级,说明其量的多少即严重程度,但界线不明。
, http://www.100md.com
    根据分析的需要,各类变量又可互相转化,但必须密切结合专业设计和统计学知识进行合理地转化。

    4.4 总体与样本 总体与样本是统计中两个重要的基本概念。①总体是根据研究目的确定的同质观察单位的全体,也就是说,是同质的所有观察单位某项变量值的集合。同质是由目的确定的,仅有相对意义。如需了解某市某年10岁男少年儿童的身高,则观察单位是该市此时10岁男少年,变量是身高,变量值是每人测得的身高值(cm),那么该市此时全部10岁男少年的身高值就构成一个有限的总体。它的同质基础是同一城市、同一时间、同为10岁男少年且观察单位是可数的(有限的)。如果在上述题目中加上“正常”二字,那么该总体的观察单位将减少,必须筛选掉因先天或后天疾病造成身高不正常的同龄男少年,同质基础将增加一个条件——“正常”。②样本是从同质总体中随机抽取有代表性的部分观察单位,某变量的实测值构成样本。抽样研究的目的是由样本信息推论总体中某变量的特征。而推论必须以样本的可靠性和代表性为前提。因此,为了保证总体的同质性和样本的可靠性与代表性,应当严格确定总体范围,科学地精选样本,进行正确而有效的研究设计。
, http://www.100md.com
    4.5 误差 测值与真值之差称为误差,真值是客观存在的,但受许多因素的影响很难精确地测量到。误差按其产生的原因和性质可分为三类:过失误差、系统误差和随机误差。①过失误差:由于观察者的主观错误造成。如点错小数点,抄错数字、计算错误、误用统计方法等。这类误差不允许发生,应该杜绝。②系统误差:有一定来龙去脉,且具有规律性,可来自于受试对象、观察者、仪器设备或外环境的非实验因素。系统误差可通过正确的研究设计、严格的技术手段尽力消除或控制。③随机误差:是排除系统误差后尚存在的误差。由多种无法控制的因素引起,误差的取值即无方向也无大小,随机变化。随机误差服从正态分布,因此可以用概率统计的方法处理。随机误差是不可避免的,通常用极差、四分位数间距和标准差来表示。

    4.6 抽样误差与标准误 抽样研究的目的就是要用样本信息来推断总体特征。而样本统计指标称为统计量、总体统计指标称为参数。由于客观事物存在个体差异,因而统计量与相应的参数之间必然存在抽样误差,这在抽样研究中是不容忽视的。抽样误差的大小用标准误来表示。如,Sp,Sb和Sr分别表示样本均数、样本率、样本直线回归系数和样本直线相关系数的标准误,说明其统计量的变异程度。标准误小说明抽样误差小,统计量的可靠程度大。标准误的大小随着样本例数的增多而减少,但样本例数过多,也会带来难以控制的其他误差。
, 百拇医药
    5 选择统计方法的原则

    目前医学统计学常用的假设检验方法多达几百种,选择哪种方法,是一个比较复杂的问题,如对比、相关、优度、综合评估和模型建立等。如何正确选用统计方法可以从如下几方面着手。

    5.1 变量类型 数值变量和分类变量(无序与有序)决定了资料的性质,计量、计数和等级资料都有各自一系列的方法进行统计描述和统计推断。一旦方法选择错误,必然导致系统误差加大,掩盖事实之间的真实差别,得到错误的结论。

    5.2 设计类型 统计学设计大致分为调查、实验、临床试验三种设计,研究者须认识到三种现场的专业设计和统计学设计都不相同,但也有统计学上的联系。如配对设计、完全随机设计等方法三种现场都能用得上。而某些需严格控制条件的设计,如正交设计仅在实验研究中开展较多。选择的设计类型不同所选用的统计方法各异。

    5.3 样本含量大小 在变量和设计类型相同的条件下,根据样本中观察单位的多少所选用的方法也略有不同,因为大样本的统计量已趋向于正态分布,事物之间的比较可采用u检验法(z检验)。所比较的事物之间的样本含量尽可能相等,相差越大产生的误差也越大,发挥的效果也越低。
, 百拇医药
    6 怎样学好医学统计学?

    医学统计学中的符号、公式、脚码对于初学者而言是乎很难理解和接受,其实这是一种误解。学习它并不需要高深的数学知识,关键在于读者从何角度去钻研。为此,奉劝读者注意以下几点。①掌握医学统计学中基本的知识、概念、原理和方法。如平均数的定义、种类及各自的适用条件,S与、b和r的定义、区别和联系等。弄懂了假设检验中反证法的逻辑推理,就能理解统计结论的概率性。②掌握统计学设计中的三种类型的原则,才能自我培养收集、整理、分析资料的系统工作能力。③分清设计、资料类型,选准统计方法,注意计算步骤,正确解释结果,密切结合实际,才能充分发挥统计学在医学科研中的作用。

    (19991018 收稿), 百拇医药