拟合体重百分位数曲线的加权三次样条
尚磊 徐勇勇 陈长生 侯茹兰 张水平
摘 要 目的: 年龄别百分位数是许多临床参考值的基本参数,研究一种适用于各种分布、能更精确描述这些基本参数随年龄变化的曲线平滑方法. 方法: 采用加权三次样条对西安市0~18岁儿童青少年体重百分位数进行拟合. 结果: 计算城市儿童体重百分位数的拟合结果和平滑后的百分位数曲线. 结论: 加权三次样条兼顾了曲线拟合中的拟合优度和光滑度,该法不仅可用于各种儿童生长标准研究,也适用于制定其它随年龄变化的临床参考值.
关键词:青春期医学 发育生物学 模型,统计学
0 引言
年龄别百分位数是评价儿童生长发育和临床诊断的重要参考值. 对于近似正态分布的变量,用x±zαs来计算百分位数,而对于偏态分布资料常要计算实际百分位数. 为了得到年龄别光滑的百分位数,这些百分位数需要用手工或其它方法进行平滑[1~3]. 目前常用的平滑方法有多项式、生长模型、核估计和样条函数等. 生长曲线的参数模型的缺点是不能充分考虑个体变异,当年龄范围较宽时有意义的局部变异就会被忽略[4]. 核回归法在Y与T有相同方差时,拟合的百分位数曲线缺乏稳定性[5]. 样条函数是光滑连接的分段多项式,它具有很强的适应数据微小变化的能力,并具有整体光滑性,因而成为曲线拟合的理想工具[6]. 1998年陈长生等[6,7]在国内首先提出了加权样条的拟合方法,并拟合了香港0~7岁儿童体重百分位数曲线,该法可进一步提高拟合的优度和光滑度,缩小拟合的误差. 我们采用加权三次样条拟合了西安市0~18岁儿童体重百分位数曲线,亦得到较满意的拟合结果.
1 资料来源和方法
1.1 资料 取自1995年全国0~6岁儿童营养与发育调查和1995年全国学生体质与健康调研西安数据. 将0,1,2,3,4,5,6,8,10,12,15,18,21,24月与2.5,3,3.5,4,4.5,5,5.5,6,7,8,9,10,11,12,13,14,15,16,17,18岁作为年龄中位数. 0~6岁每组200人,7岁以后每组100人,城乡、男女一致.
1.2 方法 设某区间[a,b]上有实数t1,t2,…,tn且满足a
f(x)=di (x-ti)3+ci (x-ti)2+bi (x-ti)+ai ti≤x≤ti+1
假定ti时残差的权重为wi,wi>0,则加权残差平方和为∑wi (yi-g(ti))2,上述选择函数的惩罚平方和为
S(f)=∑wi (yi-f(xi))+λ∫ba(f''(x))2dx,对于给定的光滑参数λ(λ>0)则使S(f)最小的估计函数f(x)称为惩罚最小二乘估计. 光滑参数λ可由λ=CQ3/1 000给出,C为给定的常数,Q为解释变量的四分位数间距.
采用NoSA统计软件计算年龄别百分位数,用SAS软件进行拟合,用EXECL软件绘图.
2 结果
2.1 各组体重百分位数拟合结果 见Tab 1.
表1 城市儿童体重百分位数拟合结果
Tab 1 The fitting results of weight centiles for urban children
Centiles
Urban boys
Urban girls
λ Value
R2
MSE
λ Value
R2
MSE
3
0.3
0.9754
0.0389
0.3
0.9734
0.0478
10
0.3
0.9641
0.0436
0.3
0.9526
0.0730
25
0.3
0.9287
0.0415
0.3
0.9435
0.0553
50
0.2
0.9992
0.0872
0.3
0.9988
0.0788
75
0.3
0.9388
0.0572
0.3
0.9215
0.0775
90
0.3
0.9459
0.0898
0.3
0.9018
0.1211
97
0.3
0.9799
0.1998
0.3
0.9653
0.2345
λ: Smooth parameter; MSE: mean squar error.
Tab 1可见,城男,城女七条百分位数曲线的拟合结果,R2均在0.9以上,MSE(均方误差)较小(均小于0.24),可见三次加权样条拟合儿童体重百分位数曲线的拟合优度高,结果非常满意.
2.2 各组百分位数曲线图 见Fig 1, 2.
图1 城男0~18岁体重百分位数曲线
Fig 1 Centile curves for urban boys aged 0~18 years
图2 城女0~18岁体重百分位数曲线
Fig 2 Centile curves for urban girls aged 0~18 years
3 讨论
我们采用加权三次样条拟合西安市0~18岁儿童青少年体重百分位数曲线,目的在于提供制定生长标准曲线的方法和途径,给出精确,直观的百分位数曲线图,有利于儿童生长发育水平的评价. 拟合结果表明加权样条拟合方法考虑了曲线拟合的优度和光滑度,能够更好地实现曲线拟合的目的.
加权样条方法采用加权残差平方和∑wi (yi-g(ti))2衡量拟合曲线g(t)对[ti,yi]的拟合程度,本文权重采用观察值的方差的倒数,使拟合的程度更接近资料分布的实际,用光滑参数λ表示残差与局部变异间的‘交换率’来衡量拟合曲线的光滑度. λ越大,曲线越光滑,自由度和R2越小,均方差(MSE)也就可能更大,反之,也成立,本研究的λ选择采用直接给出方法,同时兼顾了曲线的光滑度和拟合的优度.
加权三次样条方法不仅适用于体重、身高等人体测量资料的生长标准的制定,也适合于人体生理、生化等随年龄变化的指标的临床参考值的制定,如血压,血糖等.
基金项目:全军医药卫生科研基金课题 No. 96M0987
作者简介:尚 磊,男,1968-09-11生,陕西省长武县人,汉族. 1993年西安医科大学预防医学系毕业,助教,96级硕士生,发表论文10篇. 导师徐勇勇. 电话:(029)3374861
作者单位:尚 磊 徐勇勇 陈长生 第四军医大学军事卫勤统计系卫生统计教研室,陕西 西安 710033
侯茹兰 西安医科大学儿少卫生教研室
张水平 西安市妇幼保健医院
参考文献
1 Gasser T, Molinari L, Roos M. Methodology for the establishment of growth standards. Horm Res, 1996;45(suppl 2):2-7
2 Cole TJ, Freeman JV, Preece MA. British 1990 growth referencr centiles for circumference fitted by maximum penalized likehood. Stat Med,1998;17:407-429
3 Healy MJR, Rasbash J, Yang M. Distribution-free estimation of age-related centiles. Ann Hum Biol,1988;15(1):17-22
4 Goldstein H. Efficient Statistical modelling of longitudinal data. Ann Hum Biol,1986;13(2):129-141
5 Gao SM, Roche AF, Baumgartner RN et al. Kernel regression for smoothing percentile curves: reference data for calf and subscapular skinfold thicknesses in mexican americans. Am J Clin Nutr,1990;51:908-916
6 陈长生. 非参数回归和生长曲线统计分析方法研究及其医学应用[博士论文]. 西安: 第四军医大学,1998:35-45
7 陈长生,徐勇勇,尚 磊. 儿童生长曲线的光滑样条和核估计拟合. 中国卫生统计,1997;14(4):1-3