美国肾脏病数据系统介绍-左力.doc
http://www.100md.com
参见附件(35kb)。
美国肾脏病数据系统介绍
北京大学第一医院肾脏内科 左力(ZuoLi@BJMU.edu.cn)
自1989年以来,美国肾脏病数据系统(USRDS)每年发表年度报告(ADR)。近年来,USRDS开始使用彩色图表,使读者对疾病谱、患病率、发病率、死亡率等数据一目了然。迄今为止,USRDS的ADR成为肾脏病届被引用最多的文献资料,也是我国肾脏科医生喜欢引用的文献资料之一。本文将介绍USRDS ADR的产生过程,包括其数据来源、数据清理、分析方法和价值。通过对USRDS的介绍,我们可以从中得到一些启示:我们是否也可以做到同样的东西,甚至做的更好?
1. USRDS的数据来源
USRDS的数据来源很多,这里只介绍我们能做到的几个。
美国MediCare要求每一个进入肾脏替代治疗的患者填写Medical Evidence Form(表-1)。每一张Medical Evidence Form即代表一个新病人,这样终末肾衰竭(ESRD)的发病率轻而易举地就能得到。每一个ESRD的死亡,都要填写一张Death Notification Form(表-2),这样ESRD的死亡率就能轻而易举地得到。根据发病率和死亡率,当年的患病率也很容易计算。如果连续收集这些资料,则数年来的发病率、患病率和死亡率的年度变化趋势也很容易计算。
Medical Evidence Form中记录了病人的一般特征例如病人的识别信息、性别、年龄、种族、居住地等,还记录了病人进入透析前的疾病状况,例如导致ESRD的原始疾病(例如糖尿病、高血压、慢性肾炎等)、与ESRDS合并的疾病(例如消化性溃疡、冠心病、肝炎等)、ESRD的并发症(例如贫血、骨病、心力衰竭等)。另外还有患者进入透析时的重要化验指标,例如血色素、钙、磷、iPTH、肌酐、尿素、白蛋白、血脂等。获取这些资料并不复杂,但这些资料对将来进行预后(例如死亡、心脑血管疾病、骨病、花费)分析提供了充足的变量。
USRDS的另一个数据来源是Claim Data。不管是ESRD病人还是其它病人,他们每一次就诊都必须填写一张Claim,血液透析病人每一次透析就是一次就诊。这张Claim除了病人的识别信息和一般信息,主要是本次就诊的日期、诊断名称(ICD-9)、进行的辅助检查的代码、使用的药物代码、采用的治疗手段的代码。根据这张表,我们就能知道病人的检查、诊断和治疗历史。结合Medical Evidence Form和Claim Data,很容易进行生存分析。
2. USRDS的数据清理、存储
USRDS数据清理的内容之一是建立病人唯一的识别号。实际上他们的社会安全号是唯一的,考虑到个人隐私问题,需要为每一个病人产生一个USRDS识别号。数据清理的另一个内容是将这些表格转化为电子数据。实际上从纸到电子数据的过程是MediCare完成的。USRDS收到电子数据表后,为了便于维护和分析,需要将整个电子数据表拆分为数个小表。
针对Medical Evidence Form,可拆分出病人识别信息表、合并症表、化验检查表等。针对Claim Data,可总结出肾脏替代方法变化历史、EPO使用历史、血管通路变化历史、各种诊断历史等。针对Death Notification Form,可以分离出病人识别信息、死亡诊断信息等。
每一个小表均包含病人识别信息,但只存储病人某一方面的资料。进行分析时,可以根据需要按照病人识别信息将不同的小表组合在一起。例如想要分析不同的肾脏替代治疗模式对病人存活时间的影响,可以利用病人识别信息将治疗模式历史表和死亡诊断合并。为了调整其它可能影响存活的因素,还需要将含有欲调整因素的表格合并,例如想要调整血脂的影响,需要合并Medical Evidence Form分离出来的化验值表;想要调整ESRD原发病的影响,则需要合并Medical Evidence Form的原发病诊断子表。
每年都会产生一套这样的表格,存储待用。
3. USRDS的数据分析方法
USRDS的数据十分庞大,存储了自美国有肾脏替代治疗以来几乎所有的病人信息,一张子表的大小即达占用数百兆磁盘空间。所有表格占用数百G磁盘空间。如此大的数据表,一般的统计软件无能为力,只有SAS能分析这些数据。为了获知发病率的年度变化,SAS需要运行数十分钟;如果建立复杂的模型,推测影响预后的变量,有时SAS需要运行一周的时间。下面以发病率、死亡率、患病率的年度变化和死亡预测因素为例说明数据分析过程。
(1)发病率。首先找到发病的病人,如果病人填写了Medical Evidence Form,则被视为新发病人,从这个Form可以读到病人的性别、年龄、种族、居住地、原发病和第一次治疗的信息;如果发现了Claim Data,但是没有Medical Evidence Form,这也是一个新发病人,病人的第一张Claim 就是病人的ESRD发病日期。根据这些资料,容易计算不同性别、年龄、种族、地域的ESRD发病数及其年度变化(见USRDS ADR 2006)。
(2)死亡率。从Death Notification Form可以获知病人识别信息和死亡日期,将该表和病人一般特征表合并,从而获知病人性别、年龄、种族、居住地、原发病等信息,经过分析可以知道不同亚组病人的死亡数及其年度变化。
(3)患病率。前一年仍然存活的病人,加上当年发病的病人,即可视为当年的患病人数。实际上,根据USRDS数据库,我们只能知道美国有多少人发生了ESRD,多少人死亡了 ......
美国肾脏病数据系统介绍
北京大学第一医院肾脏内科 左力(ZuoLi@BJMU.edu.cn)
自1989年以来,美国肾脏病数据系统(USRDS)每年发表年度报告(ADR)。近年来,USRDS开始使用彩色图表,使读者对疾病谱、患病率、发病率、死亡率等数据一目了然。迄今为止,USRDS的ADR成为肾脏病届被引用最多的文献资料,也是我国肾脏科医生喜欢引用的文献资料之一。本文将介绍USRDS ADR的产生过程,包括其数据来源、数据清理、分析方法和价值。通过对USRDS的介绍,我们可以从中得到一些启示:我们是否也可以做到同样的东西,甚至做的更好?
1. USRDS的数据来源
USRDS的数据来源很多,这里只介绍我们能做到的几个。
美国MediCare要求每一个进入肾脏替代治疗的患者填写Medical Evidence Form(表-1)。每一张Medical Evidence Form即代表一个新病人,这样终末肾衰竭(ESRD)的发病率轻而易举地就能得到。每一个ESRD的死亡,都要填写一张Death Notification Form(表-2),这样ESRD的死亡率就能轻而易举地得到。根据发病率和死亡率,当年的患病率也很容易计算。如果连续收集这些资料,则数年来的发病率、患病率和死亡率的年度变化趋势也很容易计算。
Medical Evidence Form中记录了病人的一般特征例如病人的识别信息、性别、年龄、种族、居住地等,还记录了病人进入透析前的疾病状况,例如导致ESRD的原始疾病(例如糖尿病、高血压、慢性肾炎等)、与ESRDS合并的疾病(例如消化性溃疡、冠心病、肝炎等)、ESRD的并发症(例如贫血、骨病、心力衰竭等)。另外还有患者进入透析时的重要化验指标,例如血色素、钙、磷、iPTH、肌酐、尿素、白蛋白、血脂等。获取这些资料并不复杂,但这些资料对将来进行预后(例如死亡、心脑血管疾病、骨病、花费)分析提供了充足的变量。
USRDS的另一个数据来源是Claim Data。不管是ESRD病人还是其它病人,他们每一次就诊都必须填写一张Claim,血液透析病人每一次透析就是一次就诊。这张Claim除了病人的识别信息和一般信息,主要是本次就诊的日期、诊断名称(ICD-9)、进行的辅助检查的代码、使用的药物代码、采用的治疗手段的代码。根据这张表,我们就能知道病人的检查、诊断和治疗历史。结合Medical Evidence Form和Claim Data,很容易进行生存分析。
2. USRDS的数据清理、存储
USRDS数据清理的内容之一是建立病人唯一的识别号。实际上他们的社会安全号是唯一的,考虑到个人隐私问题,需要为每一个病人产生一个USRDS识别号。数据清理的另一个内容是将这些表格转化为电子数据。实际上从纸到电子数据的过程是MediCare完成的。USRDS收到电子数据表后,为了便于维护和分析,需要将整个电子数据表拆分为数个小表。
针对Medical Evidence Form,可拆分出病人识别信息表、合并症表、化验检查表等。针对Claim Data,可总结出肾脏替代方法变化历史、EPO使用历史、血管通路变化历史、各种诊断历史等。针对Death Notification Form,可以分离出病人识别信息、死亡诊断信息等。
每一个小表均包含病人识别信息,但只存储病人某一方面的资料。进行分析时,可以根据需要按照病人识别信息将不同的小表组合在一起。例如想要分析不同的肾脏替代治疗模式对病人存活时间的影响,可以利用病人识别信息将治疗模式历史表和死亡诊断合并。为了调整其它可能影响存活的因素,还需要将含有欲调整因素的表格合并,例如想要调整血脂的影响,需要合并Medical Evidence Form分离出来的化验值表;想要调整ESRD原发病的影响,则需要合并Medical Evidence Form的原发病诊断子表。
每年都会产生一套这样的表格,存储待用。
3. USRDS的数据分析方法
USRDS的数据十分庞大,存储了自美国有肾脏替代治疗以来几乎所有的病人信息,一张子表的大小即达占用数百兆磁盘空间。所有表格占用数百G磁盘空间。如此大的数据表,一般的统计软件无能为力,只有SAS能分析这些数据。为了获知发病率的年度变化,SAS需要运行数十分钟;如果建立复杂的模型,推测影响预后的变量,有时SAS需要运行一周的时间。下面以发病率、死亡率、患病率的年度变化和死亡预测因素为例说明数据分析过程。
(1)发病率。首先找到发病的病人,如果病人填写了Medical Evidence Form,则被视为新发病人,从这个Form可以读到病人的性别、年龄、种族、居住地、原发病和第一次治疗的信息;如果发现了Claim Data,但是没有Medical Evidence Form,这也是一个新发病人,病人的第一张Claim 就是病人的ESRD发病日期。根据这些资料,容易计算不同性别、年龄、种族、地域的ESRD发病数及其年度变化(见USRDS ADR 2006)。
(2)死亡率。从Death Notification Form可以获知病人识别信息和死亡日期,将该表和病人一般特征表合并,从而获知病人性别、年龄、种族、居住地、原发病等信息,经过分析可以知道不同亚组病人的死亡数及其年度变化。
(3)患病率。前一年仍然存活的病人,加上当年发病的病人,即可视为当年的患病人数。实际上,根据USRDS数据库,我们只能知道美国有多少人发生了ESRD,多少人死亡了 ......
您现在查看是摘要介绍页,详见DOC附件(35kb)。