中国和加拿大合作出生队列研究数据统一及共享方法

http://www.100md.com 2015年6月8日中国医药生物技术 2015年第6期

中加,同质化,1方法,1制定数据词典,2建立双方数据集交流平台,3统一数据元素和最小数据集,2结果,3讨论

     周光迪，吴美琴，赵丽，吴宇航，翁鑫宇，蒋聪，赵莎莎，王伟业

    出生缺陷、代谢综合征、儿童孤独症、多动症、哮喘、糖尿病、不孕不育、肥胖、心脑血管疾病等多种疾病都与胎儿期的环境暴露关系密切[1-2]，所以出生队列研究等针对生命早期环境暴露的研究近年来迅速发展，对病因学研究有着关键的推动作用。大样本量对于统计结果准确性的提升至关重要，单个项目常因资源不足而影响统计分析，而大型队列项目所需的资源量从时间、人力和物力方面难以实现，这样的矛盾直接影响了基于队列数据的后续研究[3]。因此，非常有必要整合不同队列之间的信息，并进行共享，来解决大样本量和大资源消耗量之间的矛盾[4]。

    项目资源之间的信息统一(data harmonization)与共享(data sharing)在国际上已经开展多年，最显著的例子是生物医学资源整合机构 BBMRI 采用分布式中心(distributed hub)的模式，将样本和数据存储于分布式中心，由虚拟的中心用联邦制方式管理数据[5]。目前，国内资源共享的项目尚缺乏经验和模式。信息共享模式主要有三种，第一种为直接集中数据，将各中心数据直接集中在一起，统一管理、分析、利用。优点是标准统一、便于大数据整合，缺点是可变性小，可行性低。因为各研究中心往往有不同的研究偏向，不同的具体条件，不同的知情同意与伦理法规。在这样的前提下，强行统一变量的选择和数据标准并不现实，几乎无法实施。第二种共享模式为通过最小数据集，即不同项目按相同的定义和标准来收集共同的最核心数据，用这些核心数据来代表研究群体的特性，并在项目之间共享。这种模式的可行性和可变性比直接集中数据高得多，所以多家国家标准化研究机构都聚焦于某一特定领域数据集，开展多中心合作。第三种共享模式是在项目已经进行、数据已经收集后，再开始数据共享工作，就会发现由于项目各方的变量定义、收集标准、数据分级等很多问题上不一致，即使只是实验检测方法或标准的不同，都会给数据共享造成困难。这样的情况下需要首先转换统一变量，让数据同质化、提升数据的相容性。这种模式的主要步骤是针对已经完成和存在的信息资源首先分析可能统一的数据元素，将统一后的数据元素作为多方共同的数据集，再通过分析在统一数据元素的前提下的项目信息，以适应前瞻性队列项目的需要。

    本文将要介绍的中国和加拿大合作出生队列数据信息共享项目(简称中加出生队列项目)是一个大型队列数据共享项目，参加本项目的队列包括中方的上海儿童优生队列(SBC)，加方的 3D(design-develop-discover)出生队列和母婴环境化学物质研究(maternal-infant research on environmental chemicals ......

百拇医药网 http://www.100md.com/html/paper/1673-713X/2015/06/004.htm

您现在查看是摘要页，全文长 11850 字符。