生物信息学—基因组研究的有力工具(之二)
当前主要研究内容
一、获取人和各种生物的完整基因组
基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基,而现在的DNA测序仪每个反应只能读取几百到上千个碱基。也就是说,要得到人的全部遗传密码首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。
但是,我们很容易想象:如果把一本书撕成大小一样的碎片,就再也无法把它们重新正确地拼接起来,这是因为撕的同时丢失了书的上下文联系。这该如何办呢?我们可以取两本一样的书,按照不同的撕法把它们分头打碎。通过不同碎片互相参照,找到相同的单词,就可以部分恢复书的上下文联系。撕的书越多,恢复的上下文联系也越多。因此要获得人的整套遗传密码就不能把人的32亿碱基只测一遍,往往要测很多遍。比如,今年初在《自然》、《科学》两杂志上公布的人类基因组工作草图报道,它含有约29亿碱基,其物理图谱覆盖率为96%,序列覆盖率为94%。有大于90%的连续序列群已大于10万碱基;有约25%的连续序列群已等于或大于千万碱基。在这些序列中发现了3-4万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和组装。
, 百拇医药
在基因组大规模测序的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙,到重复序列标识、读框预测和基因标注,每一步都是紧密依赖生物信息学的软件和数据库的。其中,序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。
有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)等的部分很少,只占1.1%;外显子与外显子之间的区域(称为内含子)占了24%;而基因与基因之间的间隔序列却占了75%,也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍,这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等。
, 百拇医药
二、发现新基因和新的单核苷酸多态性
发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如:啤酒酵母完整基因组所包含的约6000个基因,大约60%是通过信息分析得到的。
(1)基因的电脑克隆利用EST数据库发现新基因也被称为基因的电脑克隆。EST序列是基因表达的短cDNA序列,它们携带着完整基因的某些片段的信息。到2001年10月,GenBank的EST数据库中人类EST序列已超过380万条,它大约覆盖了人类基因的90%以上。
我国早在1996年就开始了通过电脑克隆寻找新基因的研究。它的原理非常简单,就是找到属于同一基因的所有EST片段,再把它们连接起来。由于EST序列是全世界很多实验室随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的EST连起来,直到发现了它们的全长,这样我们就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过,那我们就找到了一个新基因。但是进行电脑克隆程序设计是复杂的,计算量是巨大的。
, 百拇医药
(2)从基因组DNA序列中预测新基因
从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新的基因了。
发现了新基因就会使我们对生命活动的认识加深一步。据1999年12月2日《自然》杂志,人的第22号染色体数据已鉴定出679个基因,其中55%的基因是未知的。有35种疾病与该染色体突变相关,像免疫系统疾病、先天性心脏病和精神分裂症。但是,要将人类的所有基因及其相应的蛋白质以及与它们相关的功能完整而正确地整合到一个索引中,依然是一个十分重要、十分艰巨的任务。国际人类基因组协作组正着手建立完整的“整合基因索引”及与之相关的“整合蛋白索引”。
(3)发现单核苷酸多态(SNP)
, 百拇医药
有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。
现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP在基因组中分布相当广泛,近来的研究表明在人类基因组中每300碱基对就出现一次。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。SNP在基础研究中也发挥了巨大的作用,近年来对Y染色体SNP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。
, 百拇医药(陈润生)
一、获取人和各种生物的完整基因组
基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基,而现在的DNA测序仪每个反应只能读取几百到上千个碱基。也就是说,要得到人的全部遗传密码首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。
但是,我们很容易想象:如果把一本书撕成大小一样的碎片,就再也无法把它们重新正确地拼接起来,这是因为撕的同时丢失了书的上下文联系。这该如何办呢?我们可以取两本一样的书,按照不同的撕法把它们分头打碎。通过不同碎片互相参照,找到相同的单词,就可以部分恢复书的上下文联系。撕的书越多,恢复的上下文联系也越多。因此要获得人的整套遗传密码就不能把人的32亿碱基只测一遍,往往要测很多遍。比如,今年初在《自然》、《科学》两杂志上公布的人类基因组工作草图报道,它含有约29亿碱基,其物理图谱覆盖率为96%,序列覆盖率为94%。有大于90%的连续序列群已大于10万碱基;有约25%的连续序列群已等于或大于千万碱基。在这些序列中发现了3-4万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和组装。
, 百拇医药
在基因组大规模测序的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙,到重复序列标识、读框预测和基因标注,每一步都是紧密依赖生物信息学的软件和数据库的。其中,序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。
有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)等的部分很少,只占1.1%;外显子与外显子之间的区域(称为内含子)占了24%;而基因与基因之间的间隔序列却占了75%,也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍,这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等。
, 百拇医药
二、发现新基因和新的单核苷酸多态性
发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如:啤酒酵母完整基因组所包含的约6000个基因,大约60%是通过信息分析得到的。
(1)基因的电脑克隆利用EST数据库发现新基因也被称为基因的电脑克隆。EST序列是基因表达的短cDNA序列,它们携带着完整基因的某些片段的信息。到2001年10月,GenBank的EST数据库中人类EST序列已超过380万条,它大约覆盖了人类基因的90%以上。
我国早在1996年就开始了通过电脑克隆寻找新基因的研究。它的原理非常简单,就是找到属于同一基因的所有EST片段,再把它们连接起来。由于EST序列是全世界很多实验室随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的EST连起来,直到发现了它们的全长,这样我们就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过,那我们就找到了一个新基因。但是进行电脑克隆程序设计是复杂的,计算量是巨大的。
, 百拇医药
(2)从基因组DNA序列中预测新基因
从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新的基因了。
发现了新基因就会使我们对生命活动的认识加深一步。据1999年12月2日《自然》杂志,人的第22号染色体数据已鉴定出679个基因,其中55%的基因是未知的。有35种疾病与该染色体突变相关,像免疫系统疾病、先天性心脏病和精神分裂症。但是,要将人类的所有基因及其相应的蛋白质以及与它们相关的功能完整而正确地整合到一个索引中,依然是一个十分重要、十分艰巨的任务。国际人类基因组协作组正着手建立完整的“整合基因索引”及与之相关的“整合蛋白索引”。
(3)发现单核苷酸多态(SNP)
, 百拇医药
有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。
现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP在基因组中分布相当广泛,近来的研究表明在人类基因组中每300碱基对就出现一次。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。SNP在基础研究中也发挥了巨大的作用,近年来对Y染色体SNP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。
, 百拇医药(陈润生)