大规模测序研究CD34+造血干/祖细胞基因表达谱
作者:吴济生 张庆华 叶珉 吴昕彦 周隽 傅刚 黄秋花 顾健 包其郁 余亚平 沈宇 徐淑华 茅矛 陈竺
单位:吴济生 张庆华 叶珉 吴昕彦 周隽 傅刚 黄秋花 顾健 余亚平 沈宇 徐淑华 茅矛 陈竺(200025 上海第二医科大学附属瑞金医院、上海血液学研究所,卫生部和上海市人类基因组研究重点实验室);包其郁(温州医学院)
关键词:造血干细胞;序列分析;基因表达;计算生物学
中华血液学杂志000501 【摘要】 目的 建立大规模测序方法,并用于造血干/祖细胞(HSPC)基因表达谱的初步识别。方法 从脐血中分离CD34+细胞,构建cDNA文库,对其进行大规模表达序列标签(EST)测序,用生物信息学的方法进行结果分析。结果 在获得的9866条EST中,有意义序列归并为2060个连续克隆,其中1054个为已知基因,1006个为至今尚未被公共数据库公布的新基因片段。1054个已知基因根据功能分为八个大类:①造血相关的73个;②染色体结构及细胞分裂相关的91个;③细胞信号传导相关的111个;④细胞结构/运动相关的48个;⑤细胞和机体防御相关的41个;⑥基因表达(转录、翻译及加工)相关的265个;⑦代谢相关的192个;⑧未分类的233个。结论 获得了HSPC表达的1054个已知基因和1006个新基因片段构成的初步基因表达谱,为进一步深入研究造血基因表达调控和克隆新基因奠定了基础。
, http://www.100md.com
Exploration of gene expression profiles of CD34+ hematopoietic stem/progenitor cells based on large scale sequencing
WU Jisheng, ZHANG Qinghua, YE Min, et al.
(Key Laboratory for Human Genome Research and Shanghai Institute of Hematology, Ruijin Hospital, Shanghai Second Medical University, Shanghai 200025,China)
【Abstract】 Objective To set up a large scale sequencing system and explore the gene expression profiles of CD34+ hematopoietic stem/progenitor cells (HSPCs). Methods CD34+ cells were isolated from umbilical cord blood and subjected to cDNA library construction. A primary profile of gene expression in HSPCs was emerged by EST sequencing and bioinformatics analyzing. Results Among 9866 ESTs thus obtained, 7476 meaningful ESTs were clustered into 2060 unique sequence species (USSs), representing 1054 known gene species and 1006 unknown gene fragments. The 1054 known genes were divided into 8 categories: ①hematopoiesis associated:73, ②chromatin structure and cell division/apoptosis:91, ③signal transduction and receptors:111, ④cell structure/mobility:48, ⑤cell/organism defense/homeostasis:41;⑥Gene expression (transcription, translation and modification):265, ⑦metabolism:192;and ⑧unclassified:233. Conclusion A gene expression profile including 1054 known genes and 1006 new gene fragments of HSPCs was primarily obtained, which may lay a basis for the further study on the molecular mechanism of hematopoiesis regulation and provide candidates for new gene cloning.
, 百拇医药
【Key words】 Hematopoietic stem cell; Sequencing analysis; Gene expression profile; Computational biology
造血干细胞(hematopoietic stem cells, HSC)是人体造血组织中能自我更新、又能分化产生各种类型终末血细胞的一类细胞[1]。干细胞分裂形成的早期祖细胞(hematopoietic progenitor cells, HPCs)对称性有丝分裂,边增殖边分化。由于造血干/祖细胞(HSPC)的永久重建造血作用,以及在骨髓移植和基因治疗中的应用,其生物学功能研究备受重视。HSPC的生物学特性主要决定于特异性基因的表达及表达水平。而cDNA文库测序所产生的大量cDNA序列片段,即表达序列标签(expressed sequence tags, EST)[2],在生物信息学方法的辅助下,对于一个给定的组织可进行基因表达谱的评价[3],并可比较不同组织或细胞之间许多基因的转录水平[4,5]。鉴于HSPC表面表达特征CD34抗原[6],我们收集和分选来自人脐血的CD34+细胞,采用大规模cDNA测序的方法进行HSPC的基因表达谱研究。
, 百拇医药
材料和方法
1 细胞分选及cDNA文库构建 取新鲜脐血,Ficoll分离单个核细胞(MNC),经MACS磁珠细胞分选仪(Miltenyi Biotec, Germany)2次分离和纯化CD34+细胞后,用TRIZOLLS试剂(Gibco/BRL)抽提总RNA。选用Clontech公司的CapFinder系统提供的试剂,并改进构建cDNA文库,用1~2μg总RNA进行聚合酶链反应(PCR),共20~24个循环。cDNA克隆入ZAPⅡ载体(Stratagene)。
2 模板制备及测序反应 文库经in vivo excision由噬菌体转变为pBluescript Ⅱ质粒。随机挑取在涂有X-gal及IPTG的LB培养基平板上生长的白色菌落,用REAL prep 96 plasmid试剂盒(QIAGEN, Hilden, Germany)大规模制备质粒模板。测序反应在9600 PCR仪(Perkin Elmer)上进行,采用PE公司推荐的反应条件,测序试剂为-21M13 For 或M13Rev引物的Dye引物循环测序试剂盒(Perkin Elmer公司产品)。
, 百拇医药
3 自动测序 用ABI 377 DNA自动测序仪(Perkin Elmer公司产品)进行测序。测序胶为含0.5mol/L脲的50g/L聚丙烯酰胺凝胶(FMC),胶长36cm,电泳液为1×TBE缓冲液(pH 8.3)。收集时间为7h。
4 测序结果的生物信息学分析
4.1 使用的软硬件:计算机硬件有Sun Ultra Enterprise 150工作站及多台Macintosh或PC电脑作为终端。软件有测序仪配套的Data Collection、Sequence Analysis以及Factura等软件,前两者可自动收集信号并生成相应的文本和图形文件;后者可对设定的vector序列及不清晰序列(无法识别的碱基N大于3%)进行识别和去除,从而得到可供分析的序列。FETCH和PCNFS软件可实现工作站与终端之间的快速数据传递;基因分析软件主要采用GCG软件包(Genetic Computer Group, Version 9.0)提供的BLAST、FASTA等程序。
, http://www.100md.com
4.2 数据的分析:将可读片段大于100bp的序列传到工作站,建立无重复序列的数据库。新测的序列用FASTA判定已被测序重复克隆及部分重叠序列。用BLAST软件将测序得到的EST与GCG包装的GenBank及dbEST数据库比较,判定所得到的EST是否为公共数据库收录的已知基因,或已被测序过的EST。判断标准为包括N在内,在连续100bp范围内,完全相同的碱基不少于95%。
4.3 已知基因的分类及染色体定位:对已知基因的部分EST,参考已有的文献资料,根据基因的功能,将它们分为8个类别[7,8],并且根据对应基因的GenBank登录号,在UniGene的数据库(因特网网址为http://www.ncbi.nlm.nih.gov/UniGene)中进行查询,可得到大部分基因的染色体定位和表达该基因的组织(电子Northern)情况。
结果
1 经两次MACS分选后,CD34+细胞被富集大约50倍,纯度可达95%~99%,且干/祖细胞特性保持完好[9]。
, http://www.100md.com
2 cDNA文库 滴度为(0.2~0.5)×106pfu/ml,蓝白斑克隆的比例约1∶1,插入的片段多数为0.6~2.5kb,平均为1.2kb。
3 EST测序结果 随机挑取12523个克隆,测序后产生9866个可供初步分析的EST序列。测序成功率为78.8%。经与最新的GenBank公共数据库比较,已知基因部分含5377个EST;非已知基因中有已知EST及全新的EST,共2099个克隆;另外2390个为线粒体DNA、核糖体RNA、Alu等重复序列,短片段或无插入片段、以及引物多聚体等无意义序列。
4 已知基因的分类、分布及表达水平
4.1 根据基因已知的生物学功能,将测序识别的已知基因分为8个大的类别(表1)。它们的基因名称、克隆拷贝数以及染色体定位、电子Northern等详细资料可查阅国家基因组南方研究中心网页(http://shgc.stn.sh.cn)。
, 百拇医药
表1 已知基因的分类和分布 基因分类
基因种类
基因拷贝数
G1 造血相关
73
297
G2 细胞分裂/凋亡
91
431
G3 受体和信号传递
111
358
, http://www.100md.com G4 细胞结构/运动
48
256
G5 细胞/机体的防御/自稳
41
241
G6 基因表达调节/修饰
265
2171
G7 新陈代谢
192
841
G8 未分类
, 百拇医药
233
782
合计
1054
5377
从目前的已知基因种类和EST数量看,表达较多的是与基因表达、代谢相关的类别,这和已经报道的从其它组织中所得到的EST数据库的情形类似。测序到的拷贝数的多少可以反映该基因在细胞中的相对表达水平,在1054个已知基因中,51个基因的拷贝数超过20,被认为属于高表达,而非已知基因中仅有4个属于高表达(见表2),这和其它组织的情况也一致,被认为是一些管家基因[7,10]。绝大多数种类都属于低拷贝基因(EST数量为1~5),而非已知基因低表达基因的比例更高。表2 EST表达的拷贝数分布 拷贝数
已知基因种类
, http://www.100md.com
非已知基因的EST种类
>20
51
4
6~20
131
51
1~5
872
951
合计
1054
1006
, 百拇医药
4.2 造血相关基因的分类:在已知基因中,和造血有关的有73个(见表3),并由所得EST的数量反映出它们的表达水平。根据功能还可进一步把它们分成下列几个不同的类别:分化抗原相关基因,细胞因子相关基因,受体和信号传递相关基因,转录相关基因,调节淋系分化、红系分化、粒系分化及巨核细胞分化相关基因等。表3 造血相关的已知基因EST分布 基因分类
拷贝数
基因库
登录号
基因分类
拷贝
数
基因库
登录号
, 百拇医药
分化抗原相关基因
CD31
2
M37780
受体及信号传递相关基因
CD34
1
S53910
BCR
1
U07000
CD37
, 百拇医药
1
X14046
Fc-ε受体γ链
4
M33195
CD44
1
L05424
FcERIγ链
1
L03533
CD53
, 百拇医药
16
L11670
造血祖细胞激酶(HPK1)
1
U66464
CD59
1
M84349
IgE受体β链
1
M89796
CD69
, 百拇医药
2
Z22576
IgG Fc受体hFcRn
3
U12255
CDw52
16
X67699
白细胞介素2受体γ链
14
D11086
CD45
, 百拇医药
1
M23483
淋巴结归巢受体
2
M25280
CD43
3
X52075
尿激酶型纤溶酶原受体
3
U09937
BMPG
2
, 百拇医药
X65787
转录调节相关基因
DC组织相容性Ⅱ类抗原α链
1
X00452
AF1q
3
U16954
造血蛋白聚糖核心蛋白
1
X17042
GATA-2
, 百拇医药 1
S72871
HLA Ⅱ类SB-3β链
8
X03027
NF-E2
2
S77763
HLA-DR
5
V00523
STAT5
2
, 百拇医药
L41142
HLA-DR相关稳定链(p33)
11
X00497
淋系分化相关基因
HLA-DR重链羧基末端
2
J00200
噬周期素(cyclophilin)(T细胞)
12
Y00052
HLA-DR α链
, http://www.100md.com
4
M60334
免疫球蛋白重链可变区V3-9P(IGHV@)
1
M99651
HLA-F
1
X17093
κ轻链
1
X96754
LPAP蛋白
1
, 百拇医药
X81422
ω轻链蛋白14.1(IgI)
4
M34513
HEM-1
1
M58285
RAG2
1
M94633
HLA-DPw4bβ链
1
, 百拇医药
M21886
T细胞受体γ V区5
1
X69383
HLAⅡ类SB β链
5
K00409
T细胞受体β链(胚胎系)
1
U66061
鸡B复合物同源的MHC蛋白
24
, 百拇医药
M24194
胚系T细胞受体γ链(TCRGC2)
1
M15007
pII-beta-3
1
X00699
T细胞受体β链引导蛋白(V-β8.1)
1
Y00797
RING6
1
, 百拇医药
X62744
红系分化相关基因
Ia相关稳定链(CD74)
10
M13560
A-γ珠蛋白
3
V00514
Leu-8
2
M13560
β珠蛋白
, 百拇医药
12
V00497
LAM-1
5
M32414
血红蛋白γ珠蛋白(HBG2)
25
M15386
HS1
1
X16663
粒系分化相关基因
细胞因子相关基因
, 百拇医药
防御素,早幼粒及中幼粒细胞表达
2
X13621
AIF-1
5
U49392
白三烯A-4水解酶
1
J03459
促血管生成素1
1
U83508
髓过氧化物酶
, 百拇医药
5
M19507
IK因子
1
S74221
噬中性粒细胞明胶酶相关lipocalin
14
X83006
白细胞介素2
1
X67285
巨核系分化相关基因
, 百拇医药 巨噬细胞炎症蛋白(G0S19-1)
5
M23452
血小板活化因子已酰水解酶IBγ-亚单位
6
D63391
单核细胞趋化蛋白3(MCP-3)
1
X72309
其它
单核细胞产生的中性髓细胞活化蛋白(IL-8)
2
, http://www.100md.com
M26383
B4-2蛋白
4
U03105
NKEFA
5
L19184
Ⅱ型纤溶酶原激活因子抑制物
1
A10352
NKEFB
1
L19185
, 百拇医药
推测的细胞因子21(HC21)
4
X16166
讨 论
作为人类基因组计划(HGP)的组成部分,系统地分析转录单位已成为结构基因组学和功能基因组学之间的重要桥梁之一[11]。尽管dbEST的数量已经非常庞大,由于细胞来源的限制,造血特异的组织、细胞,特别是CD34+干/祖细胞来源的EST仍然很有限。根据对HSPC测序所得的1054个已知基因的分析,与造血相关的基因中,分化相关的表面抗原都为早期的抗原,而系列分化特异的表面抗原如成熟T细胞的CD3、CD4、CD8和B细胞的CD19、CD20等却没有发现,说明我们用于建立文库的CD34+细胞未受到脐血中成熟的单个核细胞的污染。一些细胞因子和受体的表达,提示这类早期细胞具有多重的信号调节网络,如GATA-2是与红系造血发育特异相关的转录因子[12],而两种白血病染色体易位累及的AF-1q、BCR在CD34+细胞也有表达,提示AF-1q、BCR可能参与细胞的分化。淋巴细胞特异的RAG2、Ig、TCR-β、TCR-γ表达,说明CD34+细胞群中含有淋巴细胞的前体[13,14],并且在祖细胞阶段即有Ig、TCR前体mRNA的表达。另外,检测到类似表达水平的γ和β珠蛋白转录本也代表了血红蛋白由HbF向HbA转换的过程[15,16],应该指出,在CD34+细胞群体中,绝大部分为各系列祖细胞成分,因此我们所获得的基因表达谱主要反映祖细胞的基因表达情况,需要与更原始的CD34+CD38-干细胞进行表达谱的比较,也要与各种造血障碍的原始细胞进行表达谱的比较,找出它们之间的差异,以便更好地理解造血调控及有关造血障碍疾病发生的分子基础。
, 百拇医药
由于CD34+细胞在脐血中占MNC的1%左右,骨髓中为3%~5%[14],因而要得到大量CD34+细胞的mRNA,建立经典的cDNA文库是十分困难的,而以PCR为基础的文库构建方法有助于克服这一障碍。对我们的研究结果分析表明,只要条件掌握适当,PCR法给文库带来的冗余性(Redundancy)增加及代表性(Representativity) 偏移等问题能够控制在可接受的范围。被测序列中,已知基因有83%、非已知基因有95%的种类克隆数量在5个以下,可能代表了低表达的一大群基因。
我们对近一万个克隆进行了测序,得到了2060个特定的序列品种,并且文库反映出具有较高表达的多为已知基因,新基因更多为表达较低的类型。对更多的克隆进行测序可望识别更多的基因种类,但要覆盖全部表达量极低和表达范围十分狭窄的基因仍然十分困难。另外,数据库显示的普遍高表达的基因如核糖体蛋白和代谢相关的酶类等在本研究文库中也占大部分,要识别更多的基因,尤其是造血特异的基因,需考虑采用消减文库等方法[3],以便能识别更多的基因种类,获得更加满意的具有指导意义的结果,为进一步研究造血的分子机制和其调控的分子网络奠定基础。
, 百拇医药
基因芯片(chip)、微阵列(array)等都是研究基因表达谱的较为有效的方法[17],对更为原始、细胞数量稀少的CD34+CD38-细胞,采用这些方法可能更有效。但大规模测序可以识别更多的新基因,本研究中识别的329个全新EST(未发表资料),为进一步的新基因克隆提供了材料。
基金项目:国家863高科技项目(102-10-01-02);上海市科委及上海血研所胡应洲基金部分资助
参考文献
1,Morrison SJ, Uchida N, Weissman IL. The biology of hematopoietic stem cells. Annu Rev Cell Dev Biol, 1995, 11:35-71.
, http://www.100md.com
2,Adams MD, Kelley JM, Gocayne JD, et al. Complementary DNA sequencing: expressed sequence tags and human genome project. Science, 1991, 252:1651-1656.
3,Okubo K, Hori N, Matoba R, et al. Large-scale cDNA sequencing for analysis of quantitative and qualitative aspects of gene expression. Nat Genet, 1992, 2:173-179.
4,Adams MD, Kerlavage AR, Fields C, et al. 3400 new expressed sequence tags identify diversity of transcripts in human brain. Nat Genet, 1993, 4:256-267.
, 百拇医药
5,Liew CC, Hwang DM, Fung YW, et al. A catalogue of genes in the cardiovascular system as identified by expressed sequence tags. Proc Natl Acad Sci U S A, 1994, 91:10645-10649.
6,Krause DS, Fackler MJ, Civin CI, et al. CD34: structure, biology, and clinical utility. Blood, 1996, 87:1-13.
7,Adams MD, Kerlavage AR, Fleischmann RD, et al. Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature, 1995, 377:3-174.
, 百拇医药
8,Mao M, Fu G, Wu JS, et al. Identification of genes expressed in human CD34+ hematopoietic stem/progenitor cells by expressed sequence tags and efficient full-length cDNA cloning. Proc Natl Acad Sci U S A, 1998, 95: 8175-8180.
9,石学根,周隽,史桂英,等. 联合使用MACS、FACS分离造血干/祖细胞及其亚群. 中国癌症杂志, 1997,7:195-199.
10,Hwang DM, Dempsey AA, Wang RX, et al. A genome-based resource for molecular cardiovascular medicine: toward a compendium of cardiovascular genes. Circulation, 1997, 96:4146-4203.
, 百拇医药
11,Hieter P, Boguski M. Functional genomics: it′s all how you read it. Science, 1997, 278:601-602.
12,Shivdasani RA, Orkin SH. The transcriptional control of hematopoiesis. Blood, 1996, 87:4025-4039.
13,Jr Bagby GC. Hematopoiesis. In: Stamatoyannopulos G, Nienhuis AW, Majerus PW, et al,(eds). The molecular basis of blood diseases. 2nd, Philadelphia PA: WB Saunders Com, 1994. 71-106.
14,齐淑玲,陈文杰. 骨髓造血功能及超微结构. 见:陈文杰,主编. 血液分子细胞生物学. 北京: 中国医药科技出版社, 1993. 27-43.
, http://www.100md.com
15,Zon LI. Developmental biology of hematopoiesis. Blood, 1995, 86:2876-2891.
16,Morrison SJ, Shah NM, Anderson DJ. Regulatory mechanisms in stem cell biology. Cell, 1997, 88:287-298.
17,Service RF. DNA chips survey an entire genome. Science, 1998, 281:1122.
(收稿日期:1998-11-18), http://www.100md.com
单位:吴济生 张庆华 叶珉 吴昕彦 周隽 傅刚 黄秋花 顾健 余亚平 沈宇 徐淑华 茅矛 陈竺(200025 上海第二医科大学附属瑞金医院、上海血液学研究所,卫生部和上海市人类基因组研究重点实验室);包其郁(温州医学院)
关键词:造血干细胞;序列分析;基因表达;计算生物学
中华血液学杂志000501 【摘要】 目的 建立大规模测序方法,并用于造血干/祖细胞(HSPC)基因表达谱的初步识别。方法 从脐血中分离CD34+细胞,构建cDNA文库,对其进行大规模表达序列标签(EST)测序,用生物信息学的方法进行结果分析。结果 在获得的9866条EST中,有意义序列归并为2060个连续克隆,其中1054个为已知基因,1006个为至今尚未被公共数据库公布的新基因片段。1054个已知基因根据功能分为八个大类:①造血相关的73个;②染色体结构及细胞分裂相关的91个;③细胞信号传导相关的111个;④细胞结构/运动相关的48个;⑤细胞和机体防御相关的41个;⑥基因表达(转录、翻译及加工)相关的265个;⑦代谢相关的192个;⑧未分类的233个。结论 获得了HSPC表达的1054个已知基因和1006个新基因片段构成的初步基因表达谱,为进一步深入研究造血基因表达调控和克隆新基因奠定了基础。
, http://www.100md.com
Exploration of gene expression profiles of CD34+ hematopoietic stem/progenitor cells based on large scale sequencing
WU Jisheng, ZHANG Qinghua, YE Min, et al.
(Key Laboratory for Human Genome Research and Shanghai Institute of Hematology, Ruijin Hospital, Shanghai Second Medical University, Shanghai 200025,China)
【Abstract】 Objective To set up a large scale sequencing system and explore the gene expression profiles of CD34+ hematopoietic stem/progenitor cells (HSPCs). Methods CD34+ cells were isolated from umbilical cord blood and subjected to cDNA library construction. A primary profile of gene expression in HSPCs was emerged by EST sequencing and bioinformatics analyzing. Results Among 9866 ESTs thus obtained, 7476 meaningful ESTs were clustered into 2060 unique sequence species (USSs), representing 1054 known gene species and 1006 unknown gene fragments. The 1054 known genes were divided into 8 categories: ①hematopoiesis associated:73, ②chromatin structure and cell division/apoptosis:91, ③signal transduction and receptors:111, ④cell structure/mobility:48, ⑤cell/organism defense/homeostasis:41;⑥Gene expression (transcription, translation and modification):265, ⑦metabolism:192;and ⑧unclassified:233. Conclusion A gene expression profile including 1054 known genes and 1006 new gene fragments of HSPCs was primarily obtained, which may lay a basis for the further study on the molecular mechanism of hematopoiesis regulation and provide candidates for new gene cloning.
, 百拇医药
【Key words】 Hematopoietic stem cell; Sequencing analysis; Gene expression profile; Computational biology
造血干细胞(hematopoietic stem cells, HSC)是人体造血组织中能自我更新、又能分化产生各种类型终末血细胞的一类细胞[1]。干细胞分裂形成的早期祖细胞(hematopoietic progenitor cells, HPCs)对称性有丝分裂,边增殖边分化。由于造血干/祖细胞(HSPC)的永久重建造血作用,以及在骨髓移植和基因治疗中的应用,其生物学功能研究备受重视。HSPC的生物学特性主要决定于特异性基因的表达及表达水平。而cDNA文库测序所产生的大量cDNA序列片段,即表达序列标签(expressed sequence tags, EST)[2],在生物信息学方法的辅助下,对于一个给定的组织可进行基因表达谱的评价[3],并可比较不同组织或细胞之间许多基因的转录水平[4,5]。鉴于HSPC表面表达特征CD34抗原[6],我们收集和分选来自人脐血的CD34+细胞,采用大规模cDNA测序的方法进行HSPC的基因表达谱研究。
, 百拇医药
材料和方法
1 细胞分选及cDNA文库构建 取新鲜脐血,Ficoll分离单个核细胞(MNC),经MACS磁珠细胞分选仪(Miltenyi Biotec, Germany)2次分离和纯化CD34+细胞后,用TRIZOLLS试剂(Gibco/BRL)抽提总RNA。选用Clontech公司的CapFinder系统提供的试剂,并改进构建cDNA文库,用1~2μg总RNA进行聚合酶链反应(PCR),共20~24个循环。cDNA克隆入ZAPⅡ载体(Stratagene)。
2 模板制备及测序反应 文库经in vivo excision由噬菌体转变为pBluescript Ⅱ质粒。随机挑取在涂有X-gal及IPTG的LB培养基平板上生长的白色菌落,用REAL prep 96 plasmid试剂盒(QIAGEN, Hilden, Germany)大规模制备质粒模板。测序反应在9600 PCR仪(Perkin Elmer)上进行,采用PE公司推荐的反应条件,测序试剂为-21M13 For 或M13Rev引物的Dye引物循环测序试剂盒(Perkin Elmer公司产品)。
, 百拇医药
3 自动测序 用ABI 377 DNA自动测序仪(Perkin Elmer公司产品)进行测序。测序胶为含0.5mol/L脲的50g/L聚丙烯酰胺凝胶(FMC),胶长36cm,电泳液为1×TBE缓冲液(pH 8.3)。收集时间为7h。
4 测序结果的生物信息学分析
4.1 使用的软硬件:计算机硬件有Sun Ultra Enterprise 150工作站及多台Macintosh或PC电脑作为终端。软件有测序仪配套的Data Collection、Sequence Analysis以及Factura等软件,前两者可自动收集信号并生成相应的文本和图形文件;后者可对设定的vector序列及不清晰序列(无法识别的碱基N大于3%)进行识别和去除,从而得到可供分析的序列。FETCH和PCNFS软件可实现工作站与终端之间的快速数据传递;基因分析软件主要采用GCG软件包(Genetic Computer Group, Version 9.0)提供的BLAST、FASTA等程序。
, http://www.100md.com
4.2 数据的分析:将可读片段大于100bp的序列传到工作站,建立无重复序列的数据库。新测的序列用FASTA判定已被测序重复克隆及部分重叠序列。用BLAST软件将测序得到的EST与GCG包装的GenBank及dbEST数据库比较,判定所得到的EST是否为公共数据库收录的已知基因,或已被测序过的EST。判断标准为包括N在内,在连续100bp范围内,完全相同的碱基不少于95%。
4.3 已知基因的分类及染色体定位:对已知基因的部分EST,参考已有的文献资料,根据基因的功能,将它们分为8个类别[7,8],并且根据对应基因的GenBank登录号,在UniGene的数据库(因特网网址为http://www.ncbi.nlm.nih.gov/UniGene)中进行查询,可得到大部分基因的染色体定位和表达该基因的组织(电子Northern)情况。
结果
1 经两次MACS分选后,CD34+细胞被富集大约50倍,纯度可达95%~99%,且干/祖细胞特性保持完好[9]。
, http://www.100md.com
2 cDNA文库 滴度为(0.2~0.5)×106pfu/ml,蓝白斑克隆的比例约1∶1,插入的片段多数为0.6~2.5kb,平均为1.2kb。
3 EST测序结果 随机挑取12523个克隆,测序后产生9866个可供初步分析的EST序列。测序成功率为78.8%。经与最新的GenBank公共数据库比较,已知基因部分含5377个EST;非已知基因中有已知EST及全新的EST,共2099个克隆;另外2390个为线粒体DNA、核糖体RNA、Alu等重复序列,短片段或无插入片段、以及引物多聚体等无意义序列。
4 已知基因的分类、分布及表达水平
4.1 根据基因已知的生物学功能,将测序识别的已知基因分为8个大的类别(表1)。它们的基因名称、克隆拷贝数以及染色体定位、电子Northern等详细资料可查阅国家基因组南方研究中心网页(http://shgc.stn.sh.cn)。
, 百拇医药
表1 已知基因的分类和分布 基因分类
基因种类
基因拷贝数
G1 造血相关
73
297
G2 细胞分裂/凋亡
91
431
G3 受体和信号传递
111
358
, http://www.100md.com G4 细胞结构/运动
48
256
G5 细胞/机体的防御/自稳
41
241
G6 基因表达调节/修饰
265
2171
G7 新陈代谢
192
841
G8 未分类
, 百拇医药
233
782
合计
1054
5377
从目前的已知基因种类和EST数量看,表达较多的是与基因表达、代谢相关的类别,这和已经报道的从其它组织中所得到的EST数据库的情形类似。测序到的拷贝数的多少可以反映该基因在细胞中的相对表达水平,在1054个已知基因中,51个基因的拷贝数超过20,被认为属于高表达,而非已知基因中仅有4个属于高表达(见表2),这和其它组织的情况也一致,被认为是一些管家基因[7,10]。绝大多数种类都属于低拷贝基因(EST数量为1~5),而非已知基因低表达基因的比例更高。表2 EST表达的拷贝数分布 拷贝数
已知基因种类
, http://www.100md.com
非已知基因的EST种类
>20
51
4
6~20
131
51
1~5
872
951
合计
1054
1006
, 百拇医药
4.2 造血相关基因的分类:在已知基因中,和造血有关的有73个(见表3),并由所得EST的数量反映出它们的表达水平。根据功能还可进一步把它们分成下列几个不同的类别:分化抗原相关基因,细胞因子相关基因,受体和信号传递相关基因,转录相关基因,调节淋系分化、红系分化、粒系分化及巨核细胞分化相关基因等。表3 造血相关的已知基因EST分布 基因分类
拷贝数
基因库
登录号
基因分类
拷贝
数
基因库
登录号
, 百拇医药
分化抗原相关基因
CD31
2
M37780
受体及信号传递相关基因
CD34
1
S53910
BCR
1
U07000
CD37
, 百拇医药
1
X14046
Fc-ε受体γ链
4
M33195
CD44
1
L05424
FcERIγ链
1
L03533
CD53
, 百拇医药
16
L11670
造血祖细胞激酶(HPK1)
1
U66464
CD59
1
M84349
IgE受体β链
1
M89796
CD69
, 百拇医药
2
Z22576
IgG Fc受体hFcRn
3
U12255
CDw52
16
X67699
白细胞介素2受体γ链
14
D11086
CD45
, 百拇医药
1
M23483
淋巴结归巢受体
2
M25280
CD43
3
X52075
尿激酶型纤溶酶原受体
3
U09937
BMPG
2
, 百拇医药
X65787
转录调节相关基因
DC组织相容性Ⅱ类抗原α链
1
X00452
AF1q
3
U16954
造血蛋白聚糖核心蛋白
1
X17042
GATA-2
, 百拇医药 1
S72871
HLA Ⅱ类SB-3β链
8
X03027
NF-E2
2
S77763
HLA-DR
5
V00523
STAT5
2
, 百拇医药
L41142
HLA-DR相关稳定链(p33)
11
X00497
淋系分化相关基因
HLA-DR重链羧基末端
2
J00200
噬周期素(cyclophilin)(T细胞)
12
Y00052
HLA-DR α链
, http://www.100md.com
4
M60334
免疫球蛋白重链可变区V3-9P(IGHV@)
1
M99651
HLA-F
1
X17093
κ轻链
1
X96754
LPAP蛋白
1
, 百拇医药
X81422
ω轻链蛋白14.1(IgI)
4
M34513
HEM-1
1
M58285
RAG2
1
M94633
HLA-DPw4bβ链
1
, 百拇医药
M21886
T细胞受体γ V区5
1
X69383
HLAⅡ类SB β链
5
K00409
T细胞受体β链(胚胎系)
1
U66061
鸡B复合物同源的MHC蛋白
24
, 百拇医药
M24194
胚系T细胞受体γ链(TCRGC2)
1
M15007
pII-beta-3
1
X00699
T细胞受体β链引导蛋白(V-β8.1)
1
Y00797
RING6
1
, 百拇医药
X62744
红系分化相关基因
Ia相关稳定链(CD74)
10
M13560
A-γ珠蛋白
3
V00514
Leu-8
2
M13560
β珠蛋白
, 百拇医药
12
V00497
LAM-1
5
M32414
血红蛋白γ珠蛋白(HBG2)
25
M15386
HS1
1
X16663
粒系分化相关基因
细胞因子相关基因
, 百拇医药
防御素,早幼粒及中幼粒细胞表达
2
X13621
AIF-1
5
U49392
白三烯A-4水解酶
1
J03459
促血管生成素1
1
U83508
髓过氧化物酶
, 百拇医药
5
M19507
IK因子
1
S74221
噬中性粒细胞明胶酶相关lipocalin
14
X83006
白细胞介素2
1
X67285
巨核系分化相关基因
, 百拇医药 巨噬细胞炎症蛋白(G0S19-1)
5
M23452
血小板活化因子已酰水解酶IBγ-亚单位
6
D63391
单核细胞趋化蛋白3(MCP-3)
1
X72309
其它
单核细胞产生的中性髓细胞活化蛋白(IL-8)
2
, http://www.100md.com
M26383
B4-2蛋白
4
U03105
NKEFA
5
L19184
Ⅱ型纤溶酶原激活因子抑制物
1
A10352
NKEFB
1
L19185
, 百拇医药
推测的细胞因子21(HC21)
4
X16166
讨 论
作为人类基因组计划(HGP)的组成部分,系统地分析转录单位已成为结构基因组学和功能基因组学之间的重要桥梁之一[11]。尽管dbEST的数量已经非常庞大,由于细胞来源的限制,造血特异的组织、细胞,特别是CD34+干/祖细胞来源的EST仍然很有限。根据对HSPC测序所得的1054个已知基因的分析,与造血相关的基因中,分化相关的表面抗原都为早期的抗原,而系列分化特异的表面抗原如成熟T细胞的CD3、CD4、CD8和B细胞的CD19、CD20等却没有发现,说明我们用于建立文库的CD34+细胞未受到脐血中成熟的单个核细胞的污染。一些细胞因子和受体的表达,提示这类早期细胞具有多重的信号调节网络,如GATA-2是与红系造血发育特异相关的转录因子[12],而两种白血病染色体易位累及的AF-1q、BCR在CD34+细胞也有表达,提示AF-1q、BCR可能参与细胞的分化。淋巴细胞特异的RAG2、Ig、TCR-β、TCR-γ表达,说明CD34+细胞群中含有淋巴细胞的前体[13,14],并且在祖细胞阶段即有Ig、TCR前体mRNA的表达。另外,检测到类似表达水平的γ和β珠蛋白转录本也代表了血红蛋白由HbF向HbA转换的过程[15,16],应该指出,在CD34+细胞群体中,绝大部分为各系列祖细胞成分,因此我们所获得的基因表达谱主要反映祖细胞的基因表达情况,需要与更原始的CD34+CD38-干细胞进行表达谱的比较,也要与各种造血障碍的原始细胞进行表达谱的比较,找出它们之间的差异,以便更好地理解造血调控及有关造血障碍疾病发生的分子基础。
, 百拇医药
由于CD34+细胞在脐血中占MNC的1%左右,骨髓中为3%~5%[14],因而要得到大量CD34+细胞的mRNA,建立经典的cDNA文库是十分困难的,而以PCR为基础的文库构建方法有助于克服这一障碍。对我们的研究结果分析表明,只要条件掌握适当,PCR法给文库带来的冗余性(Redundancy)增加及代表性(Representativity) 偏移等问题能够控制在可接受的范围。被测序列中,已知基因有83%、非已知基因有95%的种类克隆数量在5个以下,可能代表了低表达的一大群基因。
我们对近一万个克隆进行了测序,得到了2060个特定的序列品种,并且文库反映出具有较高表达的多为已知基因,新基因更多为表达较低的类型。对更多的克隆进行测序可望识别更多的基因种类,但要覆盖全部表达量极低和表达范围十分狭窄的基因仍然十分困难。另外,数据库显示的普遍高表达的基因如核糖体蛋白和代谢相关的酶类等在本研究文库中也占大部分,要识别更多的基因,尤其是造血特异的基因,需考虑采用消减文库等方法[3],以便能识别更多的基因种类,获得更加满意的具有指导意义的结果,为进一步研究造血的分子机制和其调控的分子网络奠定基础。
, 百拇医药
基因芯片(chip)、微阵列(array)等都是研究基因表达谱的较为有效的方法[17],对更为原始、细胞数量稀少的CD34+CD38-细胞,采用这些方法可能更有效。但大规模测序可以识别更多的新基因,本研究中识别的329个全新EST(未发表资料),为进一步的新基因克隆提供了材料。
基金项目:国家863高科技项目(102-10-01-02);上海市科委及上海血研所胡应洲基金部分资助
参考文献
1,Morrison SJ, Uchida N, Weissman IL. The biology of hematopoietic stem cells. Annu Rev Cell Dev Biol, 1995, 11:35-71.
, http://www.100md.com
2,Adams MD, Kelley JM, Gocayne JD, et al. Complementary DNA sequencing: expressed sequence tags and human genome project. Science, 1991, 252:1651-1656.
3,Okubo K, Hori N, Matoba R, et al. Large-scale cDNA sequencing for analysis of quantitative and qualitative aspects of gene expression. Nat Genet, 1992, 2:173-179.
4,Adams MD, Kerlavage AR, Fields C, et al. 3400 new expressed sequence tags identify diversity of transcripts in human brain. Nat Genet, 1993, 4:256-267.
, 百拇医药
5,Liew CC, Hwang DM, Fung YW, et al. A catalogue of genes in the cardiovascular system as identified by expressed sequence tags. Proc Natl Acad Sci U S A, 1994, 91:10645-10649.
6,Krause DS, Fackler MJ, Civin CI, et al. CD34: structure, biology, and clinical utility. Blood, 1996, 87:1-13.
7,Adams MD, Kerlavage AR, Fleischmann RD, et al. Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature, 1995, 377:3-174.
, 百拇医药
8,Mao M, Fu G, Wu JS, et al. Identification of genes expressed in human CD34+ hematopoietic stem/progenitor cells by expressed sequence tags and efficient full-length cDNA cloning. Proc Natl Acad Sci U S A, 1998, 95: 8175-8180.
9,石学根,周隽,史桂英,等. 联合使用MACS、FACS分离造血干/祖细胞及其亚群. 中国癌症杂志, 1997,7:195-199.
10,Hwang DM, Dempsey AA, Wang RX, et al. A genome-based resource for molecular cardiovascular medicine: toward a compendium of cardiovascular genes. Circulation, 1997, 96:4146-4203.
, 百拇医药
11,Hieter P, Boguski M. Functional genomics: it′s all how you read it. Science, 1997, 278:601-602.
12,Shivdasani RA, Orkin SH. The transcriptional control of hematopoiesis. Blood, 1996, 87:4025-4039.
13,Jr Bagby GC. Hematopoiesis. In: Stamatoyannopulos G, Nienhuis AW, Majerus PW, et al,(eds). The molecular basis of blood diseases. 2nd, Philadelphia PA: WB Saunders Com, 1994. 71-106.
14,齐淑玲,陈文杰. 骨髓造血功能及超微结构. 见:陈文杰,主编. 血液分子细胞生物学. 北京: 中国医药科技出版社, 1993. 27-43.
, http://www.100md.com
15,Zon LI. Developmental biology of hematopoiesis. Blood, 1995, 86:2876-2891.
16,Morrison SJ, Shah NM, Anderson DJ. Regulatory mechanisms in stem cell biology. Cell, 1997, 88:287-298.
17,Service RF. DNA chips survey an entire genome. Science, 1998, 281:1122.
(收稿日期:1998-11-18), http://www.100md.com