基于转录组数据识别结直肠癌的特异性功能模块*
通路,节点,1材料与方法,1数据来源,2筛选差异性表达基因,3构建特异性基因网络,4挖掘网络的特异性功能模块,5功能模块拓扑学属性分析,6KEGG通路富集分析,2结果,1筛选差异性表达基因,2构建特异性基因网络及拓
陈晓琳,许德华,廖苑君,李让,孙胜南,蓝树金,饶绍奇523808 广东 东莞,广东医科大学 公共卫生学院(陈晓琳、许德华、廖苑君、李让、孙胜南、蓝树金),医学系统生物学研究所(陈晓琳、许德华、廖苑君、李让、孙胜南、蓝树金、饶绍奇)
结直肠癌(colorectal cancer,CRC)是常见的消化道恶性肿瘤,为全球第4大致命的癌症(仅次于肺癌、肝癌和胃癌),每年约有90万人死于该疾病[1]。近年来,CRC的发病率和死亡率呈上升趋势,主要原因是现代人饮食习惯和生活方式的改变。据预测,到2030年,全球CRC负担将增加60%,新增病例将超过220万,癌症死亡将超过110万[2]。目前,改善CRC的治疗效果逐渐成为人们关注的重点。尽管CRC的新疗法取得了一定成效,包括原发性疾病的腹腔镜手术,转移性疾病(如肝和肺转移)的切除术,放射治疗与新辅助治疗、姑息化疗[3]。然而,这些新疗法对提高CRC的治愈率和长期生存率还存在一定的局限性,CRC的5年生存率仍很低。因此,揭示CRC的病因与发病机制对其预防和治疗具有重要意义。
近年来,大量研究利用生物信息学方法在分子水平上进行数据挖掘,为研究各种疾病的致病机制提供新思路。迄今为止,分析基因表达谱数据已被证明有助于更好地探究疾病的发病机制、辅助临床诊断和判断药物疗效,尤其在癌症中已经确定了许多生物学过程和疾病的分子基础[4]。为此,本研究通过收集GEO数据库中CRC芯片数据集,利用大规模的转录组数据分析与CRC致病相关的特异性功能模块和核心基因,并对各功能模块进行通路富集分析,为进一步阐明CRC的病因、发病机制及预后提供重要依据。
1 材料与方法
1.1 数据来源
从基因表达综合GEO数据库(https://www.ncbi.nlm.nih.gov/gds/)中按照以下标准获取CRC的基因芯片数据集:1)以“colorectal”为关键词检索与CRC相关的转录组基因芯片;2)选择物种为“Homo sapiens”、研究类型为“expression profiling by array”两个过滤条件进一步筛选数据;3)最后选定实验设计符合病例对照研究类型并且病例组织样本数均大于30的基因芯片。最终获取CRC的4个基因芯片数据集:GSE44076(98病例+50对照)、GSE21815(132病例+9对照)、GSE9348(70病例+12对照)、GSE8671(32病例+32对照)。
1.2 筛选差异性表达基因
本研究利用在线分析工具GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r/)分别筛选4个芯片数据集的差异表达基因(differentially expressed genes ......
您现在查看是摘要页,全文长 14770 字符。