阿尔茨海默病相关差异表达基因及其生物信息学分析(2)
1 资料与方法
1.1 资料来源
从NCBI公共数据平台基因表达数据库(GEO,http://www.ncbi.nlm.nih.gov/geo)下载AD相关基因芯片数据集GSE28146(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE28146)。该数据集基于GPL570平台采用[HG-U133_Plus_2]Human Genome U133 Plus 2.0 Array阵列芯片(美国Affymetrix公司)检测的30例人海马组织获得,其中对照组8例、AD病例组22例。
1.2 方法
运用GEO2R在线分析工具(https://www.ncbi.nlm.nih.gov/geo/geo2r/?acc=GSE28146)对芯片原始数据进行DEGs的筛选,筛选条件为P<0.05,其中log2FC≥1.0为上调、log2FC<-1.0为下调(式中,“FC”表示AD病例组受试芯片荧光信号强度与对照组相比的差异倍数)[8]。采用GraphPad Prism 5在线软件(https://www.graphpad.com/scientific-software/prism)绘制DEGs火山图。
, http://www.100md.com
利用DAVID 6.8生物信息学资源数据库(https://david.ncifcrf.gov/)对DEGs进行GO分析和KEGG通路富集分析(以Fisher确切概率法计算P值,P<0.05为“显著富集”)[9]。将P值由小到大排序,分列出排序前10位的GO功能族和KEGG信号通路。
通过STRING数据库(https://www.string-db.org/)对筛选所得DEGs进行PPI网络分析,设置“可信度(Confidence)”为0.7;借助Cytoscape 3.2.1软件的“CytoHubba”插件对DEGs编码蛋白的相互作用进行可视化展示。其中,节点表示蛋白,边表示蛋白之间的相互联系,节点度值表示与某节点相连边的数量(其值大小与对应节点在网络中的重要程度成正比),将节点度值排序前3位的基因视为关键核心基因。
2 结果
2.1 DEGs的筛选结果
, 百拇医药
筛选出AD相关DEGs共1 478个,其中上调913个、下调565个。DEGs的火山图见图1。
2.2 DEGs的GO分析及KEGG通路富集分析结果
GO分析结果显示,DEGs主要涉及转录的正/负调节、核因子κB(NF-κB)活性的正调节、Rho蛋白信号转导的调节、颚发育、蛋白质磷酸化的调节、自噬的负调节等生物学功能;DEGs主要分布于细胞质、膜、细胞外隙、高尔基体等细胞组分;DEGs主要涉及蛋白质结合、DNA结合、转录因子活性(序列特异性DNA结合)、蛋白质同源二聚体活性等分子功能,详见图2。
KEGG通路富集分析结果显示,DEGs在癌症途径、肺结核、破骨细胞分化、Janus激酶/信号传导及转录激活因子(JAK/STAT)信号通路、叉头转录因子(FoxO)信号通路、EB(Epstein-Barr)病毒感染、转化生长因子β(TGF-β)等信号通路上显著富集,详见图3。
, http://www.100md.com
2.3 DEGs编码蛋白PPI网络分析结果
DEGs编码蛋白的PPI网络中,共包含节点蛋白1 205个、边3 931条,见图4。其中,节点度值排序前30位蛋白的PPI網络见图5(以基因表示),节点度值排序前3位的基因为SOCS3、NEDD4和CBLB,是网络中的关键核心基因。
3 讨论
近年来,随着生物芯片、高通量测序等现代生物技术的高速发展和生物信息学分析的日益成熟,通过大数据分析,挖掘在疾病发生发展中起主导作用的相关基因,可为疾病发病机制和治疗评价等研究提供新的思路。例如曹丹等[10]采用生物信息学方法分析肝癌相关DEGs,并构建编码蛋白PPI网络,发现TOP2A基因可能是肝癌相关的核心基因;冯晓飞等[11]利用生物信息学方法对骨肉瘤基因表达谱芯片进行分析,从分子水平上初步分析了骨肉瘤的潜在发病机制;许丁文等[12]应用生物信息学方法分析了丝甘蛋白聚糖对卵巢癌耐药性的影响及作用机制。
, 百拇医药
AD作为痴呆的主要原因,是目前全球医疗保健领域最严峻的挑战之一[13]。AD致病机制尚未明确,其发病是多基因、多途径、多步骤、多阶段相互作用和相互影响的复杂过程,尚缺乏有效的诊疗手段,对其早发现、早治疗成为了临床亟待解决的难题[1-4]。为此,本研究应用生物信息学方法,拟初步分析AD发生的潜在分子机制,以期为进一步揭示该症病因提供新的线索,同时为AD治疗新靶点的寻找提供理论依据。
本研究通过生物信息学方法从GEO数据库中搜索得到芯片数据集GSE28146(人脑海马组织,其中健康人脑海马样本8例,AD患者海马样本22例),并对其进行数据挖掘,包括GO分析、KEGG通路富集分析和PPI网络分析。利用GEO2R在线分析工具对该芯片数据进行分析,共筛选出DEGs 1 478个,其中上调913个、下调565个。GO分析结果显示,DEGs主要分布于细胞质、膜、细胞外隙中,主要通过转录的正/负调节、NF-κB活性的正调节、Rho蛋白信号转导的调节、蛋白质磷酸化的调节等生物学功能以及蛋白质结合、DNA结合、转录因子活性(序列特异性DNA结合)等分子功能来诱导AD的发生。KEGG通路富集分析结果显示,DEGs显著富集于癌症途径、肺结核、破骨细胞分化、JAK/STAT信号通路、FoxO信号通路、EB病毒感染等信号通路上。已有研究证实,蛋白质磷酸化[2]、转录调节[14]、NF-κB活性[15]、Rho蛋白信号转导[16]、线粒体自噬[17]等在AD的发生发展中具有重要作用,且TGF-β信号通路[18]、JAK/STAT信号通路[19]、FoxO信号通路[20]及EB病毒感染[21]等信号通路均参与了AD的发生发展,与本文结果基本一致。, http://www.100md.com(徐倩 苏湲淇 谭毅 杨元娟)
1.1 资料来源
从NCBI公共数据平台基因表达数据库(GEO,http://www.ncbi.nlm.nih.gov/geo)下载AD相关基因芯片数据集GSE28146(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE28146)。该数据集基于GPL570平台采用[HG-U133_Plus_2]Human Genome U133 Plus 2.0 Array阵列芯片(美国Affymetrix公司)检测的30例人海马组织获得,其中对照组8例、AD病例组22例。
1.2 方法
运用GEO2R在线分析工具(https://www.ncbi.nlm.nih.gov/geo/geo2r/?acc=GSE28146)对芯片原始数据进行DEGs的筛选,筛选条件为P<0.05,其中log2FC≥1.0为上调、log2FC<-1.0为下调(式中,“FC”表示AD病例组受试芯片荧光信号强度与对照组相比的差异倍数)[8]。采用GraphPad Prism 5在线软件(https://www.graphpad.com/scientific-software/prism)绘制DEGs火山图。
, http://www.100md.com
利用DAVID 6.8生物信息学资源数据库(https://david.ncifcrf.gov/)对DEGs进行GO分析和KEGG通路富集分析(以Fisher确切概率法计算P值,P<0.05为“显著富集”)[9]。将P值由小到大排序,分列出排序前10位的GO功能族和KEGG信号通路。
通过STRING数据库(https://www.string-db.org/)对筛选所得DEGs进行PPI网络分析,设置“可信度(Confidence)”为0.7;借助Cytoscape 3.2.1软件的“CytoHubba”插件对DEGs编码蛋白的相互作用进行可视化展示。其中,节点表示蛋白,边表示蛋白之间的相互联系,节点度值表示与某节点相连边的数量(其值大小与对应节点在网络中的重要程度成正比),将节点度值排序前3位的基因视为关键核心基因。
2 结果
2.1 DEGs的筛选结果
, 百拇医药
筛选出AD相关DEGs共1 478个,其中上调913个、下调565个。DEGs的火山图见图1。
2.2 DEGs的GO分析及KEGG通路富集分析结果
GO分析结果显示,DEGs主要涉及转录的正/负调节、核因子κB(NF-κB)活性的正调节、Rho蛋白信号转导的调节、颚发育、蛋白质磷酸化的调节、自噬的负调节等生物学功能;DEGs主要分布于细胞质、膜、细胞外隙、高尔基体等细胞组分;DEGs主要涉及蛋白质结合、DNA结合、转录因子活性(序列特异性DNA结合)、蛋白质同源二聚体活性等分子功能,详见图2。
KEGG通路富集分析结果显示,DEGs在癌症途径、肺结核、破骨细胞分化、Janus激酶/信号传导及转录激活因子(JAK/STAT)信号通路、叉头转录因子(FoxO)信号通路、EB(Epstein-Barr)病毒感染、转化生长因子β(TGF-β)等信号通路上显著富集,详见图3。
, http://www.100md.com
2.3 DEGs编码蛋白PPI网络分析结果
DEGs编码蛋白的PPI网络中,共包含节点蛋白1 205个、边3 931条,见图4。其中,节点度值排序前30位蛋白的PPI網络见图5(以基因表示),节点度值排序前3位的基因为SOCS3、NEDD4和CBLB,是网络中的关键核心基因。
3 讨论
近年来,随着生物芯片、高通量测序等现代生物技术的高速发展和生物信息学分析的日益成熟,通过大数据分析,挖掘在疾病发生发展中起主导作用的相关基因,可为疾病发病机制和治疗评价等研究提供新的思路。例如曹丹等[10]采用生物信息学方法分析肝癌相关DEGs,并构建编码蛋白PPI网络,发现TOP2A基因可能是肝癌相关的核心基因;冯晓飞等[11]利用生物信息学方法对骨肉瘤基因表达谱芯片进行分析,从分子水平上初步分析了骨肉瘤的潜在发病机制;许丁文等[12]应用生物信息学方法分析了丝甘蛋白聚糖对卵巢癌耐药性的影响及作用机制。
, 百拇医药
AD作为痴呆的主要原因,是目前全球医疗保健领域最严峻的挑战之一[13]。AD致病机制尚未明确,其发病是多基因、多途径、多步骤、多阶段相互作用和相互影响的复杂过程,尚缺乏有效的诊疗手段,对其早发现、早治疗成为了临床亟待解决的难题[1-4]。为此,本研究应用生物信息学方法,拟初步分析AD发生的潜在分子机制,以期为进一步揭示该症病因提供新的线索,同时为AD治疗新靶点的寻找提供理论依据。
本研究通过生物信息学方法从GEO数据库中搜索得到芯片数据集GSE28146(人脑海马组织,其中健康人脑海马样本8例,AD患者海马样本22例),并对其进行数据挖掘,包括GO分析、KEGG通路富集分析和PPI网络分析。利用GEO2R在线分析工具对该芯片数据进行分析,共筛选出DEGs 1 478个,其中上调913个、下调565个。GO分析结果显示,DEGs主要分布于细胞质、膜、细胞外隙中,主要通过转录的正/负调节、NF-κB活性的正调节、Rho蛋白信号转导的调节、蛋白质磷酸化的调节等生物学功能以及蛋白质结合、DNA结合、转录因子活性(序列特异性DNA结合)等分子功能来诱导AD的发生。KEGG通路富集分析结果显示,DEGs显著富集于癌症途径、肺结核、破骨细胞分化、JAK/STAT信号通路、FoxO信号通路、EB病毒感染等信号通路上。已有研究证实,蛋白质磷酸化[2]、转录调节[14]、NF-κB活性[15]、Rho蛋白信号转导[16]、线粒体自噬[17]等在AD的发生发展中具有重要作用,且TGF-β信号通路[18]、JAK/STAT信号通路[19]、FoxO信号通路[20]及EB病毒感染[21]等信号通路均参与了AD的发生发展,与本文结果基本一致。, http://www.100md.com(徐倩 苏湲淇 谭毅 杨元娟)