基于模糊支持向量机的膜蛋白折叠类型预测(1)
摘 要:现有的基于支持向量机(support vector machinc,SVM)来预测膜蛋白折叠类型的方法,利用的蛋白质序列特征并不充分,并且在处理多类蛋白质分类问题时存在不可分区域,针对这两类问题,提取蛋白质序列的氨基酸和二肽组成特征,并计算加权的多阶氨基酸残基指数相关系数特征,将3类特征融和作为分类器的输入特征矢量,并采用模糊SvM(fuzzy SvM,FSVM)算法解决对传统SVM不可分数据的分类,在无冗余的数据集上测试结果显示,改进的特征提取方法在相同分类算法下预测性能优于已有的特征提取方法;FSvM在相同特征提取方法下性能优于传统的SVM,二者相结合的分类策略在独立性数据集测试下的预测精度达到96.6%,优于现有的多种预测方法,能够作为预测膜蛋白和其它蛋白质折叠类型的有效工具。
关键词:模糊支持向量机;跨膜蛋白;折叠类型;氨基酸残基指数
中图分类号:Q617 文献标识码:A 文章编号:1007-7847(2007)104-0306-05
, 百拇医药
膜蛋白是生物膜功能的主要体现者,根据跨膜区片段的折叠类型的不同,整合膜蛋白可以分为两种主要的折叠类型:α螺旋跨膜蛋白(transmembrane α-heucal protcins,TMHs)和β-筒型跨膜蛋白(transmembrane β-barrel proteins,TMBs),TMHs几乎存在于所有类型的细胞膜中,其跨膜区为具有强疏水特性的残基构成的螺旋段,TMHs担负着多种多样的功能,包括把营养物质和一些无机电解质输入细胞,而将有毒的或无用的代谢产物排出细胞,以及参与细胞膜内外信号的传递等作用,TMBs发现于革兰氏阴性细菌、线粒体和叶绿体的外膜,由8~22条β折叠链通过反平行排列构成类似于桶状的跨膜结构,TMBs同样具有重要的生物功能,如非特异性调控、组成运输离子和小分子的通道、控制分子(如麦芽糖、蔗糖分子)通过外膜、参与构成电位调控型阴离子通道等等,这两类跨膜蛋白具有不同的结构模体,但是同样都处于脂质环境,这使得它们结构特征不同于那些具有全0螺旋或者全β结构的球状蛋白(Globular Proteins,GPs)。
, 百拇医药
近年来,一些基于生物信息学手段预测膜蛋白折叠类型方法被提出来,这些方法多数利用了蛋白质的一级序列特征(如氨基酸组成)以及物理化学性质,比如跨膜区的疏水性和两极性,基于对已知结构的蛋白质序列的氨基酸组成的统计分析,或者机器学习方法如神经网络(neuralnetwork,NN)、隐马尔可夫模型(hiddenMarkov models,HMM),k最近邻(k-nearestneighbors,K-NN)以及支持向量机(supportvector machines,SVM)等,这些方法的缺点是所利用的蛋白质序列特征都比较简单,缺少对各种特征的综合利用,另外,基于SVM的预测方法虽然在测试中显示出了超过其它机器学习方法的预测性能,但都是用于解决一个两类问题(如识别TMHs和非7MHs),在解决多类问题时(如同时识别TMHs、TMBs和GPs的问题),容易出现分类盲区,也就是说,当一些输入样本不能被确切的定义为属于某一类时,传统的SVM对此缺乏很好的解决手段,为了解决这个问题,一些研究者先后提出了不同形式的模糊支持向量机(fuzzy supportvector machine,FSVM),从而较好的解决了传统SVM的这个局限。
, http://www.100md.com
本文针对在其它蛋白质折叠类型中识别TMHs和TMBs的多类分类问题,提出了一种蛋白质序列的组合特征计算方法,通过计算蛋白质序列的多类特征,采取合适的加权手段将这些特征组合,并采用FSVM作为分类器,解决了传统SVM的分类盲区问题,有效提高了预测性能。
1 数据与方法
1.1 数据集
我们采用了由Gromiha和Suwa收集的一个包含1318条蛋白质数据的数据集,包括7MBs(377条)、TMHs(267条)和GPs(674条)3大类蛋白质数据,其中两类膜蛋白数据从PSORT-B数据库中筛选而来;GPs数据从PDB40D_1.37数据库中筛选而来,其折叠类型包括155条全α、156条全β、184条α+β和179条α/β,Park等人采用CD-HIT程序(httP://bioinform aries.org/cd-hit/)对数据集中序列相似度进行了分析,去除了序列相似度大于40%的冗余序列,最后得到的数据集组成如下:TMBs (208条),TMHs(206条),GPs(673条,其中155条全α、156条全β、183条α+β和179条α/β),为便于描述,我们称之为MCPl087数据集,该非冗余数据集可以从下列网址下载:http://www.cbrc.ip/~gromiha/omp/dataset2.html。
, 百拇医药
1.2 序列特征提取
这里,我们提出了一种由3类特征组合的蛋白质序列描述方法,这3类特征是:氨基酸组成、二肽组成以及加权的氨基酸指数相关系数特征。20种氨基酸的组成特征通过下列公式计算:
其中f(i)表示第i种氨基酸残基的含量,N1表示序列中第i种氨基酸的数量,N表述序列的氨基酸残基总数,这样得到一个20维的特征矢量,二肽组成通过下列公式计算:
这里,Nij表示序列中氨基酸对(二肽)ij的数量,总共得到400种二肽含量特征,即一个400维的特征矢量。
为了计算加权指数相关系数,首先将蛋白质序列映射为数值序列,假设一条蛋白质序列由N个氨基酸残基构成,则可表示为:R1,R2…,Ri,…,RN,其中,Rj表示第i个位置的氨基酸残基,利用氨基酸的某一种物理化学指数(如疏水值、极性等)将蛋白质序列映射为数值序列:h1,h2,…,hi,…,hL,其中,hi对应于Ri的指数值。
其中,ψ为相关系数特征的阶数,ψ