蛋白质-适配体相互作用预测的方法(2)
这两种基于随机森林的预测方法实现了蛋白质-适配体相互作用的有效预测。基于伪氨基酸的随机森林的方法因其较小的特征维度和使用单一的随机森林分类器,其模型的计算复杂度较低,但是由于数据集的不平衡,造成了大小样本的预测准确率的严重失衡。此外,该方法的特征提取较为单一,蛋白质与适配体的结合涉及到多方面的性质,忽略这些关键特征造成特征向量不能有效表征蛋白质与适配体而影响预测效果。而基于多源特征提取策略和集成方法的预测方法因提取了更多的特征以及使用了基于3个随机森林分类器的集成方法,显著地均衡大小样本的预测准确率,但是也增加了预测模型的计算复杂度。此外,将3个平衡的训练子集用于3个机器学习分类器,单个分类器的负样本训练数据较少使得对训练样本的学习不足造成了负样本预测准确率的降低。1.2支持向量机 支持向量机(support vector machines,SVM)[11,12]是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。线性可分即存在一个超平面可以将样本根据类别一分为二,而线性不可分即找不到这个超平面导致支持向量机无法实现分类。核函数的引入使得支持向量机也可以解决高维非线性数据的分类问题。支持向量机具有很好的泛化能力,能有效解决二分类问题,但是不适用于大规模样本和多分类的问题。Yang Q等[13]提出一种基于自动编码[14 ......
您现在查看是摘要页,全文长 5122 字符。