基于支持向量机的枯草杆菌启动子预测方法
第6页 |
第1页 |
参见附件(558KB,8页)。
杜耀华 倪青山 王正志 国防科技大学机电工程与自动化学院 国防科技大学机电工程与自动化学院 国防科技大学机电工程与自动化学院
【摘要】启动子预测是研究基因转录调控的重要环节,但现有算法的预测正确率偏低.在深入分析启动子生物特征的基础上,提出了一种基于支持向量机的枯草杆菌启动子预测算法,在启动子序列的组成特征、信号特征和结构特征中选取9种典型特征作为预测的依据,对于信号特征,除了利用保守模式的一致序列,还考虑了间隔距离的分布信息.首先通过特征描述模型分别计算每种特征在启动子序列和非启动子序列中的得分,将特征得分组合成9维特征向量,再利用支持向量机在特征向量集上进行训练和判别.对实际数据集进行的刀切法测试验证了算法的有效性.对σA启动子的预测,平均正确率达到了90.7%;对几种其它σ因子启动子的预测,平均正确率也超过了80%.算法不但有广泛的适用性,还有良好的可扩展性,能够方便的容纳新特征,使识别性能不断提高.
【关键词】 枯草杆菌 启动子预测 组合特征 支持向量机 刀切法
【基金】国家自然科学基金资助项目(60471003)
【分类号】Q933
枯草杆菌是革兰氏阳性菌中具有代表性的模式生物.随着全基因组序列测序的完成,研究基因之间的调控关系,进而构建表达调控网络已经成为可能.启动子作为RNA聚合酶结合的靶序列,对转录起始有调节和控制作用,直接决定着基因表达过程是否开始以及在什么条件下开始.因此,启动子的预
------
摘 要:启动子预测是研究基因转录调控的重要环节,但现有算法的预测正确率偏低。在深入分析启动子生物特征的基础上,提出了一种基于支持向量机的枯草杆菌启动子预测算法,在启动子序列的组成特征、信号特征和结构特征中选取9种典型特征作为预测的依据,对于信号特征,除了利用保守模式的一致序列,还考虑了间隔距离的分布信息。首先通过特征描述模型分别计算每种特征在启动子序列和非启动子序列中的得分,将特征得分组合成9维特征向量,再利用支持向量机在特征向量集上进行训练和判别。对实际数据集进行的刀切法测试验证了算法的有效性。对σA启动予的预测,平均正确率达到了90.7%;对几种其它σ因子启动子的预测,平均正确率也超过了80%。算法不但有广泛的适用性,还有良好的可扩展性,能够方便的容纳新特征,使识别性能不断提高。
关键词:枯草杆菌;启动子预测;组合特征;支持向量机;刀切法
中图分类号:Q527
文献标识码:A
文章编号:1007—7847(2005)04—0319—08
您现在查看是摘要介绍页,详见PDF附件(558KB,8页)。