当前位置: 首页 > 期刊 > 《中国医药科学》 > 2020年第22期
编号:119787
机器学习在基因组学中的应用
http://www.100md.com 2020年1月11日 中国医药科学 2020年第22期
监督,1机器学习算法概述,1监督学习,2无监督学习,3强化学习,2机器学习的过程与案例,1数据预处理,2训练与测试,3应用与开发,3未来机器学习在基因组学中的机遇与挑战,4小结
     张劲柏 傅晓宁

    1.海军军医大学药学院天然药物化学教研室,上海 200433;2.解放军联勤保障部队天津康复疗养中心医护处,天津 300110

    机器学习(machine learning)指计算机无需明确的指令或程序设计,可以通过特定算法和统计模型探索数据,进而发现数据隐藏特性的行为[1]。2006年以来,基于大数据分析的需求,以神经网络为代表机器学习策略在从复杂数据中提取特征和学习模式方面显示出巨大的潜力,成为机器学习以及后来的深度学习理论的基础。

    广义上的基因组学,也称为功能基因组学,旨在通过使用基因组规模的测定方法来确定生物体每个基因和功能之间的关系[2]。基因组学的应用包括发现基因型和表型之间的关联[3],发现用于患者分层的生物标志物[4],预测基因的功能以及绘制具有生化活性的基因组区域[5]等。过去的十五年来,随着单细胞测序和高通量筛选的技术和理论的不断创新,使得获取到的各种基因组学数据呈几何式地爆炸增长,人工肉眼筛选或者传统的数学统计方法已经难以处理如此海量的数据[6],引入机器学习是探寻生命科学问题的应有之义。

    1 机器学习算法概述

    机器学习算法根据数据对象有无现成的“标记”(与检测目标相关的判定值),可以分为3大类——监督学习、无监督学习、强化学习,除此以外,在此基础之上还逐渐衍生出半监督强化学习、迁移学习等新兴学习算法,本文主要介绍前三种主流算法。

    1.1 监督学习

    监督学习使用提前设定好某种标记的样本(x1,y1)……(xn,yn)作为训练集,其中x表示输入数据,y表示数据对应的标签,结合机器学习算法构建一个数学模型,求解f(x)→y,直到模型在训练数据上获得期望的精确度,并用该模型来预测未知样本。

    在模型分型上,主要包括2种模型,一类是判别式模型,即对条件概率p(y|x)建立研究模型,常用于对目标“是或否”的判断,如垃圾邮件判定、论文查重等,主要的算法包括随机森林、支持向量机、人工神经网络、邻近算法等;另一类是生成式模型,即对联合概率p(x,y)建立研究模型,可以利用Softmax等算法优化,实现对存在多种结果的可能性预判,如天气预报、物体检测等 ......

您现在查看是摘要页,全文长 8604 字符