当前位置: 首页 > 期刊 > 《中国中药杂志》 > 2014年第17期
编号:12645390
支持向量机在中药神经毒性成分筛查中的应用(1)
http://www.100md.com 2014年9月1日 中国中药杂志 2014年第17期
     [摘要]该文通过计算324个神经毒性化合物和235个无神经毒性化合物的物理化学性质、电荷分布及几何结构等特征的6 122个分子描述符,通过CfsSubsetEval评价和BestFirst-D1-N5搜索相结合的方法筛选描述符,利用支持向量机(SVM)构建了化合物神经毒性判别模型。模型的准确率、灵敏度、特异性均在80%以上。以30个确有神经毒性的中药成分作为外部验证集,进一步验证模型准确率,达73.333%。将该模型应用于山豆根神经毒性成分筛查,筛得13个潜在神经毒性化合物,其中4个已有文献验证。实验结果表明该模型具有一定的准确性,有助于开展中药神经毒性成分筛查工作。

    [关键词]支持向量机;中药成分;神经毒性

    神经系统在机体内起主导作用,调节和控制其他系统,维持机体与内外界环境相对平衡,保证生命活动正常进行[1]。中药化学成分在体内发挥药效的同时,也可能会引起不良反应,甚至对神经系统造成损害。山豆根[2]、马钱子[3]和附子[4]等常用中药均有文献报道可致神经毒性。
, http://www.100md.com
    近年来,计算毒理学已用于药物肾毒性[5]和肝毒性[6-9]的研究,应用较多的是定量构效关系(QSAR)[7],以及贝叶斯模型法(Bayesian model)[8]、K最邻近结点算法(kNN)[9]及支持向量机(SVM)[5]等分类方法。该类方法以高效快速的优势缓解了传统动物实验[10-12]耗时费力成本高等问题。本实验针对中药成分母核骨架复杂多样、取代基团种类多等特点,广泛收集样本集化合物,利用支持向量机构建神经毒性判别模型,旨在改善已有研究大多使用结构差异性小的训练集构建判别模型的不足,以拓宽模型应用范围,提高模型筛查中药神经毒性成分的预测精度。

    1 材料与方法

    1.1 数据整理

    1.1.1 数据收集 实验样本集化合物来源如下:以“neurotoxicity”,“neuroroxic”为关键词在TOXNET数据库(http://toxnet.nlm.nih.gov/)检索,选择有致人类神经毒性的化合物或动物实验表明低剂量下有神经毒性的化合物,得到结构差异性较大的324个神经毒性化合物作为阳性集;在Drugbank数据库(http://www.drugbank.ca/)的“approved”分子表单中,删除与神经毒性相关的化合物,再从中随机选取245个化合物作为阴性集,这些化合物之间也并不存在结构相似性。
, 百拇医药
    为提高数据来源的可信度,避免出现重复数据,对上述324个阳性化合物和245个阴性化合物进行如下处理:①组内删重工作,由于搜索时用的关键词不同,所以要删除阳性集中的重复数据;②组间删重工作,即同时删除阳性集和阴性集内的共有数据。最终剩余阳性化合物324个,阴性化合物235个。

    1.1.2 数据集划分 本文采用Kennard-Stone(KS)方法[13]选择训练集和测试集。KS法可以保证训练集中样本按空间距离分布均匀,使训练集具有较好的代表性。保证训练集与测试集的比例为5∶2,训练集中阳性化合物与阴性化合物的比例为3∶2,测试集中阳性化合物与阴性化合物的比例为1∶1。划分结果如下:训练集中阳性化合物245个,阴性化合物156个;测试集中阳性化合物与阴性化合物均为79个。

    1.1.3 筛选分子描述符 化合物的毒性与结构密切相关,其结构可用分子描述符表征。本实验用PowerMV(Version 0.61)对训练集化合物计算了包括物理化学性质、电荷分布、拓扑、分子组成及几何结构等在内的6 122个分子描述符来表征分子结构。
, 百拇医药
    在计算的分子描述符中,有些为低信息量变量和冗余变量。因而,要先对数据进行预处理:去除相对方差小于0.05的分子描述符;若一种描述符的90%以上样本数值相同,则去除。

    用Weka(Version 3.6.10)机器学习平台中的CfsSubsetEval评价方法和BestFirst-D1-N5搜索方法[14],通过十折交叉验证筛选。CfsSubsetEval逐一评估每个描述符的预测能力和它们之间的重复程度,挑选相互之间关联程度较低却与分类有高度关联的描述符;BestFirst-D1-N5通过返回进行贪心式爬山搜索,它可以从一个空的描述符集正向搜索,或从一个满集反向搜索,或从中间的1个点开始并向前后2个方向,通过考虑所有可能的单个描述符加入及删除进行搜索。

    1.2 SVM判别预测模型的建立

    1.2.1 数据归一化处理[15] 对数据进行归一化处理,可统一基本度量单位,消除不同量纲对变量的影响。[0,1]归一化是统一样本的概率分布,[-1,1]归一化则是统一样本的坐标分布。实现数据归一化处理采用以下映射。
, 百拇医药
    Y=(Ymax+Ymix)×(X-Xmin)/(Xmax-Xmin)+Ymin(1)

    X是原始数据,Y是归一化后的数据;Xmax与Xmin分别为原始数据的最大值和最小值,Ymax与Ymin为映射的范围参数。

    SVM以降维后线性划分距离来分类,时空降维归一化统一在[-1,1],因此本文对数据进行[-1,1]归一化处理。另设立不进行归一化的对照组。比较不同数据处理方式所建模型对测试集预测的准确率,选择准确率最高的一种作为本实验的数据处理方式。

    1.2.2 判别模型的建立 支持向量机(support vector machine,SVM)是一种模式识别和分类工具。其基本思想是针对二类分类问题:若要对线性可分的训练集样本实现空间的划分,则需在高维空间中寻找一个最优分类超平面,该超平面应当满足分类间最大化原则;若训练集线性不可分,则利用核函数映射,将输入向量映射到更高维空间,划分阳性样本和阴性样本[15]。关于SVM的原理与算法的详细描述已有文献报道[16]。本实验SVM算法采用台湾大学林智仁(Chih-Jen Lin)提供的网络共享算法libsvm3.1(http://www.csie.ntu.edu.tw/~cjlin.libsvm.), http://www.100md.com(张景芳 蒋芦荻 张燕玲)
1 2 3 4下一页