当前位置: 首页 > 期刊 > 《分析化学》 > 2002年第5期
编号:10940272
用自适应偏最小二乘回归为药物定量构效关系建模.PDF
http://www.100md.com 颜学峰 陈德钊 胡上序
自适应,加权回归,偏最小二乘回归,含硫苯衍生物,构效关系,建模
第1页

    参见附件(191KB,4页)。

     用自适应偏最小二乘回归为药物定量构效关系建模.PDF

    用自适应偏最小二乘回归为药物定量构效关系建模

    颜学峰 陈德钊3

    胡上序 (浙江大学化工系计算机仿真教研室 ,杭州 310027)

    摘 要 提出了一种自适应偏最小二乘回归(APLSR)方法。对于指定的预测对象 ,APLSR将根据样本在结构

    参数空间中的分布 ,分析它们对预测对象的预报能力 ,自适应地为各个样本分配权值 ,并从样本数据中提取和

    选用 PLS成分 ,从而实施自适应加权 PLSR ,以获得预报性能良好的模型。作者将APLSR应用于含硫苯衍生物

    的QSAR建模 ,取得了令人满意的效果。

    关键词 自适应 ,加权回归 ,偏最小二乘回归 ,含硫苯衍生物 ,构效关系 ,建模

    2001206227收稿;2001212229接受

    本文系国家自然科学基金资助项目(No. 20076041)

    1 引 言

    为药物构效关系(quantitative structure2activity relationship , QSAR)建模 ,已提出了很多方法。有多种

    全局多元线性回归方法1 ,2

    ,鉴于大多数药物的QSAR为非线性的3

    ,因此 ,模型的预报性能不强。有多

    种神经网络方法4

    ,适用于高度非线性体系。但训练费时 ,又有过拟合现象。为此 ,本文拟提出一种自

    适应偏最小二乘回归(adapting partial least square regression , APLSR)方法。

    2 APLSR的原理分析和算法流程

    2. 1 线性回归分析

    设样本容量为 n ,自变量维数为 p ,因变量维数为 q ,则自变量阵 X 为 n ×p ( n > p)维 ,因变量阵 Y

    为 n ×q ( n > q)维。多元线性回归模型的形式为:

    Y = XB + E (1)

    其中 ,B 为需要确定的p×q维参数阵 , E为 n ×q维残差阵。

    当各个样本在建模中处于不同的地位时 ,可用加权回归方法5

    ,则式(1)为:

    WY = WXB + E (2)

    其中 W 为对角权阵 diag( w1 , w2 , …, wn ) ,wi ≥ 0 ( i = 1 ,2 , …, n) 。

    当自变量间可能存在复共线性时 ,可用偏最小二乘回归( PLSR) 方法6。PLS 成分的提取可用

    NIPALS算法7。设 T是前k 个 PLS成分组成的 n ×k 维隐变量阵 ,有:

    T = XU (3)

    回归模型(1)式将变换为:

    Y = TC + E = XUC + E (4)

    其中 U 是p×k 维转换阵; C是k ×q维回归系数阵。在计算出 C与U 后 ,可用下式计算因变量的预报

    值。

    ^y = CT

    UT

    x (5)

    2. 2 自适应偏最小二乘回归

    对于非线性问题,本文提出自适应回归方法。定义样本 xi 与预测对象x

    3

    的相似度为:

    SD3

    i =

    1

    ED 3

    i + 1

    =

    1

    ‖xi - x

    3

    ‖ 2 + 1

    (6)

    其中 ED3

    i 是xi 和x

    3

    之间的欧氏距离。将相似度 SD3

    i

    ( i = 1 ,2 , …, n)从大至小排序 ,样本 xi 的相似度

    序号记为SN 3

    i 。设相似度最大的样本 xmax ,其序号 SN 3

    max = 1 ,显然有1 ≤SN 3

    i ≤n ( i = 1 ,2 , …, n) ,且相似

    第30卷

    2002年5月 分析化学 (FENXI HUAXUE) 研究报告

    Chinese Journal of Analytical Chemistry

    第5期

    536~539度越大的样本 ,在建模中权值越大5。

    依据相似度可以设计为样本分配权值的方案。本文拟采用较为简单易行的方案 ,对样本 xi 分配的

    权值α( xi)为:

    α( xi) =

    1 , SN 3

    i ≤m

    0 , SN 3

    i > m

    (7)

    式中的 m 是一个正整数 ,称其为权值分配的调整参数 ,它将在建模过程中自适应地选定。

    对于(1)式的回归模型 ,其APLSR算法的计算步骤如下:

    (1) 设算法中提取的隐变量(PLS成分)数为 k ,令 k 分别取值为 1 ,2 , …, p ;在每个 k 值下 ,又令调

    整参数 m 分别取值为k + 1 , k + 2 , …, n - 1 ,然后执行以下各步。

    (2) 对于每对确定的 k 和m 值 ,采用交叉验证方法确定模型的预报能力 ,步骤如下:

    a. 选出第 j 个样本 xj

    ( j = 1 ,2 , …, n)为校验样本 ,其余的均为建模样本。

    b. 按式(6)计算 n - 1 个建模样本 xi

    ( i = 1 ,2 , …, j - 1 , j + 1 , …, n)与校验样本 xj 之间的相似度

    SD( j)

    i ,将它们排序 ,得到相应的序号 SN( j)

    i ,进而按式(7)为每个 xi 分配权值α( xi) 。由 α( xi)为对角元

    素 ,组成对角权阵 W。

    c. 对建模样本的自变量阵 X 和因变量阵 Y(不含校验样本)加权处理 ,构成为新的 m ×p 维的自变

    量阵 Xm = WX 和m ×q维的因变量阵 Ym = WY。

    d. 采用NIPALS算法从 Xm 中提取前k 个 PLS成分 ,构成 m ×k 维隐变量阵 Tm , k ,并求出 p×k 维转

    换阵 Um , k。

    e. 对 Tm , k和 Ym 进行最小二乘回归 ,求得 k ×q维回归系数阵 Cm , k。

    f . 计算 xj 的q个因变量的预报值矢量^yj = CT

    m , kUT

    m , k xj ,其第 l 个分量为^yjl。

    当 j 分别取为从1到 n 的所有值时 ,将对每个样本进行一次预报 ,对于每对确定的 m 和 k 值 ,按下

    式计算相应的预报相对误差平方的均值 ,并记为MSCECVm , k :

    MSCECVm , k =

    1

    n ×q 6

    q

    l = 1

    6

    n

    j = 1

    (

    yjl - ^yjl

    yjl)

    2

    (8)

    其中 yjl是因变量阵 Y中的元素 ,即为样本的实际观测值 ......

您现在查看是摘要介绍页,详见PDF附件(191KB,4页)