用自适应偏最小二乘回归为药物定量构效关系建模.PDF
http://www.100md.com
颜学峰 陈德钊 胡上序
自适应,加权回归,偏最小二乘回归,含硫苯衍生物,构效关系,建模
第1页 |
参见附件(191KB,4页)。
用自适应偏最小二乘回归为药物定量构效关系建模.PDF
用自适应偏最小二乘回归为药物定量构效关系建模
颜学峰 陈德钊3
胡上序 (浙江大学化工系计算机仿真教研室 ,杭州 310027)
摘 要 提出了一种自适应偏最小二乘回归(APLSR)方法。对于指定的预测对象 ,APLSR将根据样本在结构
参数空间中的分布 ,分析它们对预测对象的预报能力 ,自适应地为各个样本分配权值 ,并从样本数据中提取和
选用 PLS成分 ,从而实施自适应加权 PLSR ,以获得预报性能良好的模型。作者将APLSR应用于含硫苯衍生物
的QSAR建模 ,取得了令人满意的效果。
关键词 自适应 ,加权回归 ,偏最小二乘回归 ,含硫苯衍生物 ,构效关系 ,建模
2001206227收稿;2001212229接受
本文系国家自然科学基金资助项目(No. 20076041)
1 引 言
为药物构效关系(quantitative structure2activity relationship , QSAR)建模 ,已提出了很多方法。有多种
全局多元线性回归方法1 ,2
,鉴于大多数药物的QSAR为非线性的3
,因此 ,模型的预报性能不强。有多
种神经网络方法4
,适用于高度非线性体系。但训练费时 ,又有过拟合现象。为此 ,本文拟提出一种自
适应偏最小二乘回归(adapting partial least square regression , APLSR)方法。
2 APLSR的原理分析和算法流程
2. 1 线性回归分析
设样本容量为 n ,自变量维数为 p ,因变量维数为 q ,则自变量阵 X 为 n ×p ( n > p)维 ,因变量阵 Y
为 n ×q ( n > q)维。多元线性回归模型的形式为:
Y = XB + E (1)
其中 ,B 为需要确定的p×q维参数阵 , E为 n ×q维残差阵。
当各个样本在建模中处于不同的地位时 ,可用加权回归方法5
,则式(1)为:
WY = WXB + E (2)
其中 W 为对角权阵 diag( w1 , w2 , …, wn ) ,wi ≥ 0 ( i = 1 ,2 , …, n) 。
当自变量间可能存在复共线性时 ,可用偏最小二乘回归( PLSR) 方法6。PLS 成分的提取可用
NIPALS算法7。设 T是前k 个 PLS成分组成的 n ×k 维隐变量阵 ,有:
T = XU (3)
回归模型(1)式将变换为:
Y = TC + E = XUC + E (4)
其中 U 是p×k 维转换阵; C是k ×q维回归系数阵。在计算出 C与U 后 ,可用下式计算因变量的预报
值。
^y = CT
UT
x (5)
2. 2 自适应偏最小二乘回归
对于非线性问题,本文提出自适应回归方法。定义样本 xi 与预测对象x
3
的相似度为:
SD3
i =
1
ED 3
i + 1
=
1
‖xi - x
3
‖ 2 + 1
(6)
其中 ED3
i 是xi 和x
3
之间的欧氏距离。将相似度 SD3
i
( i = 1 ,2 , …, n)从大至小排序 ,样本 xi 的相似度
序号记为SN 3
i 。设相似度最大的样本 xmax ,其序号 SN 3
max = 1 ,显然有1 ≤SN 3
i ≤n ( i = 1 ,2 , …, n) ,且相似
第30卷
2002年5月 分析化学 (FENXI HUAXUE) 研究报告
Chinese Journal of Analytical Chemistry
第5期
536~539度越大的样本 ,在建模中权值越大5。
依据相似度可以设计为样本分配权值的方案。本文拟采用较为简单易行的方案 ,对样本 xi 分配的
权值α( xi)为:
α( xi) =
1 , SN 3
i ≤m
0 , SN 3
i > m
(7)
式中的 m 是一个正整数 ,称其为权值分配的调整参数 ,它将在建模过程中自适应地选定。
对于(1)式的回归模型 ,其APLSR算法的计算步骤如下:
(1) 设算法中提取的隐变量(PLS成分)数为 k ,令 k 分别取值为 1 ,2 , …, p ;在每个 k 值下 ,又令调
整参数 m 分别取值为k + 1 , k + 2 , …, n - 1 ,然后执行以下各步。
(2) 对于每对确定的 k 和m 值 ,采用交叉验证方法确定模型的预报能力 ,步骤如下:
a. 选出第 j 个样本 xj
( j = 1 ,2 , …, n)为校验样本 ,其余的均为建模样本。
b. 按式(6)计算 n - 1 个建模样本 xi
( i = 1 ,2 , …, j - 1 , j + 1 , …, n)与校验样本 xj 之间的相似度
SD( j)
i ,将它们排序 ,得到相应的序号 SN( j)
i ,进而按式(7)为每个 xi 分配权值α( xi) 。由 α( xi)为对角元
素 ,组成对角权阵 W。
c. 对建模样本的自变量阵 X 和因变量阵 Y(不含校验样本)加权处理 ,构成为新的 m ×p 维的自变
量阵 Xm = WX 和m ×q维的因变量阵 Ym = WY。
d. 采用NIPALS算法从 Xm 中提取前k 个 PLS成分 ,构成 m ×k 维隐变量阵 Tm , k ,并求出 p×k 维转
换阵 Um , k。
e. 对 Tm , k和 Ym 进行最小二乘回归 ,求得 k ×q维回归系数阵 Cm , k。
f . 计算 xj 的q个因变量的预报值矢量^yj = CT
m , kUT
m , k xj ,其第 l 个分量为^yjl。
当 j 分别取为从1到 n 的所有值时 ,将对每个样本进行一次预报 ,对于每对确定的 m 和 k 值 ,按下
式计算相应的预报相对误差平方的均值 ,并记为MSCECVm , k :
MSCECVm , k =
1
n ×q 6
q
l = 1
6
n
j = 1
(
yjl - ^yjl
yjl)
2
(8)
其中 yjl是因变量阵 Y中的元素 ,即为样本的实际观测值 ......
颜学峰 陈德钊3
胡上序 (浙江大学化工系计算机仿真教研室 ,杭州 310027)
摘 要 提出了一种自适应偏最小二乘回归(APLSR)方法。对于指定的预测对象 ,APLSR将根据样本在结构
参数空间中的分布 ,分析它们对预测对象的预报能力 ,自适应地为各个样本分配权值 ,并从样本数据中提取和
选用 PLS成分 ,从而实施自适应加权 PLSR ,以获得预报性能良好的模型。作者将APLSR应用于含硫苯衍生物
的QSAR建模 ,取得了令人满意的效果。
关键词 自适应 ,加权回归 ,偏最小二乘回归 ,含硫苯衍生物 ,构效关系 ,建模
2001206227收稿;2001212229接受
本文系国家自然科学基金资助项目(No. 20076041)
1 引 言
为药物构效关系(quantitative structure2activity relationship , QSAR)建模 ,已提出了很多方法。有多种
全局多元线性回归方法1 ,2
,鉴于大多数药物的QSAR为非线性的3
,因此 ,模型的预报性能不强。有多
种神经网络方法4
,适用于高度非线性体系。但训练费时 ,又有过拟合现象。为此 ,本文拟提出一种自
适应偏最小二乘回归(adapting partial least square regression , APLSR)方法。
2 APLSR的原理分析和算法流程
2. 1 线性回归分析
设样本容量为 n ,自变量维数为 p ,因变量维数为 q ,则自变量阵 X 为 n ×p ( n > p)维 ,因变量阵 Y
为 n ×q ( n > q)维。多元线性回归模型的形式为:
Y = XB + E (1)
其中 ,B 为需要确定的p×q维参数阵 , E为 n ×q维残差阵。
当各个样本在建模中处于不同的地位时 ,可用加权回归方法5
,则式(1)为:
WY = WXB + E (2)
其中 W 为对角权阵 diag( w1 , w2 , …, wn ) ,wi ≥ 0 ( i = 1 ,2 , …, n) 。
当自变量间可能存在复共线性时 ,可用偏最小二乘回归( PLSR) 方法6。PLS 成分的提取可用
NIPALS算法7。设 T是前k 个 PLS成分组成的 n ×k 维隐变量阵 ,有:
T = XU (3)
回归模型(1)式将变换为:
Y = TC + E = XUC + E (4)
其中 U 是p×k 维转换阵; C是k ×q维回归系数阵。在计算出 C与U 后 ,可用下式计算因变量的预报
值。
^y = CT
UT
x (5)
2. 2 自适应偏最小二乘回归
对于非线性问题,本文提出自适应回归方法。定义样本 xi 与预测对象x
3
的相似度为:
SD3
i =
1
ED 3
i + 1
=
1
‖xi - x
3
‖ 2 + 1
(6)
其中 ED3
i 是xi 和x
3
之间的欧氏距离。将相似度 SD3
i
( i = 1 ,2 , …, n)从大至小排序 ,样本 xi 的相似度
序号记为SN 3
i 。设相似度最大的样本 xmax ,其序号 SN 3
max = 1 ,显然有1 ≤SN 3
i ≤n ( i = 1 ,2 , …, n) ,且相似
第30卷
2002年5月 分析化学 (FENXI HUAXUE) 研究报告
Chinese Journal of Analytical Chemistry
第5期
536~539度越大的样本 ,在建模中权值越大5。
依据相似度可以设计为样本分配权值的方案。本文拟采用较为简单易行的方案 ,对样本 xi 分配的
权值α( xi)为:
α( xi) =
1 , SN 3
i ≤m
0 , SN 3
i > m
(7)
式中的 m 是一个正整数 ,称其为权值分配的调整参数 ,它将在建模过程中自适应地选定。
对于(1)式的回归模型 ,其APLSR算法的计算步骤如下:
(1) 设算法中提取的隐变量(PLS成分)数为 k ,令 k 分别取值为 1 ,2 , …, p ;在每个 k 值下 ,又令调
整参数 m 分别取值为k + 1 , k + 2 , …, n - 1 ,然后执行以下各步。
(2) 对于每对确定的 k 和m 值 ,采用交叉验证方法确定模型的预报能力 ,步骤如下:
a. 选出第 j 个样本 xj
( j = 1 ,2 , …, n)为校验样本 ,其余的均为建模样本。
b. 按式(6)计算 n - 1 个建模样本 xi
( i = 1 ,2 , …, j - 1 , j + 1 , …, n)与校验样本 xj 之间的相似度
SD( j)
i ,将它们排序 ,得到相应的序号 SN( j)
i ,进而按式(7)为每个 xi 分配权值α( xi) 。由 α( xi)为对角元
素 ,组成对角权阵 W。
c. 对建模样本的自变量阵 X 和因变量阵 Y(不含校验样本)加权处理 ,构成为新的 m ×p 维的自变
量阵 Xm = WX 和m ×q维的因变量阵 Ym = WY。
d. 采用NIPALS算法从 Xm 中提取前k 个 PLS成分 ,构成 m ×k 维隐变量阵 Tm , k ,并求出 p×k 维转
换阵 Um , k。
e. 对 Tm , k和 Ym 进行最小二乘回归 ,求得 k ×q维回归系数阵 Cm , k。
f . 计算 xj 的q个因变量的预报值矢量^yj = CT
m , kUT
m , k xj ,其第 l 个分量为^yjl。
当 j 分别取为从1到 n 的所有值时 ,将对每个样本进行一次预报 ,对于每对确定的 m 和 k 值 ,按下
式计算相应的预报相对误差平方的均值 ,并记为MSCECVm , k :
MSCECVm , k =
1
n ×q 6
q
l = 1
6
n
j = 1
(
yjl - ^yjl
yjl)
2
(8)
其中 yjl是因变量阵 Y中的元素 ,即为样本的实际观测值 ......
您现在查看是摘要介绍页,详见PDF附件(191KB,4页)。