关于用主成份分析作综合评价存在的两个问题
作者:王筑娟 吴贤毅 王黎明
单位:王筑娟(贵州工业大学基础部 贵阳550003);吴贤毅(华东师范大学统计系);王黎明(华东师范大学统计系)
关键词:主成份分析;综合评价;特征向量
数理医药学杂志000406
摘 要 在用主成份分析作综合评价时,对取多少个主成份作综合评价及综合得分的合理性上,作者提出了自己的看法,并用特征向量对后者作了进一步分析。
中图分类号: R 311 文献标识码: A
文章编号:1004-4337(2000)04-0298-02
在多指标体系的综合评价中,常使用主成份分析方法,且这方面的文献很多[1~8]。但笔者认为这种方法存在两个问题:一是取多少个主成份作综合评价;二是综合得分的合理性问题。本文对问题一作简要的说明,对问题二中关于特征向量的选取问题,给出了一个较为深刻的分析,并用一个实际例子来阐明这个问题。
, http://www.100md.com
1 用主成份分析做综合评价的方法
设需要评价的指标共P个,记为:
X=(X1,X2,…,Xp)T
其均值为0(即假设已被中心化),协方差矩阵为∑,相关系数矩阵为R。
一般说来可以用R或∑来计算X的主成份分析,不妨只叙述用R来计算的方法(用∑类似)。
更假设X是已经标准化了的,从而R就是X的协方差矩阵。求出R的P个特征值,记为:
λ1≥λ2…≥λp≥0
并设其对应的正则化特征向量矩阵为:
, 百拇医药
L=(L1,L2,…,Lp)
其中RLi=λiLi,i=1,2,…,P,LTL=E。作变换:
Yi=LiX,i=1,2,…,P
即:Y=(Y1 Y2 … YP)T=LTX
则向量Y称为X的主成份,Yi称为第i个主成份。
找前m个主成份Y1,Y2,…,Ym使得
, http://www.100md.com
达到一定的数值(比如≥85%),这m个主成份就以较P为少的指标个数综合体现了P个指标。为进一步综合成一个指标,用主成份Yj的贡献率作为Yj的权。由于是常数,对综合评价并无实质的影响,故将它略去,因此将λj作为Yj的权,对前m个主成份加权求和,得综合评价指标为: (1)
对每个具体的个体,将其各个指标的实测值代入即可得到综合评价值(又称综合得分)。对n个个体,将每个个体计算出相应的综合得分Di,i=1,2,…,n,然后用这些Di进行排序。在实际中,R未知,通常用需要评估的n个个体资料进行估计。
, 百拇医药
2 存在的问题
2.1 关于取m个主成份的问题
在文献中,有的使用所有主成份,有的使用部分主成份(如前述的m个主成份),问题是:为什么不用全体主成份而只使用部分主成份?使用部分主成份的理由一般有两种:一是简化计算;二是消除共线性。但是,我们首先看到这样做的后果是信息含量的损失;其次,使用部分主成份并不能在本质上减少计算量(可以说基本上不影响计算量),从计算的角度来说,不使用全部主成份是不合理的;再者,在综合评价问题中,并不存在共线性的影响问题,因此并不需要取部分主成份。
2.2 关于综合得分的合理性问题
文献[7]已谈到此问题,这里再从数学的角度深入谈论此问题。
令a表示前m个分量为1后P-m个分量为0的P维向量即:
, http://www.100md.com
aT=(1,1,…,1,0,0,…,0)T,m=1,2,…,P,将综合得分公式作如下变换:
故 D=aTLTRX (2)
由(2)式看到,决定综合得分D的量是特征向量集LT。
这是因为当已知样本X时,相关矩阵R也是已知的,所以,对于不同的特征向量矩阵LT,相应地可以得到不同的D值,而这样的LT有2m种选择,特别地,若相关矩阵R的特征方程有重根时,关于LT的选择将会有无穷多种,这样,对同一个问题,选择不同的LT,将会得到不同的评价结果。
, http://www.100md.com
2.3 实例
数据取自文献[3],特征值的计算见文献[3]。在此基础上,我们求出了其相对应的所有可能特征向量,运用(1)或(2)可计算出综合评价值共64组,从中随机选出几组具体的综合评价值,见表1。
表1 几组综合评价结果 地区编号
综合评价1
综合评价2
综合评价3
综合评价4
综合评价5
综合评价6
综合评价7
, http://www.100md.com
综合评价8
1
1.613285
1.613207
0.081517
2.943347
3.272685
3.140785
1.279835
4.141587
2
1.613285
, 百拇医药
1.613207
0.081517
2.943347
3.272685
3.140785
1.279835
4.141587
3
0.883836
0.881739
-0.095970
-1.853800
, http://www.100md.com
-1.825790
1.306171
0.302550
-1.457380
4
-1.610770
-1.626160
-1.182980
-0.810240
-0.915730
-2.010490
-1.446430
, http://www.100md.com
-1.089080
5
0.621682
0.623790
2.291082
0.121090
-0.013650
2.521586
4.321514
2.153630
6
3.872173
, 百拇医药
3.874908
3.920516
3.796908
3.490020
0.305720
0.655481
0.534608
7
-2.980150
-2.972660
-3.342070
-2.054460
, 百拇医药
-2.677180
-2.834160
-2.588340
-1.293240
将综合评价值以地区编号为横轴作图,见图1。
图1 几组综合评价折线图
由图1可见,每条折线代表一组综合评价。由此可以看出随着特征向量选择的不同,综合评价的结果差异很大。
通过以上的理论分析及实例验证,我们认为用(1)作综合评价m应取P;其次对同一个问题,选择不同的LT会得到不同的评价结果。由于实际问题中,所要的结论是未知的,那么怎么知道取哪一组呢?因此我们认为用(1)作综合评价标准,其合理性有待进一步探讨。
, 百拇医药
参 考 文 献
1,程毛林.论主成份分析法在综合评价经济效益中的应用.数理统计与管理,1992,11(2):7~11.
2,韩彦峰.主分量法在高校科研工作综合评估中的应用.数理统计与管理,1995,14(2):1~6.
3,杨善朝等.广西地区经济指标评价.数理统计与管理,1997,16(4):1~4.
4,刘贤龙.我国普通高等教育发展水平的统计分析.数理统计与管理,1998,17(5):1~4.
5,段清堂.主成份分析在《大学生体育合格标准》综合评价中的应用.数理统计与管理,1999,18(2):13~15.
6,吴国富等.多个变量分类和综合的多元分析方法.数理统计与管理,1995,14(6):52~59.
7,阎慈琳.关于主成份分析做综合评价的若干问题.数理统计与管理,1998,17(2):22~25.
8,黄宁.关于主成份分析应用的思考.数理统计与管理,1999,18(5):44~46.
收稿日期:1999-12-21, 百拇医药
单位:王筑娟(贵州工业大学基础部 贵阳550003);吴贤毅(华东师范大学统计系);王黎明(华东师范大学统计系)
关键词:主成份分析;综合评价;特征向量
数理医药学杂志000406
摘 要 在用主成份分析作综合评价时,对取多少个主成份作综合评价及综合得分的合理性上,作者提出了自己的看法,并用特征向量对后者作了进一步分析。
中图分类号: R 311 文献标识码: A
文章编号:1004-4337(2000)04-0298-02
在多指标体系的综合评价中,常使用主成份分析方法,且这方面的文献很多[1~8]。但笔者认为这种方法存在两个问题:一是取多少个主成份作综合评价;二是综合得分的合理性问题。本文对问题一作简要的说明,对问题二中关于特征向量的选取问题,给出了一个较为深刻的分析,并用一个实际例子来阐明这个问题。
, http://www.100md.com
1 用主成份分析做综合评价的方法
设需要评价的指标共P个,记为:
X=(X1,X2,…,Xp)T
其均值为0(即假设已被中心化),协方差矩阵为∑,相关系数矩阵为R。
一般说来可以用R或∑来计算X的主成份分析,不妨只叙述用R来计算的方法(用∑类似)。
更假设X是已经标准化了的,从而R就是X的协方差矩阵。求出R的P个特征值,记为:
λ1≥λ2…≥λp≥0
并设其对应的正则化特征向量矩阵为:
, 百拇医药
L=(L1,L2,…,Lp)
其中RLi=λiLi,i=1,2,…,P,LTL=E。作变换:
Yi=LiX,i=1,2,…,P
即:Y=(Y1 Y2 … YP)T=LTX
则向量Y称为X的主成份,Yi称为第i个主成份。
找前m个主成份Y1,Y2,…,Ym使得
, http://www.100md.com
达到一定的数值(比如≥85%),这m个主成份就以较P为少的指标个数综合体现了P个指标。为进一步综合成一个指标,用主成份Yj的贡献率作为Yj的权。由于是常数,对综合评价并无实质的影响,故将它略去,因此将λj作为Yj的权,对前m个主成份加权求和,得综合评价指标为: (1)
对每个具体的个体,将其各个指标的实测值代入即可得到综合评价值(又称综合得分)。对n个个体,将每个个体计算出相应的综合得分Di,i=1,2,…,n,然后用这些Di进行排序。在实际中,R未知,通常用需要评估的n个个体资料进行估计。
, 百拇医药
2 存在的问题
2.1 关于取m个主成份的问题
在文献中,有的使用所有主成份,有的使用部分主成份(如前述的m个主成份),问题是:为什么不用全体主成份而只使用部分主成份?使用部分主成份的理由一般有两种:一是简化计算;二是消除共线性。但是,我们首先看到这样做的后果是信息含量的损失;其次,使用部分主成份并不能在本质上减少计算量(可以说基本上不影响计算量),从计算的角度来说,不使用全部主成份是不合理的;再者,在综合评价问题中,并不存在共线性的影响问题,因此并不需要取部分主成份。
2.2 关于综合得分的合理性问题
文献[7]已谈到此问题,这里再从数学的角度深入谈论此问题。
令a表示前m个分量为1后P-m个分量为0的P维向量即:
, http://www.100md.com
aT=(1,1,…,1,0,0,…,0)T,m=1,2,…,P,将综合得分公式作如下变换:
故 D=aTLTRX (2)
由(2)式看到,决定综合得分D的量是特征向量集LT。
这是因为当已知样本X时,相关矩阵R也是已知的,所以,对于不同的特征向量矩阵LT,相应地可以得到不同的D值,而这样的LT有2m种选择,特别地,若相关矩阵R的特征方程有重根时,关于LT的选择将会有无穷多种,这样,对同一个问题,选择不同的LT,将会得到不同的评价结果。
, http://www.100md.com
2.3 实例
数据取自文献[3],特征值的计算见文献[3]。在此基础上,我们求出了其相对应的所有可能特征向量,运用(1)或(2)可计算出综合评价值共64组,从中随机选出几组具体的综合评价值,见表1。
表1 几组综合评价结果 地区编号
综合评价1
综合评价2
综合评价3
综合评价4
综合评价5
综合评价6
综合评价7
, http://www.100md.com
综合评价8
1
1.613285
1.613207
0.081517
2.943347
3.272685
3.140785
1.279835
4.141587
2
1.613285
, 百拇医药
1.613207
0.081517
2.943347
3.272685
3.140785
1.279835
4.141587
3
0.883836
0.881739
-0.095970
-1.853800
, http://www.100md.com
-1.825790
1.306171
0.302550
-1.457380
4
-1.610770
-1.626160
-1.182980
-0.810240
-0.915730
-2.010490
-1.446430
, http://www.100md.com
-1.089080
5
0.621682
0.623790
2.291082
0.121090
-0.013650
2.521586
4.321514
2.153630
6
3.872173
, 百拇医药
3.874908
3.920516
3.796908
3.490020
0.305720
0.655481
0.534608
7
-2.980150
-2.972660
-3.342070
-2.054460
, 百拇医药
-2.677180
-2.834160
-2.588340
-1.293240
将综合评价值以地区编号为横轴作图,见图1。
图1 几组综合评价折线图
由图1可见,每条折线代表一组综合评价。由此可以看出随着特征向量选择的不同,综合评价的结果差异很大。
通过以上的理论分析及实例验证,我们认为用(1)作综合评价m应取P;其次对同一个问题,选择不同的LT会得到不同的评价结果。由于实际问题中,所要的结论是未知的,那么怎么知道取哪一组呢?因此我们认为用(1)作综合评价标准,其合理性有待进一步探讨。
, 百拇医药
参 考 文 献
1,程毛林.论主成份分析法在综合评价经济效益中的应用.数理统计与管理,1992,11(2):7~11.
2,韩彦峰.主分量法在高校科研工作综合评估中的应用.数理统计与管理,1995,14(2):1~6.
3,杨善朝等.广西地区经济指标评价.数理统计与管理,1997,16(4):1~4.
4,刘贤龙.我国普通高等教育发展水平的统计分析.数理统计与管理,1998,17(5):1~4.
5,段清堂.主成份分析在《大学生体育合格标准》综合评价中的应用.数理统计与管理,1999,18(2):13~15.
6,吴国富等.多个变量分类和综合的多元分析方法.数理统计与管理,1995,14(6):52~59.
7,阎慈琳.关于主成份分析做综合评价的若干问题.数理统计与管理,1998,17(2):22~25.
8,黄宁.关于主成份分析应用的思考.数理统计与管理,1999,18(5):44~46.
收稿日期:1999-12-21, 百拇医药