一种基于类均值的肿瘤基因芯片数据的标准化方法(2)
![]() |
![]() |
![]() |
示,由于C2类所含样本数目明显多于C1类,点S1和点2更接近C2类的样本点,此时,一些原本属于C2类的样本点会被划分到C1类中。
2.2 基于类均值的标准化方法
为了解决上述问题,本文提出了一种基于类均值的标准化方法,具体过程如下:
Step 1:对所有样本Sj,j=1,…,n进行零均值单位方差标准化:
Step 2:将样本聚为k类,Sc11,…,Sc1t1为第一类样本(C1),…,Sck1¨…,Scktk为第k类样本(Ck),其中,C11,…,c1t1,…,Ck1,…,cktk=1,…,n,t1+…tk=n;
Step3:分别计算出每一类样本的中值
称m为类均值,再将每个样本减去m,对基因进行数据中心化的标准化处理,得到新的样本表达值;
Step4:重复Step2和Step3,直到每类中的样本不再改变,或达到预定的迭代次数为止,(注:对基因的标准化也是类似的过程.)
下面以基因芯片样本的两类别聚类为例来说明该方法的有效性 ......
您现在查看是摘要页,全文长 5952 字符。


