一种基于类均值的肿瘤基因芯片数据的标准化方法

一种基于类均值的肿瘤基因芯片数据的标准化方法(2)

http://www.100md.com 2007年9月1日《生命科学研究》 2007年第3期

     示，由于C₂类所含样本数目明显多于C₁类，点S₁和点₂更接近C₂类的样本点，此时，一些原本属于C₂类的样本点会被划分到C₁类中。

    2.2 基于类均值的标准化方法

    为了解决上述问题，本文提出了一种基于类均值的标准化方法，具体过程如下：

    Step 1：对所有样本S_j，j=1，…，n进行零均值单位方差标准化：

    Step 2：将样本聚为k类，S_c11，…，S_c1t1为第一类样本(C₁)，…，S_ck1¨…，S_cktk为第k类样本(C_k)，其中，C₁₁，…，c₁t₁，…，C_k1，…，c_kt_k=1，…，n，t₁+…t_k=n；

    Step3：分别计算出每一类样本的中值

    称m为类均值，再将每个样本减去m，对基因进行数据中心化的标准化处理，得到新的样本表达值；

    Step4：重复Step2和Step3，直到每类中的样本不再改变，或达到预定的迭代次数为止，(注：对基因的标准化也是类似的过程.)

    下面以基因芯片样本的两类别聚类为例来说明该方法的有效性 ......

上一页第 1 2 页

百拇医药网 http://www.100md.com/html/paper/1007-7847/2007/03/04-1.htm

您现在查看是摘要页，全文长 5952 字符。