多元统计方法之二－金锄头文库

资源描述

《多元统计方法之二》由会员分享，可在线阅读，更多相关《多元统计方法之二（34页珍藏版）》请在金锄头文库上搜索。

1、判别分析与聚类分析,多元统计方法之二,主讲：何仁斌,实际应用问题,1、蠓虫的分类问题,两种蠓虫Af和Apf，根据它们触角长度和翼长加以区分。假定已知类别的部分样本数据，即 9只Af蠓虫和 6只Apf蠓虫的数据。若给定一只蠓虫，如何正确地区分它属于哪一类？,已知蠓虫类别的数据,未知类别的三个样本数据：（1.24，1.8）、（1.28，1.84）、（1.4，2.04）,2、乳腺癌的诊断问题,通过某种医学手段利用细针穿刺进行采样，可以确定哪些乳房肿瘤为良性（benign）哪些为恶性（malignant）。医学研究发现乳房肿瘤病灶组织的细胞核显微图像的10个量化特征：细胞核直径x1,质地

2、x2,周长x3,面积x4,光滑度x5,紧密度x6,凹陷度x7,凹陷点数x8,对称度x9,断裂度x10。,2、乳腺癌的诊断问题,现需要根据已获得的实验数据建立起一种诊断乳房肿瘤是良性还是恶性的方法。假设已经确诊了500个病例，利用这组数据建立一种分类模型，由此诊断另外69名已做穿刺采样的患者。,3、DNA序列的分类模型,假定已知两组人工已分类的DNA序列（20个已知类别的人工制造的序列），其中序列标号110 为A类，11-20为B类。要求我们从中提取已经分类了的DNA序列片段的特征和构造分类方法，并且还要衡量所用分类方法的好坏，从而构造或选择一种较好的分类方法。测试对象是20个未标明类别的人工序

3、列（标号2140）和182个自然DNA序列。例如A类：,a1=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg; b1=gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt; ,需要进行特征提取，将字符转换成数据。上述两个问题极其相似，都属于分类问题。有关

4、的分类方法有：判别分析、聚类分析、神经网络分析、粗集理论,方法概述,判别分析主成分分析因子分析聚类分析,现代统计分析方法与应用,判别分析,目的：对某一种研究对象的归属作出判断。,例如：在经济学中，根据人均国民收入、人均消费水平、人均住房面积等多种指标去判定一个国家的经济发展程度所属类型（高、中、低等）。,设有k个类别G1，G2，Gk (总体)，对任意样品x，希望建立一个准则能判定它属于哪个总体？,关键是建立什么样的判别准则，判断x的归属问题。要求建立的准则在某中意义下是最优的。例如误判概率最小或错判损失最小等。,判别分析的统计模型描述,待判点,1=（11,12,1p),数据结构,G1,

5、G2,2=（21,22,2p),待判数据的数据结构与G1，G2的数据结构一致。,1、距离判别,X=x1, x2, , xn 1=a1,an, 2=b1,bn d2(x,G1)=(x-1)1-1(x-1) d2(x,G2)=(x-2)2-1(x-2) 其中1，2分别为协方差矩阵,注意：正态性假定,马氏距离,判别规则如下：当w(x)0时，则 xG2 当w(x)0时，则 xG1 当w(x)=0时，则 x待判（线性判别法）,假设1=2= ，可以证明 d2(x,G1)- d2(x,G2)=-2(x-(1+2)/2)-1(1-2) 记为w(x) ，显然 w(x)是x的线性函数。,一般地，,x=1

6、.24,1.8; M1=1.24 1.36 1.38 1.38 1.38 1.4 1.48 1.54 1.56; 1.72 1.74 1.64 1.82 1.9 1.7 1.82 1.82 2.08; M2=1.14 1.18 1.2 1.26 1.28 1.3; 1.78 1.96 1.86 2.0 2.0 1.96; G1=M1; G2=M2; u1=mean(G1); u2=mean(G2); S1=COV(G1); S2=COV(G2); S=(9*S1+6*S2)/15; NS=inv(S); W=-2*(x-(u1+u2)/2)*NS*(u1-u2); if W0 n=2; els

7、e n=1; end n plot(G1(:,1),G1(:,2),*,G2(:,1),G2(:,2),*,x(1),x(2),*),这是蠓虫分类的算例,mcfl.m,mcfl.m,当判别准则提出后，还应该研究其优良性。这里我们主要考虑误判概率。,注意： 1,2 ,1,2往往是未知的，它们可以用各总体的训练样本作估计。,判别准则的评价,判别情况分析,在正态性的假定下，误判概率为图中阴影部分的面积。如何计算？,阈值,阈值点的选择极为重要。注意：如果两个总体靠得很近，则无论用何种办法，误判的概率都很大。,误判率回代估计法,设G1, G2为两个总体，x(1),x(2)分别是来自两个总体的样本，其样

8、本容量分别是n1,n2。以全体训练样本，逐个代入已建立的判别准则中判别其归属，这个过程称为回判。回判结果如下表：,其中n12表示属于G1的样品误判为G2的个数，则总的误判个数为n12+n21。误判率回代估计：,n1,n2,频率,误判率的交叉确认估计,1）从总体G1的容量为n1的训练样本中，剔除其中一个样品,用剩余的n1-1的训练样本和总体G2的n2个训练样本一起建立判别函数； 2）用建立的判别函数对删除的样本作判别； 3）重复以上步骤，直到n1个训练样本依次被剔除，又进行判别，其误判样品个数记为n12*。 4）对总体G2的训练样本重复1）2）3），其误判样品个数为n21*。,2、Fisher判

9、别,判别思想：通过将多维数据投影到某个方向上。投影的原则是将总体与总体之间尽可能分开，再选择合适的判别规则，将待判的样品进行分类判别。,Fisher判别方法的图形解释,蠓虫分类的散点图,m,Af,Apf,Fisher判别方法概述,欲寻找线性函数 y = ax, 使得来自两个总体的数据间的距离大，而来自同一个总体数据间的变异小。可以证明： a=(1- 2) -1, 其中1= 2= ,Af=1.24,1.36,1.38,1.38,1.38,1.4,1.48,1.54,1.56; 1.72,1.74,1.64,1.82,1.90,1.7,1.82,1.82,2.08; Apf=1.14,1.18,

10、1.2,1.26,1.28,1.3; 1.78,1.96,1.86,2.0,2.0,1.96; mu1=mean(Af);mu2=mean(Apf); stdr1=std(Af);stdr2=std(Apf); sr1=zscore(Af);sr2=zscore(Apf); xiefc1=cov(sr1); xiefc2=cov(sr2); sim=0.5*(xiefc1+xiefc2); nsim=inv(sim); a=(mu1-mu2)*nsim m=0.5*(mu1-mu2)*nsim*(mu1+mu2) w=1.24 1.28 1.4;1.8,1.84,2.04; y=a*w plo

11、t(Af(:,1),Af(:,2),o,Apf(:,1),Apf(:,2),*,w(1,:),w(2,:),*);,计算结果： m = -0.2267 y = -0.2371 -0.2356 -0.2716,Af,Apf,聚类分析,基本概念,聚类分析(Cluster Analysis)是研究“物以类聚”的一种方法。根据一批样品的多个观测指标，具体找出能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据，将相似程度较大的样品（指标）聚合为一类。,方法概述,系统聚类法动态聚类法图论聚类法模糊聚类法有序聚类法,2、对指标进行聚类对指标之间的“靠近程度往往用相似系数来刻画。

12、,系统聚类法（Hierarchical Clustering)的计算步骤：,1）计算n个样品两两间的距离dij，记D 2）构造n个类，每个类只包含一个样品； 3）合并距离最近的两类为一新类； 4）计算新类与当前各类的距离；若类的个数等于1，转到5）；否则回3）； 5）画聚类图； 6）决定类的个数和类；,Matlab软件对系统聚类法的实现,cluster 从连接输出(linkage)中创建聚类 clusterdata 从数据集合(x)中创建聚类 dendrogram 画系统树状图 linkage 连接数据集中的目标为二元群的层次树 pdist 计算数据集合中两两元素间的距离(向量) square

13、form 将距离的输出向量形式定格为矩阵形式 zscore 对数据矩阵 X 进行标准化处理,1、T = clusterdata(X, cutoff) 其中X为数据矩阵，cutoff是创建聚类的临界值。即表示欲分成几类。以上语句等价与以下几句命令： Y=pdist(X,euclid) Z=linkage(Y,single) T=cluster(Z,cutoff) 以上三组命令更加灵活，可以自由选择各种方法！,各种命令解释,2、T = cluster(Z, cutoff) 从逐级聚类树中构造聚类，其中Z是由语句likage产生的(n-1)3阶矩阵，cutoff是创建聚类的临界值。,3、 Z =

14、linkage(Y) Z = linkage(Y, method) 创建逐级聚类树，其中Y是由语句pdist产生的n(n-1)/2 阶向量，method表示用何方法，默认值是欧氏距离（single)。有complete最长距离法；average类平均距离；centroid重心法；ward递增平方和等。,4、 Y = pdist(X) Y = pdist(X, metric) 计算数据集X中两两元素间的距离， metric表示使用特定的方法，有欧氏距离euclid 、标准欧氏距离SEuclid 、马氏距离mahal、明可夫斯基距离Minkowski 等,5、 H = dendrogram(Z)

15、 H = dendrogram(Z, p) 由likage产生的数据矩阵z画聚类树状图。P是结点数，默认值是30。,X=7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29; 7.68 50.37 11.35 13.3 19.25 14.59 2.75 14.87; 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76; 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35; 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81; BX=zscore(X); % 标准化数据矩阵 Y=pdist(X) % 用欧氏距离计算两两之间的距离 D=squareform(Y) % 欧氏距离矩阵 Z = linkage(Y) % 最短距离法 T = cluster(Z,3) %等价于 T=clusterdata(X,3) find(T=3) % 第3类集合中的元素 H,T=dendrogram(Z) % 画聚类图,例：一段程序（julei1.m),聚类树状图分析,不同的分类方法有不同的分类效果！,注意,究竟采用哪一种分类好呢？一种方法是根据分类问题本

展开阅读全文