判别分析建模

上传人:suns****4568 文档编号:88916310 上传时间:2019-05-13 格式:PPT 页数:37 大小:590KB
返回 下载 相关 举报
判别分析建模_第1页
第1页 / 共37页
判别分析建模_第2页
第2页 / 共37页
判别分析建模_第3页
第3页 / 共37页
判别分析建模_第4页
第4页 / 共37页
判别分析建模_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《判别分析建模》由会员分享,可在线阅读,更多相关《判别分析建模(37页珍藏版)》请在金锄头文库上搜索。

1、统计与应用数学学院,STATISTICS & APPLIED MATHEMATICS,判别分析建模方法,李柏年,目 录,一,二,三,四,五,马氏距离判别分析,BAYES判别分析,贴近度判别分析,DNA序列的处理方法,判别分析的误差估计,六,建模实例分析,一,马氏距离判别分析,1.马氏距离:马氏距离是由印度统计学家马哈拉诺比斯(PC Mahalanobis)提出的,由于马氏距离具有统计意义,在距离判别分析时经常应用马氏距离.,(1) 同一总体的两个向量之间的马氏距离,其中 为总体协方差矩阵.,(2) 一个向量到一个总体的马氏距离,MATLAB中有一个命令: Mahal-计算马氏平方距离 请同学们

2、利用 help 学习这个命令,G=1,2,4;4,5,6; mahal(G,G),(3) 两个总体之间的马氏距离,设有两个总体G1,G2,两个总体的均值向量分别为 1, 2协方差矩阵相等,皆为,则两个总体之间的马氏距离为,通常,在判别分析时不采用欧氏距离的原因在于,该距离与量纲有关.,2. 两个总体的马氏距离判别,(1). 两个总体协方差矩阵相等,由于实际问题中只能得到两个样本的协方差矩阵S1,S2,因此当两个总体协方差矩阵相等时如何确定总体的协方差矩阵S ?,其中n1,n2分别为两个样本的容量.,判别步骤:, 计算A、B两类的均值向量与协方差阵;,ma=mean(A),mb=mean(B),

3、S1=cov(A),S2=cov(B), 计算总体的协方差矩阵,其中n1,n2分别为两个样本的容量., 计算未知样本x到A,B两类马氏平方距离之差 d=(x-ma)S-1(x-ma)- (x-mb)S-1(x-mb), 若d0,则x属于B类,例1.现测得6只Apf和9只Af蠓虫的触长,翅长数据 Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00), (1.30,1.96) Af:(1.24,1.72), (1.36,1.74), (1.38,1.64), (1.38,1.82), (1.38,1.90), (1.

4、40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08),若两类蠓虫协方差矩阵相等,试判别以下的三个蠓虫属于哪一类?,(1.24,1.8),(1.28,1.84),(1.4,2.04),图1 Apf与Af蠓虫分布的散点图,解:,apf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;,af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;,x= 1.24,1.8;

5、1.28,1.84; 1.4,2.04;,故三个蠓虫均属Apf.,m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);,S=(5*s1+8*s2)/13;,D =-4.3279 -2.7137 -3.9604,输入:Y是要判别的 样本点,通常是矩阵 X是已知总体的样本,通常是矩阵 输出:d是Y的每个行向量到总体X的马氏距离 的平方,是一个列向量(m行),两个总体的协方差矩阵不等时,有如下判别方法,(2) 两个总体协方差矩阵不相等,例2.对例1若两总体协方差矩阵不等,试判别,解:,apf=1.14,1.78; 1.18,1.96;1.20,1.86;1

6、.26,2.;1.28,2;1.30,1.96;,af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;,x= 1.24,1.8;1.28,1.84; 1.4,2.04;,d=mahal(x,Apf)-mahal(x,Af),若d0,则x属于Af;若d0,则x属于Apf.,Ans: d =1.7611 3.8812 3.6468,故三个蠓虫均属Af.,从例1和例2,发现两个总体的协方差矩阵是否相等,得到的结论可能不同,因此在解决实际问题时,首先要判别两个总体的协

7、方差矩阵是否相等?,对于例1,应用检验程序如下:,n1=6;n2=9;p=2;s=(5*s1+8*s2)/13; Q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1), Q02=(n2-1)*(log(det(s)-log(det(s2)-p+trace(inv(s)*s2),ans: Q01 = 2.5784, Q02 = 0.7418,对 ,查自由度为3的卡方分布,得到临界值为:7.815,(命令为chi2inv(0.95,3),由于 Q017.815,Q027.815,故认为两总体协方差矩阵相同。例1的那种解法更合理?,贝叶斯(Bay

8、es)判别,一,马氏距离判别分析,二,贝叶斯(Bayes)判别,二,贝叶斯公式是一个我们熟知的公式,贝叶斯判别的准则:后验概率最大准则,两个总体的Bayes判别法则为:,两个正态总体的Bayes判别,(1)两个总体协方差矩阵相等的情形,设两总体的协方差矩阵相等为,概率密度函数为:,上式两边取自然对数得,p1f1p2f2 lnp1-0.5d2(x,G1) lnp2-0.5d2(x,G2) ,其中d2(x,Gj)为x到总体Gj(j=1,2) 的马氏距离平方,例3. 用贝叶斯判别蠓虫的步骤,(1) 判别总体的协方差矩阵是否相等,(2) 总体是否服从正态分布,(4) 利用公式编程计算,首先对每个指标进

9、行一元正态分布的检验,若有一个指标不服从正态分布,则总体不服从正态分布;若每个指标都服从一元正态分布,且各指标不相关则总体服从正态分布。,(3) 利用按比例分配方法估计两个总体的先验概率,解:,apf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;,af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;,x= 1.24,1.8;1.28,1.84; 1.4,2.04;,p1=6/(6+9)=0.4

10、; p2=9/(6+9)=0.6;,for i=1:3, d(i,:)=log(0.4)-0.5*(x(i,:)-m1)*inv(S)* (x(i,:)-m1)- (log(0.6)-0.5*(x(i,:)-m2)*inv(S)* (x(i,:)-m2); end,m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);,S=(5*s1+8*s2)/13;,由于d = 1.7585 0.9514 1.5747 全部大于零,即p1f1p2f2,所以待判的三个蠓虫均属于APF,三,贴近度判别分析,三,(1) 建立模糊集合,(2) 计算判别样本对两类总体的贴近

11、度 T(x,G1),T(x,G2),(3) 若T(x,G1)T(x,G2),则x属于G1,该方法留给同学练习,三,四,1. 回代误判与交叉误判率估计,(1) 回代误判率估计,设G1,G2为两个总体,X1,X2,Xm和Y1,Y2,Yn是分别来自G1,G2的训练样本,以全体训练样本作为m+n个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。若属于G1的样品被误判为属于G2的个数为N1个,属于G2的样品被误判为属于G1的个数为N2个,则误判率估计为: p=(N1+N2)/(m+n),(2)交叉误判率估计 交叉误判率估计是每次剔除一个样品,利用其余的m+n1个训练样本建立判别准则再用所

12、建立的准则对删除的样品进行判别。对训练样本中每个样品都做如上分析,以其误判的比例作为误判率。, 从总体为G1的训练样本开始,剔除其中一个样品,剩余的m1个样品与G2中的全部样品建立判别函数;, 用建立的判别函数对剔除的样品进行判别;, 重复步骤,直到G1中的全部样品依次被删除,又进行判别,其误判的样品个数记为m12, 对G2的样品重复步骤,直到G2中的全部样品依次被删除又进行判别,其误判的样品个数记为n21,(2)交叉误判率估计,apf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96; af=1.24,1.72;1.36,1.74

13、;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;,for i=1:6 B=apf(1:i-1,:) ;apf(i+1:6,:); %剔除apf的i行后剩余样本 end,for i=1:6 B=apf(1:i-1,:) ;apf(i+1:6,:) %剔除apfi行后剩余样本 end,两者区别是什么?,于是交叉误判率估计为:,通常,马氏距离判别与贴近度判别使用回代误判与交叉误判率进行估计。,2. 平均误判概率估计,通常,贝叶斯判别使用平均误判概率进行判别误差估计。,平均误判概率的计算公式,p*=p1p(

14、2|1)+p2p(1|2),其中 分别表示第1(2)类误判为第二(1)类的概率.最终可得:,作业:对于蠓虫判别分别计算回代误判、交叉误判以及平均误判概率.,五,aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg,DNA序列就是由四种碱基对a,c,t,g构成的字符串,对DNA序列的处理,就是要将字符串转化为有用的数据,通常有以下方法:,1. 读取每个碱基对所占的百分比,2. 读取各种三联体所占的百分比,在MATLAB生物工具箱

15、中有很多有用的命令:,Bases = basecount(seq),其中seq是一个DNA序列,放在单引号内,输出是各碱基对 的个数,例如seq=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg; Bases = basecount(seq),Bases = A: 33 C: 19 G: 44 T: 15,Bases.A,Bases.C,Bases.G,Bases.T/sum(Bases.A,Bases.C,Bases.G

16、,Bases.T),ans = 0.2973 0.1712 0.3964 0.1351,对于多个序列读取问题,参见基于MATLAB的数学实验第三章,2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是21世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号