《数据分析》实验报告三

上传人:ni****g 文档编号:466656668 上传时间:2023-01-16 格式:DOCX 页数:7 大小:20.50KB
返回 下载 相关 举报
《数据分析》实验报告三_第1页
第1页 / 共7页
《数据分析》实验报告三_第2页
第2页 / 共7页
《数据分析》实验报告三_第3页
第3页 / 共7页
《数据分析》实验报告三_第4页
第4页 / 共7页
《数据分析》实验报告三_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《《数据分析》实验报告三》由会员分享,可在线阅读,更多相关《《数据分析》实验报告三(7页珍藏版)》请在金锄头文库上搜索。

1、课程名称数据分析方法课程编口 P实验地点系统建模与仿真实验室SL110实验时间校外指导教师无校内指导教师实验名称实验3距离判别与贝叶斯判别分析评阅人签字成绩实验数据与内容我国山区杲大型化,厂,在厂区及邻近地区挑选有代表性的15个大气取样点,每日4次同时抽取大气样品,测定其中含有的6种气体的浓度,前后共4天,每个取样点每种气体实测16次,计算每个取样点每种气体的平均浓度,数据见表4-8。气体数据对应的污染地区分类见表4-8中最舟-列。现有两个取自该地区的4个气体样本,气体指标见表4-8中后4行,试解决以下问题:1.判别两类总体的协方差矩阵是否相等,然后用马氏距离差别这 4个未知气体样本的污染类别

2、,并计算回代误判率与交叉误判率;若两类息体服从止态分卅,第一类与第二类的先验概率分别为7/15、8/15 ,利用贝叶斯判别样本的污染分类。2.先验概率为多少时,距离判别与贝时斯判别相同?调整先验概率对判别结果的影响是什么?3.对A类与第一我的先验概率分别为7/15、8/15 ,计算误判概率。衰小8大气样品数据表气 体硫化气二灵化疏碳4环疑鬣丙烷环己就污染分及I0. 0560. 0S40.0310.0380, 00B10.02212a 04Q0.0550.1000. 1100.02200. M7 3130. 0500+0740. (Ml0.0480. 007 10.020140. 0450* 0

3、S00.1100. 1000. 025 00.006 315P. Q3B0.1300.0790.1700. 058 00.043250. 0300.】00.0700- 1600. 050 00.046270. 0340. 095C+Q580. 1600. 2000.0四侬)气 体氯破化氢二氧化破4环找瓶西烧环己烷污柒分类80, 0300. 0906 0680,180d 220a 03*1gO.OA40. 0660.029。+32。0.012。4】2100. 0850. 0760. 0190. 3000. 0100, 0402110.0640,0720.0200l25O0. 0280. 0382

4、120. 0540. 0450. 0220. 2800. 0210. 0402uC0. oat)0. 062a 260。 0380. 036214。,0450.0920, 0720. 2000, 0350. 0322isE 069d 0B70. 027a 0500. 089Q. Q211样品】C.0520.0840. 0210. 0370, 007 10, 022待定样品2(. 0410.0550. 1100.1100. 021 00, 007 3特定样品3k 030o. n?0. 072Q1600, 0560. 021待定样品40. 0740.0830. 1050. 10. 020L 000

5、特定*一、实验目的1 .熟练掌握MATLAB件进行距离判别与贝叶斯判别的方法与步骤。2 .掌握判别分析的回代误判率与交叉误判率的编程。3 .掌握贝叶斯判别的误判率的计算。二、实验原理1)在MATLA,进行数据的乎U别分析命令为classify,其调用格式为: class= classify(sample,training,group type )将sample数据的每一行指定到训练集 training 的一个类中。Sample和training 必须具有相同的列数。group向量包含从1到组数的正整数,它指明训练营集中的每一 行属于哪一类。group和training 必须具有 相同的行 数。

6、type是可 选项,选linear 表示总体为多元正态总体,选quadratic 与mahalanobis 。该函数 返回class ,它是一个与sample具有相同行数的向量。Class的每一个元素指定sample 中对应元素的分类。通过计算sample和training 中每一行的马氏距离,classify 函数 决定sample中的每一行属于哪一个分类。2)贝叶斯判别方法步骤第1步,验证两个总体服从二元正态分布;第 2步,检验两个总体的协方差矩阵相 等;估计两个总体的先验概率 p1、p2;利用MATLA颤件计算。3)回代误判率设G1, G2为两个总体,x1,x2和y1,y2是分别来自G1

7、, G2的训练样本,以全体 训练样本作为m+n个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为 回判。回判结果中若属于 G1的样品被误判为属于G2的个数为N1个,属于G2的样品被 误判为属于G1的个数为N2个,则误判估计为:PA= (N1+N2 /(m+n)误判率的回代估计易于计算。但是,pA是由建立判别函数的数据反过来用作评估准 则的数据而得到的。所以有偏,往往比真实误判率小。当训练样本容量较大时,pA可以作为真实误判率的一种估计。4)交叉误判率估计是每次剔除一个样品,利用m+n-1个训练样本建立判别准则,再利用建立的准则对删除的样本进行判别。对每个样品做如上分析,以其误判的比例

8、作为 误判率,步骤;从总体G1的训练样本开始,剔除其中一个样品,剩余的 m-1个样品与G2中的全部样品建立判别函数;用建立的判别函数对剔除的样品进行判别;重复以上步骤,直到G1中的全部样本依次被删除又进行判别,其误判的样品个数记为 N1*;对G2的样品重复以上步骤,直到 G2中的全部样本依次被删除又进行判别,其误判 的样品个数记为N2*。于是交叉误判率估计为:pA*=(Ni*+N2*)/(m+n)5)贝叶斯判别的有效性可以通过平均误判率来确定。判别准则的误判率在一定程度上依赖于所考虑的各总体间的差异程度。各总体间差异越大,就越有可能建立有效的判 别准则。如果各总体间差异很小,做判别分析的意义不

9、大。三、实验步骤输入数据,判别两类总体的协方差阵是否相等,用马氏距离判断判别污染类别,计算 回代误判率与交叉误判率,贝叶斯判别污染分类。四、实验过程原始记录(数据、图表、计算等)1、输入矩阵,计算协方差矩阵是否相等 A=0.0560 0.0840 0.0310 0.0380 0.0081 0.02200.0400 0.0550 0.1000 0.1100 0.0220 0.00730.06900.08700.02700.05000.08900.02100.05200.08400.02100.03700.00710.0220 x=0.052 0.084 0.021 0.037 0.0071 0.

10、0220.04100.05500.11000.11000.02100.00730.03000.11200.07200.16000.05600.02100.07400.08300.10500.19000.02001.0000 G1=A(1:4 7:8 15,:); G2=A(5:6 9:4 15,:); n1=size(G1,1); n2=size(G2,1); n=n1+n2; k=2; p=6; f=p*(p+1)*(k-1)/2; d=(2*pA2+3*p-1)*(1/(n1-1)+1/(n2-1)-1/(n-k)/(6*(p+1)*(k-1); p1=n1/n;p2=n2/n; m1=m

11、ean(G1);m2=mean(G2); s1=cov(G1);s2=cov(G2); s=(n1-1)*s1+(n2-1)*s2)/(n-k); M=(n-k)*log(det(s)-(n1-1)*log(det(s1)+(n2-1)*log(det(s2); T=(1-d)*MT =-44.8237 + 0.9288i C=chi2inv(0.95,f)C =32.6706 if T 、构造判别函数,得由判别结果 for i=1:4w(1)=m1*inv(s)*x(i,:)-1/2*m1*inv(s)*m1+log(p1);w(2)=m2*inv(s)*x(i,:)-1/2*m1*inv(

12、s)*m2+log(p2);for j=1:2if w(j)=max(w)disp(待判样品属于第,num2str(j), 类污染);endendend for k=1:n1待判样品属于第2类污染待判样品属于第2类污染待判样品属于第2类污染待判样品属于第2类污染3、计算回代误判率 n11=0;n22=0; for i=1:n1w1(i,1)=m1*inv(s)*G1(i,:)-1/2*m1*inv(s)*m1+log(p1);w1(i,2)=m2*inv(s)*G1(i,:)-1/2*m2*inv(s)*m2+log(p2);for j=1:2if w1(i,j)=max(w1(i,:)&j=

13、1n11=n11+1;endendend for i=1:n2w2(i,1)=m1*inv(s)*G2(i,:)-1/2*m1*inv(s)*m1+log(p1);w2(i,2)=m2*inv(s)*G2(i,:)-1/2*m2*inv(s)*m2+log(p2);for j=1:2if w2(i,j尸max(w2(i,:)&j=2n22=n22+1;endendend poo=(n11+n22)/(n1+n2)poo =0.10004、计算交叉误判率 N11=0;N22=0;A=G1(1:k-1,k+1:n1,:);N1=length(A(:,1);M1=mean(A,1);s11=cov(A);S1=(N1-1)*s11+(n2-1)*s2)/(N1+n2-k);

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号