用身高和体重数据进行性别分类的实验报告剖析

上传人:我** 文档编号:113109806 上传时间:2019-11-08 格式:DOCX 页数:10 大小:270.36KB
返回 下载 相关 举报
用身高和体重数据进行性别分类的实验报告剖析_第1页
第1页 / 共10页
用身高和体重数据进行性别分类的实验报告剖析_第2页
第2页 / 共10页
用身高和体重数据进行性别分类的实验报告剖析_第3页
第3页 / 共10页
用身高和体重数据进行性别分类的实验报告剖析_第4页
第4页 / 共10页
用身高和体重数据进行性别分类的实验报告剖析_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《用身高和体重数据进行性别分类的实验报告剖析》由会员分享,可在线阅读,更多相关《用身高和体重数据进行性别分类的实验报告剖析(10页珍藏版)》请在金锄头文库上搜索。

1、用身高和体重数据进行性别分类的实验报告一:基本要求1、利用K-L变换进行特征提取。2、在正态分布假设下估计概率密度,建立最小错误率Bayes分类器。3、试验直接设计线性分类器的方法,与基于概率密度估计的贝叶斯分类器进行比较。二、实验数据训练样本:FAMALE.TXT(50个女同学的身高与体重数据) MALE.TXT(50个男同学的身高与体重数据)测试样本:Text1.TXT(35个同学的身高与体重数据,其中20个男同学,15个女同学) Text2.TXT(300个同学的身高与体重数据,其中250个男同学,50个女同学)3、 具体做法1、不考虑类别信息对整个样本集进行K-L变换(即PCA),并将

2、计算出的新特征方向表示在二维平面上,考察投影到特征值最大的方向后男女样本的分布情况并用该主成分进行分类。2、利用类平均向量提取判别信息,选取最好的投影方向,考察投影后样本的分布情况并用该投影方向进行分类。3、采用身高和体重数据作为特征,在正态分布假设下估计概率密度,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。在分类器设计时可以考察采用不同先验概率(如0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1等)进行实验,考察对决策和错误率的影响。4、用Fisher线性判别方法求分类器,将该分类器应用到训练和测试

3、样本,考察训练和测试错误情况。将训练样本和求得的决策边界画到图上,同时把以往用Bayes方法求得的分类器也画到图上,比较结果的异同。4、 原理简述及程序框图1.不考虑类别信息对整个样本集进行K-L变换(1)读入female.txt 和male.txt 两组数据,组成一个样本集。计算样本均值向量和协方差 (2)计算协方差阵特征值和特征向量(3)选取特征值最大的特征向量作为投影方向(4)选取阈值进行判断2.利用类平均向量提取判别信息来进行K-L变换(1)读入female.txt 和male.txt 两组数据,组成一个样本集。分别计算样本均值向量 和协方差 ,及总均值向量 (2)计算类间离散度矩阵S

4、b ( )与类内离散度矩阵Sw( )(3)用 比较分类性能,选取最佳投影方向(4)选取阈值进行判断3.正态分布的监督参数估计:对于多元正态分布,其最大似然估计的结果为: 最小错误率Bayes分类器 判别函数为 其中 , 具体算法步骤如下:第一步将训练样本集数据转为矩阵FA,MA。第二步分别对FA,MA求取协方差,平均值并输入先验概率 第三步将第二步所得数值代入判别函数表达式得。第四步将待测样本集数据转为矩阵T,将T中数值依次代,若,则判断其为第一类,反之,第二类。流程图如下:4. Fisher线性判别方法求分类器首先求各类样本均值向量,及,然后求各个样本的类内离散度矩阵,及,再求出样本的总类内

5、离散度,及,根据公式求出把二维X空间投影到一维Y空间的最好的投影方向。再求出一维Y空间中各类样本均值,其中,本次实验的分界阈值我们用如下方法得到:,最后,将测试样本中的值代入,求出y,并将其与y0来进行比较来分类。流程图如下: 求各类样本均值向量求类内离散度矩阵用公式求最好的变换向量W*二维空间向一维y空间投影一维空间样本均值求取阈值y0决策判断计算各类样本的错误率5、 实验结果及分析总结1. 不考虑类别信息对整个样本集进行K-L变换实验中不考虑类别信息,用FAMALE.TXT和MALE.TXT的数据作为本次实验使用的样本集,建立基于K-L变换的分类器,记录错误率。 特征向量为(0.6269,

6、0.7719)男判为女:10 错误率10%女判为男:4 错误率4%2.利用类均值向量的特征提取实验结果实验中考虑类别信息,用FAMALE.TXT和MALE.TXT的数据作为本次实验使用的样本集,设定男女先验概率分别为0.75和0.25,建立基于K-L变换的分类器,记录分类错误率。 特征向量为(0.6153,0.7883)男判为女:10 错误率10%女判为男:3 错误率3%分析:不考虑类别信息的基于K-L变换的特征提取再分类与Fisher分类器效果差不多(Fisher线性判别方法 男判为女8个 女判为男4个),不过在本次实验中,Fisher判别更胜一筹。考虑类别信息时,分类效果会受到先验概率的影

7、响。3. 最小错误率贝叶斯决策 根据最大似然估计出的男生身高体重均值为173.9200 65.5020 协方差矩阵为女生身高体重均值为 162.8400 52.5960 协方差矩阵为 先验概率P(1)先验概率P(2)样本text1判错个数样本text1错误率样本text2判错个数样本text2错误率0.50.512.86%3210.67%0.250.7538.57%144.67%0.10.9411.43%175.67%由表可知:对于测试样本,当男女先验概率为0.5vs0.5时,测试样本1判别错误率最小;对于测试样本,当男女先验概率为为0.25vs0.75时,测试样本2判别错误率最小; 故可推测用最小错误率Bayes决策,当女生先验概率等于待测样本中女生样本占待测样本的概率时,错误率最小,且越远离此概率,错误率越大。4. 用Fisher线性判别方法求分类器,将分类器应用到训练和测试样本上,比较其错误率。判别对象男生错误个数女生错误个数总错误男生错误率女生错误率总错误率训练样本841216%8%12%测试样本text101106.67%2.86%测试样本text22722910.8%4%9.67%将训练样本和求得的决策边界与先验概率为0.5,0.5的贝叶斯分类器画到图上: 从图中我们可以直观的比较出对训练样本Fisher判别比最大似然Bayes判别效果更好。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号