贝叶斯分类仿真数学统计模型决策实验

资源描述

《贝叶斯分类仿真数学统计模型决策实验》由会员分享，可在线阅读，更多相关《贝叶斯分类仿真数学统计模型决策实验（7页珍藏版）》请在金锄头文库上搜索。

1、实验一贝叶斯分类仿真实验1 引言贝叶斯定理用数学家Thoms Bayes命名的，他是18世纪概率论和决策论的早期研究者。贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策就是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。1.1 贝叶斯决策基本思想贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想：已知类条件概率密度参数表达式和先验概率；利用贝叶斯公式转换成后验概率；根据后验概率大小进行决策分类。1.2 贝叶斯公式设H1，H2，H为样本空间S的一个划分，如果以P(Hj)表示事件Hi发生的概率，

2、且P(Hj)0(j=1，2，n)。对于任一事件X,P(X)0，则贝叶斯公式如下：P(Hj|X)=P(X|Hj)P(Hj)/ 2 基于最小错误率贝的叶斯决策2.1 对于贝叶斯公式的深入理解对于引言中贝叶斯的公式，可能大家对P(H|X)与P(X|H)的区别是什么等问题存在疑问，下面我们就来深入理解该公式,X是一个元组，假设其中可以分成M类，M的先验概率是P(H)，而P(X|H)则被我们看成是概率密度函数对于待归类的样品，贝叶斯可以计算出属于M类中各个类的概率大小，看X属于那个类的可能性大，就把他归属为那一类。先验概率针对M个出现的可能性而言的，不考虑任何其他的条件。例如，有统计资料表明出产产品总数

3、为N，其中合格品为N1，不合格品为N2，P(H1)=N1/N，P(H2)=N2/N。我们可以看到，这两者都可以事先计算出来。但是如果我们只有先验概率是不够的，假设我们生产的产品是N1多于N2，那么我们得到的概率就是合格的可能性大于不合格的可能性，故我们只能把所有的产品都判断为合格，因为合格的概率大一些，但这样的结果并没有让我们把不合格的产品分离出来，这就表明我们仅从先验概率来进行分类识别是不够的，我们还需要更多的初始信息。于是我们引进了类条件概率密度。类条件概率密度类条件概率密度P(X|Hj)是指在已知的特征空间中，出现特征值的概率密度，指的是Hj类样品其属性X 是怎么样分布的。后验概率后验概

6、)/P(X)，由全概率公式P(X)= P(X|Hj)P(Hj)，其中M为类别个数。在取得一个特征X之后，在特征X的条件下，看哪个概率最大，就应该把X归于概率最大的那个类。因此对于任一模式X，可以通过比较各个判别函数来确定X的类别。P(Hi)P(X|Hi)= P(Hj)P(X|Hj)；XHi, i=1,2,3,M使用什么样的原则可以做到错误概率最小呢？前提就是要知道一样品分属于不同类别的可能性，表示成P(Hj|X)，然后计算后验概率最大的类来分类，这样就是错误最小的方式。3 基于最小风险的贝叶斯决策前面我们讨论了最小错误的贝叶斯决策，但是，是不是在任何情况下都使用基于最小错误的贝叶斯决策才是最

7、佳的呢？实际情况不是这样的，比如对于药品的检测，对于药品生产商而言，大部分的药品都是合格的，只有少数的不合格。如果我们把正常药品判断成异常药品，样会增加总的错误率，给企业带来一些损失；但如果把异常药品判断成正常药品，虽然会使错误率最小，但病人可能会被使用不合格的药品，对治疗非常不利，甚至会使得病人耽误治疗，乃至于有生命危险。可见这时使用错误率最小是不合适的。我们用下图进一步说，大家会看得更清楚。从上面我们发现，单纯的考虑后验概率的最小错误率，会带来更多的损失和风险，为了体现这种风险，对贝叶斯公式进行加权修正，表示成Ri(X)=(i ,j)P(Hj|X)，其中i代表将X判为Hi类的决策，(i,

8、j)表示观测样品X实际属于Hj,由于采用i决策而被判为Hj时所造成的损失；Ri则表示观测X 被判别为i 类时的损失均值；例如从前面的例子，(1,2)表示X 确实是异常药品，但采取决策1被判定为正常，则会有损失(1,2)；(2,1)表示X 确实是正常药品，但采取决策2被判定为异常。为了基于风险考虑我们会把损失函数的(1,2)的值大于(2,1)，因为前者的风险更大。基于最小风险也就是要寻找Ri(i|X)的最小值，并以此作为分类的依据。4 用Matlab实现贝叶斯分类4.1 程序代码如下prior=0.7 0.3;data=10+2*randn(100,1);mu,sigma=normfit(dat

9、a);data1=5+4*randn(100,1);mu1,sigma1=normfit(data1);figure;plot(-3:0.01:18,normpdf(-3:0.01:18,mu,sigma),b),hold on ;plot(-5:0.01:18,normpdf(-5:0.01:18,mu1,sigma1),r) x=7;stem(x,normpdf(x,mu,sigma);stem(x,normpdf(x,mu1,sigma1),r) ;xlabel(x);h=legend(class 1 pdf,class 2 pdf,2);title(class condition pr

10、obability function)hold offpost=normpdf(x,mu,sigma)*prior(1);post1=normpdf(x,mu1,sigma1)*prior(2);figure;plot(-3:0.01:18,normpdf(-3:0.01:18,mu,sigma)*prior(1),b)hold on;plot(-5:0.01:18,normpdf(-5:0.01:18,mu1,sigma1)*prior(2),r)stem(x,normpdf(x,mu,sigma)*prior(1);stem(x,normpdf(x,mu1,sigma1)*prior(2)

11、,r);xlabel(x);h=legend(class 1,class 2,1);title(sample post probability)hold off4.2 代码运行结果图如下5 用Visual C+实现贝叶斯分类5.1程序代码如下/最小错误率贝叶斯分类如下：void CMyDlg:OnCWL() UpdateData(true);float a,b,p,q;a=m_prior1*m_class1;b=m_prior2*m_class2;p=a/(a+b);q=b/(a+b);if(pq)m_class=class1;elsem_class=class2;UpdateData(fal

12、se);/最小风险率贝叶斯分类如下：void CMyDlg:OnFXL() UpdateData(true);float a,b,p,q,m,n; a=m_prior1*m_class1;b=m_prior2*m_class2;p=a/(a+b);q=b/(a+b);m=m_L11*p+m_L12*q;n=m_L21*p+m_L22*q;if(mn)m_class=class2;elsem_class=class1;UpdateData(false);5.2 代码运行结果图如下贝叶斯最小错误率分类如下：贝叶斯最小风险率如下：6 实验结论通过上述讨论，正确的制定损失函数的值，是贝叶斯决策决策的一个关键问题。在实际中列出合适的决策表是比较困难的事情，需要根据所研究的具体问题，来分析决策造成损失的严重程度，从本文的讨论，我们知道要提高贝叶斯决策的准确率就需要对损失函数进行仔细的考量。进一步的研究工作可以考虑如何对损失函数进行选择和使用。充分利用贝叶斯定理提高分类的精确程度和实用性。

展开阅读全文