东华理工模式识别小抄.doc

资源描述

《东华理工模式识别小抄.doc》由会员分享，可在线阅读，更多相关《东华理工模式识别小抄.doc（14页珍藏版）》请在金锄头文库上搜索。

1、1. 模式识别的定义：所谓模式识别是根据研究对象的特征或属性，利用以计算机为中心的机器系统运用一定的分析算法认定它的类别，系统应使分类识别的结果尽可能地符合真实。2. 模式识别系统的主要环节：1特征提取2特征选择3学习和训练4分类识别3. 特征空间和特征矢量能描述模式特性的量（测量值）。在统计模式识别方法中，通常用一个矢量表示，称之为特征矢量，记为 4. 模式识别三大任务：模式采集：从客观世界（对象空间）到模式空间的过程称为模式采集。特征提取和特征选择：由模式空间到特征空间的变换和选择类型判别：特征空间到类型空间所作的操作。5. 聚类分析的基本思想：相似的归为一类，不相似的作为另外一类。6.

2、分类无效时的情况：1特征选取不当使分类无效2特征选取不足可能使不同类别的模式判为一类3特征选取过多可能无益反而有害，增加分析负担并使分析效果变差4量纲选取不当，也可使分类无效7. 距离测度（差值测试）测度基础：两个矢量矢端的距离测度数值：两矢量各相应分量之差的函数。1. 欧氏(Euclidean)距离： 2. 绝对值距离：d(x,y)=ni=1 |Xi-Yi|结论：马氏距离对一切非奇异线性变换都是不变的！8. 匹配测度：此时，若对象有此特征，则相应分量定义为1，而相应分量为0表示对象无此特征，这就是所谓的二值特征。(1) Tanimoto测度：例题：设两个矢量 x=（0，1，0，1，1，0）

3、，y=（0，0，1，1，0，1）可算得： xx=3，yy=3，xy=1则：(2) Rao测度(3)(4) 简单匹配系数：(5)(6) Dice系数：（7）Kulzinsky系数： 9. 基于类内，类间距离的准则函数：设待分类模式集Xi；i=1，2，.N，将它们分成c类，Wj类含nj个模式，分类后个模式记为X（j）i；j=1，2，.,c;i=1,2,nj。例题：证明：聚类准则函数： 10. 谱系聚类法：（系统聚类法，层次聚类法）算法思想：首先将 N 个模式视作各自成为一类，然后计算类与类之间的距离，选择距离最小的一对合并成一个新类，计算在新的类别分划下各类之间的距离，再将距离最近的两类合并，

4、直至所有模式聚成两类为止。例题：P29页。例题：给出6个样本特征矢量如下，按最小距离原则进行聚类： X1=(0,3,1,2,0) X2=(1,3,0,1,0) X3=(3,3,0,0,1) X4=(1,1,0,2,0) X5=(3,2,1,2,1) X6=(4,1,1,1,0)解答：P29页自己抄上去太长了。11. C-均值法基本思想：该方法取定 C个类别和选取 C个初始聚类中心，按最小距离原则将各模式分配到 C类中的某一类，之后不断地计算类心和调整各模式的类别，最终使各模式到其判属类别中心的距离平方之和最小。算法步奏：1）任选C个模式特征矢量作为初始聚类中心：z1，z2，z3，。zc，令K

5、=02）将带分类的模式特征矢量集Xi中的模式诸葛按最小距离原则分划给c类中的某一类。3）计算重新分类后的各类中心4）如果Z12. 改进算法：13.该章习题答案：2.7 试用最大最小距离聚类算法对样本集X进行聚类，。解：Step1.选第一个类心；找距离最远的样本作为第二个类心；计算；取参数q=0.3；求距离门限Step2.对剩余样本按最近原则聚类: 所有样本均已归类，故聚类结果为：，。2.8 对2.7题中的样本集X，试用C-均值算法进行聚类分析。解：取类数C=2Step1.选初始类心，第一个类心；Step2. 按最近原则聚类:由图示可知，其余样本距离较近，所以第一次聚类为：，Step3.

6、计算类心：Step4.若类心发生变换，则返回Step2,否则结束。计算过程如下：同理可得所以第二次聚类为：，计算新的类心：同上，第三次聚类为：，各样本类别归属不变，所以类心也不变，故结束14. 线性可分：对于来自两类的一组模式X1,X2,.Xn，如果能用一个线性判别函数正确分类则称他们是线性可分的，否则成为非线性可分。15. 例题：根据结论得出X归属于W216. Fisher线性判别：Fisher判别规则为:17. 感知器算法：对初始的或迭代中的增广权矢量W，用训练模式检验它的合理性，当不合理时，对其进行校正，校正方法实际上是最优化技术中的梯度下降法。18. 最小误判概率准则判决：判决规则：如

7、果：则等价判决规则：例题：模式分布如图所示，两类的均矢和协方差阵可用下式估计。解：假设判决式：4.2 设一维两类模式满足正态分布，它们的均值和方差分别为，m1=0，s1=2，m2=2，s2=2，p(x) N(m,s)，窗函数P(1)= P(2)，取0-1损失函数，试算出判决边界点，并绘出它们的概率密度函数曲线；试确定样本-3，-2，1，3，5各属哪一类。解：19. 参数估计有两类方法:将参数作为非随机量处理，如矩法估计、最大似然估计；将参数作为随机变量，贝叶斯估计就属此类。例题5.120. 一、设总体分布密度为, , 并设，分别用最大似然估计和贝叶斯估计计算，已知的先验分布。21. 解：

8、根据贝叶斯公式：1- NN法的误判概率思想：（这个不太肯定，太复杂了。Y的要人命啊）22. 剪辑最近邻法：思想：清理两类的辩解，去掉类别混杂的样本，使两类边界更清晰。23. 特征提取与选择的基本任务是研究如何从众多特征中秋出那些对分类识别最具有效的特征，从而实现特征空间维数的压缩。24. 类别可分性判据：(1) 与误判概率(或误分概率的上界、下界)有单调关系。(2) 当特征相互独立时，判据有可加性，即：(3) 判据具有“距离”的某些特性，即： 25. 模式识别的三大核心问题：特征数据采集，分类识别，特征提取与选择26.27.28.29. 散度JD：根据类的概率分布来构造的可分性判据。30. 基于JB,JC判据的变换法（略只有一个公式，自己抄。）

展开阅读全文