模式识别复习资料.ppt

资源描述

《模式识别复习资料.ppt》由会员分享，可在线阅读，更多相关《模式识别复习资料.ppt（45页珍藏版）》请在金锄头文库上搜索。

1、复习 1 模式和模式识别的概念 1 模式对某些感兴趣的客体的定量的或结构的描述模式类是具有某些共同特性的模式的集合 2 模式识别研究一种自动技术依靠这种技术计算机将自动地或人尽量少地干涉把待别识模式分配到各自的模式类中去复习 2 模式识别系统组成学习过程判决过程分类规则训练分类决策数据获取预处理特征选择或提取模式识别系统框图复习 1 监督分类需要依靠已知类别的训练样本集按照他们特征向量的分布来确定判别函数然后利用判别函数对未知模式进行分类需要足够的先验知识判别需要有足够的先验知识 2 非监督分类用于没有先验知识的情况通常采用聚类分

2、析的方法 3 监督分类和无监督分类复习 4 模式识别整体知识结构 5 最大最小距离算法小中取大距离算法算法描述选任意一模式样本做为第一聚类中心Z1 选择离Z1距离最远的样本作为第二聚类中心Z2 逐个计算各模式样本与已确定的所有聚类中心之间的距离并选出其中的最小距离例当聚类中心数k 2时计算 min Di1 Di2 i 1 N N个最小距离复习将样本按最近距离划分到相应聚类中心对应的类别中重复步骤直到没有新的聚类中心出现为止在所有最小距离中选出最大距离如该最大值达到的一定分数比值阈值T 以上则相应的样本点取为新的聚类中心返回否则寻找聚类中心的工作结束

3、用试探法取为一固定分数如1 2 则Z3存在例k 2时复习例2 1 对图示模式样本用最大最小距离算法进行聚类分析选Z1 X1 距Z1最远选为Z2 计算T 对应最小距离中的最大值且 T 选作Z3 结果 Z1 X1 Z2 X6 Z3 X7 用全体模式对三个聚类中心计算最小距离中的最大值无 T 情况停止寻找中心聚类 10个最小距离中 X7对应的距离 T 算法描述 1 N个初始模式样本自成一类即建立N 类计算各类之间即各样本间的距离得一N N维距离矩阵D 0 0 表示初始状态 G Group 6 层次聚类法 2 假设已求得距离矩阵D n n为逐次聚类合并的次数找

4、出D n 中的最小元素将其对应的两类合并为一类由此建立新的分类 3 计算合并后新类别之间的距离得D n 1 4 跳至第2步重复计算及合并复习结束条件 1 取距离阈值T 当D n 的最小分量超过给定值 T 时算法停止所得即为聚类结果 2 或不设阈值T 一直将全部样本聚成一类为止输出聚类的分级树复习例给出6个五维模式样本如下按最短距离准则进行系统聚类分类计算各类间欧氏距离解 1 将每一样本看作单独一类得 D D 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 将最小距离对应的类和合并为1类得新的分类计算聚类后的距离矩阵D 1 由D 0

5、递推出D 1 得距离矩阵D 0 D D 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D D 1 1 0 0 0 0 0 0 0 0 0 0 3 将D 1 中最小值对应的类合为一类得D 2 D D 2 2 0 0 0 0 0 0 0 0 4 将D 2 中最小值对应的类合为一类得D 3 D D 2 2 0 0 0 0 0 0 0 0 D D 3 3 0 0 0 0 0 0 若给定的阈值为 D 3 中的最小元素聚类结束若无阈值继续分下去最终全部样本归为一类可给出聚类过程的树状表示图层次聚类法的树状表示类间距离阈值增大分类变粗 7 K 均值算法算法描述 1

6、任选K个初始聚类中心 Z1 1 Z2 1 ZK 1 2 按最小距离原则将其余样品分配到K个聚类中心中的某一个 Nj 第j类的样本数 3 计算各个聚类中心的新向量值 4 如果则回到 2 将模式样本逐个重新分类重复迭代计算算法收敛计算完毕如果复习例2 3 已知20个模式样本如下试用K 均值算法分类解取K 2 并选计算距离聚类可得到计算新的聚类中判断故返回第步从新的聚类中心得有计算聚类中心返回第步以Z1 3 Z2 3 为中心进行聚类以新的聚类中心分类求得的分类结果与前一次迭代结果相同计算新聚类中心向量值聚类中心与前一次结果相同即故算法收

7、敛得聚类中心为结果图示图2 10 K 均值算法聚类结果 X1 X4X3X5 X8 X9 X7 X10 X2 X6 x1 x2 1 3 5 7 9 13 579 0 X11 X12X13X14X15 X16X17X18 X19X20 上述K 均值算法其类型数目假定已知为K个当K未知时可以令K逐渐增加此时J j 会单调减少最初减小速度快但当 K 增加到一定数值时减小速度会减慢直到K 总样本数N 时 Jj 0 Jj K关系曲线如下图 8 聚类准则函数Jj与K的关系曲线 Jj A 135 7246 0 8109 K 曲线的拐点 A 对应着接近最优的K值 J 值减小量计算量以及

8、分类效果的权衡并非所有的情况都容易找到关系曲线的拐点迭代自组织的数据分析算法可以确定模式类的个数K 两分法 1 多类情况1 用线性判别函数将属于 i类的模式与其余不属于 i类的模式分开将某个待分类模式 X 分别代入 M 个类的d X 中若只有di X 0 其他d X 均 0 则判为 i类识别分类时 9 线性判别函数复习全部不属任何类 IR 可能属于 1 w或 3 w 1 w 2 w 3 w 0 2 Xd 0 3 Xd IR 可能属于 3 w或 2 w 0 1 Xd 0 0 31 2 dd d 0 0 32 1 dd d 0 0 3 21 d dd IR 可能属于 1

9、w或 2 w 0 0 21 3 dd d 2 x 1 x 对某一模式区 di X 0 的条件超过一个或全部的di X 0 分类失效相当于不确定区 indefinite region IR 此法将 M 个多类问题分成M个两类问题识别每一类均需M个判别函数识别出所有的M类仍是这M个函数例3 1 设有一个三类问题其判别式为现有一模式 X 7 5 T 试判定应属于哪类并画出三类模式的分布区域解将X 7 5 T代入上三式有三个判别界面分别为图示如下 1 0 1 1 2 x 1 x 0 2 Xd 0 3 Xd 1 0 Xd 4 4 步骤 a 画出界面直线 b 判别界面正负侧

10、找特殊点带入 c 找交集感知器算法步骤 1 选择N个分属于 1和 2类的模式样本构成训练样本集 X1 XN 构成增广向量形式并进行规范化处理任取权向量初始值W 1 开始迭代迭代次数k 1 2 用全部训练样本进行一轮迭代计算WT k Xi 的值并修正权向量分两种情况更新权向量的值 9 感知器算法复习 c 正的校正增量分类器对第i个模式做了错误分类权向量校正为统一写为分类正确权向量不变 3 分析分类结果只要有一个错误分类回到 2 直至对所有样本正确分类分类正确时对权向量赏这里用不罚即权向量不变分类错误时对权向量罚对其修改向正确的方向转换

11、感知器算法是一种赏罚过程例3 8 已知两类训练样本解所有样本写成增广向量形式进行规范化处理属于 2的样本乘以 1 用感知器算法求出将模式分为两类的权向量解和判别函数任取W 1 0 取c 1 迭代过程为第一轮有两个WT k Xi 0的情况错判进行第二轮迭代第二轮第三轮第四轮该轮迭代的分类结果全部正确故解向量相应的判别函数为当c W 1 取其他值时结果可能不一样所以感知器算法的解不是单值的判别界面d X 0如图示 10 最小错误率贝叶斯决策对两类问题若则若则可改写为统计学中称l12 X 为似然比为似然比阈值若则 4 8 例4 1 假

12、定在细胞识别中病变细胞的先验概率和正常细胞的先验概率分别为现有一待识别细胞其观察值为X 从类条件概率密度发布曲线上查得试对细胞X进行分类解方法1 通过后验概率计算方法2 利用先验概率和类概率密度计算是正常细胞最小风险贝叶斯决策基本思想以各种错误分类所造成的平均风险最小为规则进行分类决策 11 最小风险贝叶斯决策 2 两类情况对样本 X 当X 被判为 1类时当X 被判为 2类时 4 15 4 16 由 4 15 式决策规则令称似然比为阈值计算计算定义损失函数Lij 判别步骤类概率密度函数 p X i 也称 i 的似然函数解计算和得例4 2

13、在细胞识别中病变细胞和正常细胞的先验概率分别为现有一待识别细胞观察值为X 从类概率密度分布曲线上查得损失函数分别为L11 0 L21 10 L22 0 L12 1 按最小风险贝叶斯决策分类为病变细胞经过选择或变换组成识别特征尽可能保留分类信息在保证一定分类精度的前提下减少特征维数使分类器的工作即快又准确 12 特征选择和提取的目的 13 特征选择和特征提取的异同 1 特征选择从L个度量值集合中按一定准则选出供分类用的子集作为降维 m维 m L 的分类特征 2 特征提取使一组度量值通过某种变换产生新的m个特征作为降维的分类特征其中复习 14 特征提取的方法其中第二步计算C的特征值对特征值从小到大进行排队选择前m个第四步利用A对样本集 X 进行变换则m维 m n 模式向量X 就是作为分类用的模式向量解 1 求样本均值向量和协方差矩阵由得由归一化特征向量u1构成变换矩阵A 变换前变换后多类类内散布矩阵Sw 15 特征选择从n个特征中选择d个 d n 最优特征构成分类用特征向量 1 散布矩阵准则类别可分性测度类间散布矩阵Sb 多类总体散布矩阵St 特征选择准则使tr Sw 最小使tr Sb 最大使J1 J4最大复习例从5个特征中选出2个特征作为模式向量

展开阅读全文