模式识别理论－金锄头文库

资源描述

《模式识别理论》由会员分享，可在线阅读，更多相关《模式识别理论（67页珍藏版）》请在金锄头文库上搜索。

1、模式识别理论 Pattern Recognition2021/6/161什么是模式识别什么是模式识别模式识别（Pattern Recognition）是一种从大量信息和数据出发，在专家经验和已有认识的基础上，利用计算机和数学推理的方法对形状、模式、曲线、数字、字符格式和图形自动完成识别的、评价的过程。从数学角度而言，模式识别也是一个数学建模过程。只是给出的是定性结论而不是定量指标。2021/6/162什么是模式识别什么是模式识别模式识别包括两个阶段，即模式识别包括两个阶段，即学习阶段学习阶段和和实现阶段实现阶段，前者前者是对样本进行是对样本进行特征选择特征选择，寻找分类的规律，寻找分类的规律

2、，后者后者是根据分类规律对未知样本集进行是根据分类规律对未知样本集进行分类和识分类和识别别。广义的模式识别属计算机科学中智能模拟的研究广义的模式识别属计算机科学中智能模拟的研究范畴，内容非常广泛，包括声音和语言识别、文范畴，内容非常广泛，包括声音和语言识别、文字识别、指纹识别、声纳信号和地震信号分析、字识别、指纹识别、声纳信号和地震信号分析、照片图片分析、化学模式识别等等。计算机模式照片图片分析、化学模式识别等等。计算机模式识别实现了部分脑力劳动自动化。识别实现了部分脑力劳动自动化。2021/6/163模式识别的特点模式识别的特点模式识别的理论基础是多元统计理论模式识别的理论基础是多元统计理论

3、和一些近代数学方法（如神经元网络和一些近代数学方法（如神经元网络理论）。理论）。模式识别给出的是统计和经验的规律，模式识别给出的是统计和经验的规律，无法提供关于样本理论模型。无法提供关于样本理论模型。2021/6/164 用用计计算算机机模模式式识识别别方方法法总总结结规规律律预预报报未未知知，虽虽然然不不如如纯纯粹粹的的理理论论方方法法严严格格和和有有明明确确的的机机理理及及解解释释，但但却却有有广广泛泛的的适适应应面面，能能够够在在现现有有知知识识、理理论论不不够够完完善善的的情情况况下下发发挥挥作作用用。在在用用计计算算机机模模式式识识别别方方法法解解决决问问题题时时，我我们们仍仍需需要

4、要借借助助于于与与研研究究对对象象相相关关的的理理论论知知识识，去去估估计计、判判断断影影响响研研究究对对象象的的大大致致因因素素，用用这这些些因因素素的的参参数数构构筑筑多多维维空空间间（即即模模式式空空间间）描描述述研研究究对对象象的的特特征征，才能用模式识别的方法总结规律。才能用模式识别的方法总结规律。2021/6/165模式识别计算过程示意图模式识别计算过程示意图2021/6/166有监督模式识别（判别分析）有监督模式识别（判别分析）如果样本的类别数是已知的，先用一组已如果样本的类别数是已知的，先用一组已知类别的样本作为训练集，建立判别模型，知类别的样本作为训练集，建立判别模型，再用建

5、立的模型根据相似性原则来对未知再用建立的模型根据相似性原则来对未知样本进行识别，称为样本进行识别，称为判别分析判别分析。判别分析是在事先知道类别特征的情判别分析是在事先知道类别特征的情况下建立判别模型对样本进行识别归属，况下建立判别模型对样本进行识别归属，是一种是一种有监督模式识别有监督模式识别。 2021/6/167无监督模式识别（聚类分析）无监督模式识别（聚类分析）如果预先不知道样本的类别，要在学习过如果预先不知道样本的类别，要在学习过程中根据样本的相似性对被识别的样品进程中根据样本的相似性对被识别的样品进行识别分类和归类，称为行识别分类和归类，称为聚类分析聚类分析。聚类分析是完全依靠

6、样本自然特性进聚类分析是完全依靠样本自然特性进行识别的方法，是一种行识别的方法，是一种无监督模式识别无监督模式识别。 2021/6/168模式空间模式空间样本样本xi可用一组参量可用一组参量( (矢量矢量) )来表征，来表征，即即 xi=(xi1, xi2, ., xin)，在模式识别中，在模式识别中，这种参量值又称这种参量值又称特征特征。通常这些参量实际。通常这些参量实际上就是原始数据。这样一组参量构成了模上就是原始数据。这样一组参量构成了模式识别空间的一个点，或称一个式识别空间的一个点，或称一个n维的维的模模式式。由这些模式所构成的。由这些模式所构成的n维变量空间，维变量空间，称为称为模

7、式空间模式空间。因高维模式空间提供了更。因高维模式空间提供了更多的信息，故有可能解决一些低维空间中多的信息，故有可能解决一些低维空间中难于解决的问题。难于解决的问题。2021/6/169模式识别常用术语模式识别常用术语特征抽提（特征抽提（Feature Extraction）训练集（训练集（Training Set）识别率（识别率（Recognition Rate）预测能力（预测能力（Predictive Ability） 2021/6/1610注意事项注意事项l训练集的数据一定要可靠。训练集的数据一定要可靠。l训训练练集集的的样样本本数数目目要要足足够够多多，样样本本数数m与与模模式式空空

8、间间维维数数n 的的比比值值至至少少应应满满足足m/n3，最最好好m/n10。l模模式式空空间间特特征征的的选选择择是是成成败败的的关关键键，要要选选取取与与样样本本分分类类有有关关的的特特征征，如如果果不不能能包包括括与与分分类类有有关的主要特征，模式识别就不会有好的效果。关的主要特征，模式识别就不会有好的效果。2021/6/1611模式识别的数据预处理模式识别的数据预处理 2021/6/16122021/6/16132021/6/1614模式间相似度的度量2021/6/16152021/6/1616模式识别方法模式识别方法I有监督模式识别法（判别分析法）有监督模式识别法（判别分析法）Sup

9、ervised pattern recognition (Discriminating analysis methods)2021/6/1617l参数判别分析法参数判别分析法包括包括距离判别距离判别、Fisher判别判别与与Beayes 判别分析法等判别分析法等l非参数判别分析法非参数判别分析法包括包括线性学习机、线性学习机、K-最近邻法、人工最近邻法、人工神经网络法等神经网络法等 2021/6/1618K-Nearest Neighbors Discrimination Method KNNKNN法的基本假设法的基本假设： “同类样本在模式空间中相互较靠近，同类样本在模式空间中相互较靠近

10、，不同类样本在模式空间中相互远离不同类样本在模式空间中相互远离” 。2021/6/1619lK K最最近近邻邻法法考考查查未未知知样样本本点点的的K K个个近近邻邻（K K为为单单数数整整数数），若若近近邻邻某某一一类类样样本本最最多多，则则可可将将未未知知样样本本判为该类。判为该类。 l为为了了进进行行定定量量判判别别，可可先先找找出出待待分分类类样样本本的的最最近近邻邻，并并事事先先约约定定最最近近邻邻区区域域中中的的训训练练集集样样本本数数。如如果果只只取取一一个个最最近近邻邻样样本本点点，即即样样本本数数为为，则则称称1NN1NN法法；如如果果取取个个最最近近邻邻样样本本点点，即即样样

11、本本数数为为2 2，则则称称2NN2NN法法；如如果果样样本本数数为为K K，则则称称K K近近邻邻法法，简称简称KNNKNN法。法。2021/6/1620KNNKNN算法算法l计算未知样本点和所有训练集样本点之间的距离。计算未知样本点和所有训练集样本点之间的距离。l从从最最小小距距离离开开始始计计样样本本数数，一一直直计计到到有有K个个样样本本数数为止，此时所对应的距离就为最近邻的最小距离。为止，此时所对应的距离就为最近邻的最小距离。l如如果果在在这这个个最最小小距距离离中中，距距某某一一类类训训练练集集中中的的样样本本数多，距离又小，则可将待分类样本划到该类中。数多，距离又小，则可将待分类

12、样本划到该类中。l优优点点：对对数数据据结结构构无无特特殊殊要要求求，简简单单易易行行，不不需需要要训练过程。训练过程。l缺缺点点：未未对对训训练练点点进进行行信信息息压压缩缩，每每判判断断一一个个点点都都要将其对所有已知点的距离计算一遍要将其对所有已知点的距离计算一遍, ,工作量较大。工作量较大。 2021/6/1621简化的简化的KNNKNN法法类重心法类重心法l将训练集中每类样本点的重心求出，然将训练集中每类样本点的重心求出，然后判别未知样本点与各类样本点重心的后判别未知样本点与各类样本点重心的距离。未知样本点距哪一类重心距离最距离。未知样本点距哪一类重心距离最近，即未知样本属于哪一类。

13、近，即未知样本属于哪一类。例例：有有两两种种地地层层，用用7 7种种指指标标的的分分析析数数据据判判别别，先先从从已已经经准准确确判判断断的的地地层层中中各各取取9 9个样本，测得的数据如下表：个样本，测得的数据如下表： 2021/6/16222021/6/16231. 将上表数据进行归一化处理后将上表数据进行归一化处理后计算计算两类的重心得：两类的重心得： C C1 1=-0.0103,0.0402,-0.0246,0.0166, =-0.0103,0.0402,-0.0246,0.0166, 0.0313,-0.0246,-0.0174 0.0313,-0.0246,-0.0174 C C

14、2 2=0.0103,-0.0402,0.0246,-0.0166,=0.0103,-0.0402,0.0246,-0.0166, -0.0313,0.0246,0.0174 -0.0313,0.0246,0.01742. 计计算算地地层层I I、IIII的的每每一一个个矢矢量量与与C C1 1和和C C2 2的距离，分别如表的距离，分别如表a a和表和表b b所示：所示： 2021/6/16242021/6/1625线性学习机法线性学习机法Linear learning machineLLMl作为模式识别中决策分类的一种方法，该法作为模式识别中决策分类的一种方法，该法希望通过某种方法，在模式

15、空间中到找到希望通过某种方法，在模式空间中到找到一个一个判决面（此面叫做分类器）判决面（此面叫做分类器），使不同，使不同类的模式点分别位于判别面的两侧。未知类的模式点分别位于判别面的两侧。未知模式的分类可根据它位于判别面的哪一侧模式的分类可根据它位于判别面的哪一侧来定。若判别面是一个线性超平面，来定。若判别面是一个线性超平面，就叫就叫线性分类线性分类器器。 2021/6/16262021/6/1627例子例子现有甲状腺病人（记为类现有甲状腺病人（记为类1）和正）和正常人（记为类常人（记为类2）各）各10例，分别测试例，分别测试5项项功能指标，测试结果见表功能指标，测试结果见表a a和表和表b

16、所示。所示。以每一类的前以每一类的前8个个样本作为训练集（表样本作为训练集（表a），后），后2个作为测试集（表个作为测试集（表b）。用）。用LLM法对其进行判别。法对其进行判别。 2021/6/16282021/6/16292021/6/16302021/6/16312021/6/16322021/6/1633FisherFisher线性判别线性判别2021/6/1634二维模式向一维空间投影示意图二维模式向一维空间投影示意图oxy2021/6/1635二维模式向一维空间投影示意图二维模式向一维空间投影示意图oxy2021/6/1636二维模式向一维空间投影示意图二维模式向一维空间投影示意图

17、oxyoxy2021/6/1637（1)1)求解求解FisherFisher准则函数准则函数2021/6/16382021/6/1639类间离差度为：类间离差度为：2021/6/1640并使其最大并使其最大, ,上式称为上式称为FisherFisher准则函数准则函数。2021/6/1641利用二次型关于矢量求导的公式可得：利用二次型关于矢量求导的公式可得：（2) 2) 求解求解FisherFisher最佳鉴别矢量最佳鉴别矢量令令可得：可得：2021/6/16422021/6/1643上式右边后两项因子的乘积为一标量，上式右边后两项因子的乘积为一标量，令其为令其为，于是可得，于是可得式式中中

18、为为一一标标量量因因子子，其其不不改改变变轴轴的的方方向，可以取为向，可以取为1,于是有于是有2021/6/1644此时的此时的可使可使Fisher准则函数取最大值，即是准则函数取最大值，即是n 维空维空间到一维空间投影轴的最佳方向，由间到一维空间投影轴的最佳方向，由和和JF 最大值为最大值为:2021/6/1645即即称称为为Fisher变换函数变换函数J JF F=2021/6/1646 由于变换后的模式是一维的，因此判别界面实际由于变换后的模式是一维的，因此判别界面实际上是各类模式所在轴上的一个点，所以可以根据训练上是各类模式所在轴上的一个点，所以可以根据训练模式确定一个阈值模式确定

19、一个阈值 y yt t，于是，于是FisherFisher判别规则判别规则为为: : （3) 3) 求解求解FisherFisher判别函数判别函数判别阈值可取两个类心在判别阈值可取两个类心在u u方向上轴的投影连线的方向上轴的投影连线的中点作为阈值，即中点作为阈值，即: :2021/6/16472021/6/1648（7 7）计算计算。（8 8）计算计算yt 。（9 9）对未知模式对未知模式x判定模式类。判定模式类。2021/6/1649以以100100元元A A面数据和面数据和5050元元A A面数据为例面数据为例100100元元A A面面:(64,76,99,84,98,95,8

20、8,83),:(64,76,99,84,98,95,88,83),5050元元A A面面:(65,67,82,80,89,94,86,92),:(65,67,82,80,89,94,86,92),N N1 1=N=N2 2=60=60算得算得: :m m1 1=(69.3,61.9,83.5,70.8,97.7,91.5,87.6,82.4)=(69.3,61.9,83.5,70.8,97.7,91.5,87.6,82.4)m m2 2=(59.2,55.5,81.9,63.9,95.1,91.0,91.1,86.5)=(59.2,55.5,81.9,63.9,95.1,91.0,91.1,8

21、6.5)2021/6/1650m m1 1=(=(69.3, 61.9, 83.5, 70.8, 97.7, 91.5, 87.6, 82.469.3, 61.9, 83.5, 70.8, 97.7, 91.5, 87.6, 82.4) )m m2 2=(=(59.2, 55.5, 81.9, 63.9, 95.1, 91.0, 91.1, 86.559.2, 55.5, 81.9, 63.9, 95.1, 91.0, 91.1, 86.5) )2021/6/1651m m1 1=(=(69.3, 61.9, 83.5, 70.8, 97.7, 91.5, 87.6, 82.469.3, 61

22、.9, 83.5, 70.8, 97.7, 91.5, 87.6, 82.4) )m m2 2=(=(59.2, 55.5, 81.9, 63.9, 95.1, 91, 91.1, 86.559.2, 55.5, 81.9, 63.9, 95.1, 91, 91.1, 86.5) )2021/6/1652m m1 1=(=(69.3, 61.9, 83.5, 70.8, 97.7, 91.5, 87.6, 82.469.3, 61.9, 83.5, 70.8, 97.7, 91.5, 87.6, 82.4) )m m2 2=(=(59.2, 55.5, 81.9, 63.9, 95.1, 91

23、, 91.1, 86.559.2, 55.5, 81.9, 63.9, 95.1, 91, 91.1, 86.5) )2021/6/1653m m1 1=(=(69.3, 61.9, 83.5, 70.8, 97.7, 91.5, 87.6, 82.469.3, 61.9, 83.5, 70.8, 97.7, 91.5, 87.6, 82.4) )m m2 2=(=(59.2, 55.5, 81.9, 63.9, 95.1, 91, 91.1, 86.559.2, 55.5, 81.9, 63.9, 95.1, 91, 91.1, 86.5) )2021/6/16542021/6/165520

24、21/6/1656无监督模式识别法无监督模式识别法不需要训练集，对所研究的模式进行适当分类的问题则需要用无监督模式识别方法，这类模式识别方法又叫聚类分析法(clustering analysis method)。2021/6/1657常用聚类分析方法有：分级聚类分析法分级聚类分析法Hierarchical clustering methods 最小（大）生成树法最小（大）生成树法Minimun（Max） Spanning Tree MethodK均值聚类法均值聚类法K-means Clustering Method模糊聚类法模糊聚类法Fuzzy clustering method PCA投影

25、分类法等等投影分类法等等2021/6/1658主成分分析的数学主成分分析的数学与几何意义示意图与几何意义示意图2021/6/1659 1616个脑组织试样进行分析，在色谱个脑组织试样进行分析，在色谱图中取多达图中取多达156156参量（可辨认的参量（可辨认的156156个峰处的个峰处的峰高），组成峰高），组成(16(16 156)156)阶矩阵，通过将矩阵阶矩阵，通过将矩阵作主成分分解，分别求得对应于两个最大特作主成分分解，分别求得对应于两个最大特征值的得分矢量征值的得分矢量t t1 1和和t t2 2，并以，并以t t1 1和和t t2 2为投影轴为投影轴作图，得到下图。其中正方形是有肿瘤的

26、脑作图，得到下图。其中正方形是有肿瘤的脑组织样，圆是正常脑组织样。组织样，圆是正常脑组织样。2021/6/1660Projection discrimination based onprincipal component analysis2021/6/1661最大生成树法最大生成树法2021/6/16622021/6/1663上上图图点点与与点点之之间间的的数数据据叫叫作作路路径径强强度度，表表示示两两样样本本点点间间的的相相似似程程度度。如如果果一一个个路路径径的的起起点点与与终终点点重重合合，称称这这条条路路径径构构成成一一个个回回路路，对对于于图图中中砍砍去去某某些些边边得得到到的的树树

27、叫叫生生成成树树。若若某某生生成成树树所所有有路路径径的的强强度度都都大大于于或或等等于于其其它它生生成成树树的的路路径径强强度度，则则称称此此生生成树为成树为最大生成树。最大生成树。只只要要找找到到相相似似关关图图的的最最大大生生成成树树，就就可可以以根根据据最最大大生生成成树树进进行行模模糊糊聚聚类类分分析析，其其分分类类准准则则是是：对对于于规规定定的的阈阈值值水水平平，路路径径强强度大于度大于的顶点可归为一类。的顶点可归为一类。2021/6/1664根据最大生成树进行聚类分析的方法如下：根据最大生成树进行聚类分析的方法如下：（1）先先连连接接路路径径强强度度最最大大的的两两点点，然然后后连接路径强度次大的两点；连接路径强度次大的两点；（2）继继续续连连接接所所剩剩下下点点的的最最大大路路径径强强度度的两点，直到所有的点都被连接；的两点，直到所有的点都被连接；（3）对对连连接接所所得得到到的的树树进进行行检检查查，找找到到最最小小路路径径的的边边，将将其其割割断断就就得得到到两两类类，如如此此继继续续分分割割，直直至至类类数数已已达达到到所所要要分分的的类类数。数。2021/6/1665 2021/6/1666 结束语结束语若有不当之处，请指正，谢谢！若有不当之处，请指正，谢谢！

展开阅读全文

模式识别理论

最新文档