南邮模式识别复习提纲

资源描述

《南邮模式识别复习提纲》由会员分享，可在线阅读，更多相关《南邮模式识别复习提纲（7页珍藏版）》请在金锄头文库上搜索。

1、绪论列举三个模式识别的应用：人脸识别，语音识别，基因识别列举模式识别比较强的研究单位：拥有国家重点学科的五所大学：清华、上交、南理工、西交、北航。中科院。模式识别国家重点实验室-中科院北京自动化研究所-汉王识别系统。机器人学国家重点实验室-中科院沈阳自动化所-机器人视觉（ATR导弹自动目标识别）。南邮-江苏省图像处理与图像通信重点实验室。何为模式识另U： Pattern recognition is the study of how machines can observe the environment, learn to distinguish patterns of interest

2、 from their background, and make sound and reasonable decisions about the categories of the patterns.模式识别是机器如何可以观察到环境的研究，了解其背景，以区别于利益格局，使有关的模式类别的健全和合理的决定。模式识别系统的基本组成：原始观测获取特征提取与选择分类方法模板匹配法：1首先对每个类别建立一个或多个模版2输入样本和数据库中每个类别的模版进行比较，求相关或距离3根据相关性或距离大小进行决策句法模式识别（给图画树）：在学习过程中，确定基元与基元的关系，推断出生成景物的方法。判决过程中，

3、首先提取基元，识别基元之间的连接关系，使用推断的文法规则做句法分析。若分析成立，则判断输入的景物属于相应的类型。s.a- *多级树结构:监督学习与非监督学习的主要区别：训练样本的类别是否已知。语音识别的基本单位：音素模式识别过程：1三个空间：模式空间特征空间类型空间2三个操作：模式采集、特征提取/选择、以及分类决策不同阶段的三种操乍III物理上可以I 察觉到世界I模式采集特征提取分类决策模式空间.特征空间类型空间丨丨丨三种空间第二章贝叶斯决策理论贝叶斯公式：P(B IA) = PBS 二 P(AI Bi)P(Bi)1P(A) P(AIB )P(B )最小错误率贝叶斯决策问j j(1)

5、lw 2)=0.45;判决两种a 1, a 2。风险矩阵:试用最小风险判决规则，判断x属于那一种类型。人属于癌症炳人，与例1的结论相反。Np判决规则的基本思想：在一种错误率不变的条件下，使另一种错误率最小。由于存在先验概率未知，增加一种已知条件，由此给出判决规则限定一类错误率，使另一类错误率最小举例：经济过热，细胞化验NP适用条件：先验概率未知(不可变)，仅知道类概率密度。判别函数和决策面方程的区别一一判别函数：每个类有一个判别函数。决策面方程：相邻两个类别判别函数相等构成的方程。最大值判决：gi (x) gj(x) j=1,2则x属于wi最小距离判决：条件：先验概率相等协方差矩阵在描述特征

6、中的两点性质1对角线上的元素代表单个元素的离散性。2非对角线上的元素代表不同特征相关性，若都为0则各特征都独立。协方差矩阵：。情况 1 : S/ = cr/ , i = 1,2,c该情况下每类的协方差短阵相等；b.类的各特征之间相互独立;c.具有相等的方差o-2 o因此：|乙|=宀*=冷/a类等概率曲线形状：同心圆why：不同轴相互垂直且相等一一对角阵。决策线与两类的均值点（圆心）连线的位置关系：垂直先验概率对交点的影响？交点向先验概率较小的那个类型的均值点偏移。o情况2 :工了 =工各类的协方差矩阵相等,在几何上，相当于各类样本集中在以该类均们.jL/j为中心的同样人小和丿枚状的超椭球工1

7、=工2二 =工。第三种情况最一般情况各类协方差矩阵不等：工严工j, i,j2,c第三章概率密度函数的估计什么是参数估计，非参数估计？参数估计：先假定研究的问题（类概率密度）具有某种数学模型，如正态分布，二项分布, 再用已知类别的训练样本估计里面的参数非参数估计:不假定数学模型，直接用已知类别的训练样本的先验知识直接估计数学模型（类概率密度）。区别：类概率密度是否已知。分类器设计与判决过程似然函数：训练样本集和未知参数的函数。最大似然估计：将未知参数看做一确定值，所选取的估计参数能使得训练样本集能发生的概率最大，这一估计值成为最大似然估计。贝叶斯函数估计的基本思想：把待估的参数作为具有某种先

8、验分布的随机变量;通过对第i 类学习样本x i的观察借助p（X iie）使得p（0）转化为后验概率p（0 ix i）；最后求贝叶斯估计。步骤：已知e的先验分布p（e）,待估参数为随机变量。用第i类训练样本的似然函数p （x iie），它是e的函数。由样本独立p （x iie）=n p（x iie）利用贝叶斯公式，求e的后验概率密度求贝叶斯估计相比参数估计，非参数估计的优缺：优一一无须已知类概率密度函数形式缺：需要大量的训练样本。直方图法的三个步骤：1把样本x的每个分量在其取值范围内分成k个等间隔的小窗。如果 x是d维向量，则这种分割就会得到kd方个小体积或者称作小舱，每个小舱的体积记作

9、V。 2统计落入每个小舱内的样本数目qi。3把每个小舱内的概率密度看作是常数，并用qi/（NV）作为其估计值，其中N为样本总数。小舱体积的选择的影响:如果小舱选择过大,则假设p（x）在小舱内为常数的做法就显得粗糙, 导致最终估计出的密度函数也非常粗糙。如果小舱过小，则有些小舱内可能就会没有样本或很少样本，导致估计出的概率密度很不连续。小舱的选择应与样本总数相适应。小舱体积固定的缺点：可能导致密度的估计在样本密度不同的地方表现不一致。1随着样本数的增加，小舱体积应该尽可能小2必须保证小舱内有充分多的样本3每个小舱内的样本数又必须是总样本数中很小的一部分kN近邻估计法（可变大小的小舱）基本做

10、法：根据样本总数确定一个参数kN,即在总样本数为N时我们要求每个小舱内拥有的样本个数。在求x处的密度估计p（x）时，我们调整包含x的小舱的体积，直到小舱内恰好落入kN个样本kN近邻估计法中的窗口选择与样本密度的关系：样本密度越大，小舱体积越小。kN近邻估计法的优点：能够比较好地兼顾在高密度区域估计的分辨率和在低密度区域估计的连续性。立方体的边长h的大小对概率密度估计的影响：h越大，样本密度曲线越平滑，分辨率越低。第四章线性分类器样本直接设计分类器要确定的三个基本要素：1分类器即判别函数的类型，也就是从什么样的判别函数类(函数集)中去求解。2分类器设计的目的或准则，在确定了设计准则后，分

11、类器设计就是根据样本从事先决定的函数集中选择在该准则下最优的函数，通常就是确定函数类中的某些待定参数。3在前两个要素明确之后，如何设计算法利用样本数据搜索到最优的函数参数(即选择函数集中的函数)。设计线性分类器主要步骤如下：1、要有一组其有类别标志的样本集2、要根据实际情况确定一个准则函数J,它必须满足：J是样本集和W、w0函数，J(X,W,wO )J的值反映分类器的性能，它的极值解则对应于“最好”的决策3、用最优化技术求出准则函数的极值解W*和w*04、最后得到线性判别函数g (x)二 W*Tx + w *iii 0感知准则函数：J (A)=艺(-AtY)pYWW梯度下降法迭代公式：Ak+1= Ak-pkGJP(Ak)利用非似然准则找到直线是样本分类的最佳分类线。Fisher线性判别的思想：选择投影方向，使投影后两类相隔尽可能远，而同时每一类内部的样本又尽可能聚集。Fisher准则找到的投影直线是最佳投影直线。Fisher准则函数/、（m - m ）2J （w）二 _FS 2 + S 2类内离散度矩阵S =丫（x 一 m ）（x 一 m ）t , i = 1,2iiixwDjS = S + Sw12类间离散度矩阵S = （m 一 m ）（m 一 m ）t b1212

展开阅读全文