《2022年川大模式识别考试复习题》由会员分享,可在线阅读,更多相关《2022年川大模式识别考试复习题(10页珍藏版)》请在金锄头文库上搜索。
1、多练出技巧巧思出硕果简答题1.什么是模式与模式识别?模式:对象之间存在的规律性关系;模式识别:是研究用计算机来实现人类模式识别能力的一门学科。/*模式:广义地说,模式是一些供模仿用的、完美无缺的标本。本课程把所见到的具体事物称为模式,而将它们归属的类别称为模式类。模式的直观特性:可观察性,可区分性,相似性模式识别:指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。*/ 2.一个典型的模式识别系统主要由哪几个部分组成3.什么是后验概率?系统在某个具体的模式样本X 条件下位于某种类型的概率。4.确定线性分类器的主要步骤采
2、集训练样本,构成训练样本集。样本应该具有典型性确定一个准则J=J(w,x),能反映分类器性能,且存在权值w* 使得分类器性能最优设计求解w 的最优算法,得到解向量w* 5.样本集推断总体概率分布的方法6.近邻法的基本思想是什么?作为一种分段线性判别函数的极端情况,将各类中全部样本都作为代表点,这样的决策方法就是近邻法的基本思想。7.什么是 K 近邻法?取未知样本x 的 k 个近邻,看这k 个近邻中多数属于哪一类,就把x 归为哪一类。7.监督学习与非监督学习的区别利用已经标定类别的样本集进行分类器设计的方法称为监督学习。很多情况下无法预先知道样本的类别,从没有标记的样本集开始进行分类器设计,这就
3、是非监督学习。/* 监督学习:对数据实现分类,分类规则通过训练获得。该训练集由带分类号的数据集组精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 10 页多练出技巧巧思出硕果成,因此监督学习方法的训练过程是离线的。非监督学习方法不需要单独的离线训练过程,也没有带分类号的训练数据集,一般用来对数据集进行分析。如聚类,确定其分布的主分量等。*/ 8.什么是误差平方和准则?对于一个给定的聚类,均值向量是最能代表聚类中所有样本的一个向量,也称其为聚类中心。一个好的聚类方法应能使集合中的所有向量与这个均值向量的误差的长度平方和最小。9.分级聚类算法
4、的2 种基本途径是什么按事物的相似性,或内在联系组织起来,组成有层次的结构,使得本质上最接近的划为一类,然后把相近的类再合并,依次类推,这就是分级聚类算法的基本思想。聚合法: 把所有样本各自看为一类,逐级聚合成一类。基本思路是根据类间相似性大小逐级聚合,每级只把相似性最大的两类聚合成一类,最终把所有样本聚合为一类。分解法: 把所有样本看做一类,逐级分解为每个样本一类。10.特征抽取与特征选择的区别?特征抽取: 原始特征的数量可能很大,或者样本处于一个高维空间中,通过映射 (或变换)的方法可以用低维空间来表示样本,这个过程叫特征抽取。所谓特征抽取在广义上就是指一种变换。特征选择: 从一组特征中挑
5、选出一些最有效的特征以达到降低特征空间维数的目的,这个过程叫特征选择。特征抽取是通过变换的方法组合原始高维特征,获得一组低维的新特征,而特征选择是根据专家的经验知识或根据某种评价准则来挑选出那些对分类最有影响力的特征,并未形成新的特征。11.什么是最优搜素算法?最优搜索算法:至今能得到最优解的唯一快速算法是“分支定界”算法。属于自上而下的算法, 具有回溯功能。 由于合理地组织搜索过程,使得有可能避免计算某些特征组合而不影响结果为最优。12 统计学习理论的核心问题统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论。主要内容包括4个方面:(1)经验风险最小化原则下统计学习一致性的条件(
6、2)在这些条件下关于统计学习方法推广性的界的结论(3)在这些界的基础上建立的小样本归纳推理原则(4)实现这些新的原则的实际方法13 什么是支持向量机?支持向量机: 在统计学习理论基础上发展出的识别方法,在解决小样本、 非线性及高维模式识别问题中表现出其优势。问答题1.描述贝叶斯公式及其主要作用精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 10 页多练出技巧巧思出硕果2.利用最大似然估计方法对单变量正太分布函数来估计其均值U 和方差答案见 P54 3.请详细写出感知器训练算法步骤4.请详细写出Fisher 算法实现步骤5.什么是两分剪辑
7、近邻法和压缩近邻法6.请详细介绍初始聚类中心的选择方法精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 10 页多练出技巧巧思出硕果7.请描述 K 均值聚类算法8.什么是离散K-L 变换以及离散有限K-L 展开离散 K-L 变换又称主成分分析(PCA) ,是一种基于目标统计特性的最佳正交变换,被广泛应用于数据压缩、特征降维等方面。一个非周期性随机过程用具有互不相关系数的正交函数的级数展开。K-L 展开式就是这样一种展开方法。9.必考:针对某个识别对象设计自己的模式识别系统,并叙述各步骤主要工作计算题1、在图像识别中,假定有灌木和坦克2 种
8、类型,它们的先验概率分别是0.7 和 0.3,损失函数如下表所示。其中,类型w1和 w2分别表示灌木和坦克,判决a1=w1,a2=w2。现在做了2次实验,获得2 个样本的类概率密度如下:w1w2a10.52a241.06 .0, 1.0)|(1xP3 .0, 8.0)|(2xP精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 10 页多练出技巧巧思出硕果试用最小错误率贝叶斯准则判决2 个样本各属于哪一类?试用最小风险决策规则判决2 个样本各属于哪一类?(1)最小错误率贝叶斯准则(2)最小风险决策规则精选学习资料 - - - - - - -
9、 - - 名师归纳总结 - - - - - - -第 5 页,共 10 页多练出技巧巧思出硕果2、已知两类的训练样本:w1(0,0)T,(0,2)T;w2(2,0)T,(2,2)T,试用最小平方误差准则算法进行分类器训练,求解向量w*。3、已知欧氏二维空间中两类9 个训练样本w1:(-1,0)T,(-2,0)T,(-2,1)T,(-2,-1)T精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 10 页多练出技巧巧思出硕果w2:(1,1)T,(2,0)T,(1,-1)T,(2,1)T,(2,2)T试分别用最近邻法和K 近邻法求测试样本(0,
10、0)T的分类,取K=5,7。4、已知两类的数据:w1:(1,0),(2,0),(1,1) W2:(-1,0),(0,1),(-1,1) 试求该组数据的类内与类间散布矩阵。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 7 页,共 10 页多练出技巧巧思出硕果其中 Sw 为类内, Sb 为类间5、给出二维样本数据(-1,1),(2,2),(1,-1),(-2,-2) ,试用 K-L 变换作一维数据压缩。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 8 页,共 10 页多练出技巧巧思出硕果精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 9 页,共 10 页多练出技巧巧思出硕果精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 10 页,共 10 页