四川大学计算机学院倪云竹系统结构习题课

资源描述

《四川大学计算机学院倪云竹系统结构习题课》由会员分享，可在线阅读，更多相关《四川大学计算机学院倪云竹系统结构习题课（5页珍藏版）》请在金锄头文库上搜索。

1、1、在图像识别中，假定有灌木和坦克2 种类型，它们的先验概率分别是0.7 和 0.3，损失函数如下表所示。其中，类型w1和 w2分别表示灌木和坦克，判决a1=w1，a2=w2。现在做了 2 次实验，获得2 个样本的类概率密度如下：5 .02 .0)|(1xP3.06.0)|(2xP（1）试用最小错误率贝叶斯准则判决2 个样本各属于哪一类？坦克、灌木。（2）试用最小风险决策规则判决2 个样本各属于哪一类？灌木、灌木。答：（1）最小错误率贝叶斯准则，决策为坦克第一个样本：212122111 1)|()|(5625.04375.01)|(1)|(4375.032143 .0*6.07.0*2.

2、07 .0*2.0)()|()()|()|(xxPxPxPxPPxpPxpxPjjj，决策为灌木第二个样本：112122111 1)|()|(449205.0795.01)|(1)|(795.044353 .0*3.07.0*5 .07 .0*5.0)()|()()|()|(xxPxPxPxPPxpPxpxPjjj（2）最小风险决策规则，决策为灌木第一个样本1212221212122212111211122211211)|()|(3175.25625.0*0.14375.0*4)|()|()|()|(35375.15625.0*24375.0*5.0)|()|()|()|(0 .1425.0x

3、xaRxaRxPxPxPxaRxPxPxPxaRj jjj jj状态损失决策W1 W2 a1 0.5 2 a2 4 1.0 ，决策为灌木第二个样本12122212121222121112111)|()|(385.3205.0*0.1795.0*4)|()|()|()|(8075.0205.0*2795.0*5.0)|()|()|()|(xxaRxaRxPxPxPxaRxPxPxPxaRj jjj jj2、给出二维样本数据(-1,1),(2,2),(1,-1),(-2,-2)，试用 K-L 变换作一维数据压缩。答：数据压缩结果：0，22，0，22220220) 2(*22)2(*2222222*

4、222*222222),(.5.42222,2222:)(1,405.25.15.15.2.35.25.15.15.210661041222211112222111141.2000041:.1112121得左乘以每原数据样本分别用本将原样本变换成一维样为变换矩阵的特征向量取更大的特征值所对应分别是标准特征向量求特征值与特征向量自相关矩阵样本的均值向量为TXXXXRm3、已知两类的数据：1：(1,0),(2,0),(1,1) ；2：(-1,0),(0,1),(-1,1) ，试求该组数据的类内与类间散布矩阵。166369131363136)(400431211231211231).33131313

5、23231211231)(323131323131211231)().23232,31341).1:2121212221112121T bwbwTTTxTTTTxTTTxiimmmmSSSSSSmxmxSmxmxSmmxNmi与计算向量的距离平方和分别计算两个类与均值取均值向量答4 、已知欧氏二维空间中两类9个训练样本w1:(-1,0)T,(-2,0)T,(-2,1)T,(-2,-1)Tw2:(1,1)T,(2,0)T,(1,-1)T,(2,1)T,(2,2)T，试分别用最近邻法和K 近邻法求测试样本(0,0)T的分类，取 K=5 ，7。答：最近邻法：最近邻为(-

6、1，0)T分类为 w1K 近邻法：K=5 ：5 个近邻为1 类的 (-1,0)T,(-2,0)T，2 类的 (1,1)T,(2,0)T,(1,-1)T分类为 w2 K=7 ：1）若近邻为1 类的 (-1,0)T,(-2,0)T,(-2,1)T,(-2,-1)T，2 类的 (1,1)T,(2,0)T,(1,-1)T，则分类为 w12 ）若近邻为1类的 (-1,0)T,(-2,0)T,(-2,1)T或 (-2,-1)T两个之一， 2 类的(1,1)T,(2,0)T,(1,-1)T,(2,1)T，则分类为w2 1. 什么是模式与模式识别模式 : 模式识别是研究用计算机来实现人类模

7、式识别能力的一门学科)。模式识别 :模式是一些供模仿用的、完美无缺的标本。2. 模式识别系统的组成信息获取，预处理，特征提取和选取，分类器设计，分类决策3. 什么是后验概率？系统在某个具体的模式样本X 条件下位于某种类型的概率。、4. 确定线性分类器的主要步骤在描述待识别对象的d 维特征所组成的特征空间内，将其划分为c 个决策域。决策域的边界称为决策面；用于表达决策规则的函数称为判别函数；判别函数决定了决策面。分类器，就是一个计算c 个类别的判别函数并选取与最大判别值对应的类别为决策结果的一种机器。5. 近邻法的主要思想作为一种分段线性判别函数的极端情况，将各类中全部样本都作为代表点，这样的

8、决策方法就是近邻法的基本思想。6. 什么是 K 近邻法？他是最近邻法的推广，取未知样本x 的 k 个近邻，看这k 个近邻中多数属于哪一类，就把x归为哪一类。7 监督学习和非监督学习的区别监督学习的用途明确，就是对样本进行分类。训练样本集给出不同类别的实例，从这些实例中找出区分不同类样本的方法，划定决策面非监督学习的用途更广泛，用来分析数据的内在规律，如聚类分析，主分量分析，数据拟合等等8. 什么是误差平法和准则对于一个给定的聚类，均值向量是最能代表聚类中所有样本的一个向量，也称其为聚类中心。一个好的聚类方法应能使集合中的所有向量与这个均值向量的误差的长度平方和最小。9. 分级聚类算法有两种

9、基本思路聚合法：把所有样本各自看为一类，逐级聚合成一类。基本思路是根据类间相似性大小逐级聚合，每级只把相似性最大的两类聚合成一类，最终把所有样本聚合为一类。分解法：把所有样本看做一类，逐级分解为每个样本一类。10. 特征抽取和选择的区别在一定意义上特征抽取和特征选择都是要达到特征降维的目的，只是所实现的途径不同。特征抽取是通过变换的方法组合原始高维特征，获得一组低维的新特征，而特征选择是根据专家的经验知识或根据某种评价准则来挑选出那些对分类最有影响力的特征，并未形成新的特征。11. 最优搜索算法最优搜索算法：至今能得到最优解的唯一快速算法是“分支定界”算法。属于自上而下的算法，具有回溯功

10、能。算法核心是通过合理组合搜索过程，避免一些重复计算。关键是利用了判据的单调性。12. 什么是支持向量机：在统计学习理论基础上发展出的识别方法，在解决小样本、非线性及高维模式识别问题中表现出其优势。13. 统计学习理论的核心问题学习一致性的结论是统计学习理论的基础。学习过程的一致性，就是指当训练样本数目趋于无穷大时，经验风险的最优值能够收敛到真实风险的最优值。学习理论关键定理：把学习一致性问题转化为一致收敛问题。经验风险最小化学习过程一致的充分必要条件是函数集的VC 维有限。问答题1.两种主要的参数估计方法：最大似然估计、贝叶斯估计。N个随机变量x1 ，x2 ,，xN的似然函

11、数是N个随机变量的联合密度)|,.,()|()(21Nxxxppl可以看成是的函数。如果损失函数为平方误差损失函数，2)(),(则贝叶斯估计量是给定x 时的条件期望。2.感知训练法的算法步骤设训练样本集X=x1,x2, ,xn ，其中xk属于 wi或者 wj，且 xk的类别是已知的。为了确定加权向量w*，执行下面的训练算法a)给定初始值：置k=0，权向量w(k)为任意值，可选常数0c1 b)输入样本xm x1,x2, ,xn，计算判决函数值g(xm)=wT(k)x mc)按如下规则修改权向量i.若 xm wi，且 g(xm) 0，则 w(k+1)=w(k)+cxmii.若

12、 xm wj，且 g(xm) 0，则 w(k+1)=w(k)-cxmd)令 k=k+1 ，返回第二步，直到w 对所有样本稳定不变，结束3.初始聚类中心的选择方法：任取前 c 个样本点作为初始聚类中心凭经验选择将全部数据随机分为c 类，计算其重心，将重心作为聚类中心密度法选择代表点（具有统计特性）从 c-1 类划分中产生c 类划分问题的初始聚类中心4.5.两分剪辑近邻法：将原始样本随机分为两个集合：预测集T 和参考集R，来自预测集和参考集的样本分别完成考试和参考任务，相互独立。对预测集 T 中的所有样本，利用参考集采用近邻法对其进行分类决策，如果决策结果与实际类别不同，则从预测集中删除该样本，最后得到经过剪辑的考试样本集TE。利用考试样本集TE，采用最近邻法对测试样本进行分类决策。压缩近邻法中定义了两个存储器，一个用来存放即将生成的样本集，Store；另一个存放原样本集， Grabbag。初始化，把第一个样本放在Store 中，其它样本放入Grabbag。用当前的Store 中的样本按最近邻法对Grabbag 中的样本分类。假如分类正确，该样本送入Grabbag；否则放入Store。重复上述过程，直到在执行中没有一个样本从Grabbag 转到 Store 或者 Grabbag 为空。

展开阅读全文