模式识别导论三教学教案

上传人:yuzo****123 文档编号:141672910 上传时间:2020-08-11 格式:PPT 页数:48 大小:439.50KB
返回 下载 相关 举报
模式识别导论三教学教案_第1页
第1页 / 共48页
模式识别导论三教学教案_第2页
第2页 / 共48页
模式识别导论三教学教案_第3页
第3页 / 共48页
模式识别导论三教学教案_第4页
第4页 / 共48页
模式识别导论三教学教案_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《模式识别导论三教学教案》由会员分享,可在线阅读,更多相关《模式识别导论三教学教案(48页珍藏版)》请在金锄头文库上搜索。

1、第三章 分类器的设计,线性分类器的设计 分段线性分类器的设计 非线性分类器的设计,3-1 线性分类器的设计,上一章我们讨论了线性判别函数形式为:g(x)=WTX 其中 X= (X1, X2Xn) n维特征向量 W= (W1, W2 Wn , Wn+1) n维权向量 通常通过特征抽取可以获得n维特征向量,因此n维 权向量是要求解的。 求解权向量的过程就是分类器的训练过程,使用已 知类别的有限的学习样本来获得分类器的权向量被称为 有监督的分类。,利用已知类别学习样本来获得权向量的训练过程如下,已知x1 1, 通过检测调整权向量,最终使x1 1 已知x2 2, 通过检测调整权向量,最终使x2 2 这

2、样就可以通过有限的样本去决定权向量,x1,x2,.,xn,1,w1,w2,wn,wn+1,0 x1,检测 (已知类别),W1 X1,W2 X2,Wn Xn,Wn+1,0 x2,g(x)=wTx,将 式正规化,得 -X1cW1- X2cW2- W3 0 -X1dW1- X2dW2- W3 0 所以 g(x) =WTX 0 其中W = (W1 , W2, W3)T 为各模式增1矩阵 为N*(n+1)矩阵 N为样本数,n为特征数,训练过程就是对已知类别的样本集求解权向量w, 这是一个线性联立不等式方程组求解的过程。 求解时: 只有对线性可分的问题,g(x) =WTX才有解 联立方程的解是非单值,在不

3、同条件下,有不同的解,所以就产生了求最优解的问题 求解W的过程就是训练的过程。训练方法的共同点是,先给出准则函数,再寻找使准则函数趋于极值的优化算法,不同的算法有不同的准则函数。算法可以分为迭代法和非迭代法。,一 梯度下降法迭代法,欲对不等式方程组WTX0求解,首先定义准则函数(目 标函数)J(W),再求J(W)的极值使W优化。因此求解权 向量的问题就转化为对一标量函数求极值的问题。解决 此类问题的方法是梯度下降法。 方法就是从起始值W1开始,算出W1处目标函数的梯度 矢量J(W1),则下一步的w值为: W2 = W1-1J(W1) W1为起始权向量 1为迭代步长 J(W1) 为目标函数 J(

4、W1)为W1处的目标函数的梯度矢量,在第K步的时候 Wk+1 = Wk-kJ(Wk) k为正比例因子 这就是梯度下降法的迭代公式。这样一步步迭代 就可以收敛于解矢量,k取值很重要 k太大,迭代太快,引起振荡,甚至发散。 k太小,迭代太慢。 应该选最佳k。,选最佳k 目标函数J(W)二阶台劳级数展开式为 J(W)J(Wk)+ JT(W- Wk)+(W- Wk)TD(W- Wk)T/2 其中D为当W = Wk时 J(W)的二阶偏导数矩阵 将W=Wk+1 = Wk-kJ(Wk)代入式得: J(Wk+1) J(Wk)- k|J|2+ k2JT DJ 其中J=J(Wk) 对k求导数 ,并令导数为零有 最

5、佳步长为k=|J|2/JTDJ 这就是最佳k的计算公式,但因二阶偏导数矩阵D的计算 量太大,因此此公式很少用。,若令W=Wk+1上式为 J(Wk+1)=J(Wk)+JT(Wk+1-Wk)+(Wk+1-Wk)TD(Wk+1-Wk)T/2 对Wk+1求导,并令导数为零可得: 最佳迭代公式:Wk+1= Wk- D-1J 牛顿法的迭代公式 D-1是D的逆阵 讨论:牛顿法比梯度法收敛的更快,但是D的计算量大并且要计算D-1。当D为奇异时,无法用牛顿法。,二 感知器法,感知器的原理结构为:,通过对W的调整,可实现判别函数g(x) =WTX RT 其中RT为响应阈值 定义感知准则函数:只考虑错分样本 定义:

6、 其中x0为错分样本 当分类发生错误时就有WTX 0, 所以J(W) 总是正值,错误分类愈少, J(W)就愈小。 理想情况为 即求最小值的问题。,求最小值对W求梯度 代入迭代公式中Wk+1 = Wk-kJ 由J(W)经第K+1次迭代的时候,J(W)趋于0,收敛于所求的W值,W的训练过程: 例如:x1, x2, x31 作 x1, x3的垂直线可得解区(如图) 假设起始权向量w1=0 k = 1 1. x1, x2, x3三个矢量相加得矢量2,垂直于矢量2的超平面H将x3错分. 2. x3与矢量2相加得矢量3,垂直于矢量3的超平面H1,将x1错分. 3.依上法得矢量4,垂直于矢量4做超平面, H

7、2将x3错分 4. x3与矢量4相加得矢量5,矢量5在解区内,垂直于矢量5的超平面可以把 x1, x2, x3分成一类 。,x1,x2,x3,2,H,3,H1,4,H2,5,W区间,+,感知器算法: 1.错误分类修正wk 如wkTx0并且x1 wk+1= wk-kx 如wkTx0并且x2 wk+1= wk-kx 2.正确分类 ,wk不修正 如wkTx0并且x1 如wkTx0并且x2 wk+1= wk,+,-,H,wk+1,kx,wk,权值修正过程,k选择准则 固定增量原则 k固定非负数 绝对修正规则 k 部分修正规则 k= 02,例题:有两类样本 1=(x1,x2)=(1,0,1),(0,1,

8、1) 2=(x3,x4)=(1,1,0),(0,1,0) 解:先求四个样本的增值模式 x1=(1,0,1,1) x2=(0,1,1,1) x3=(1,1,0,1) x4=(0,1,0,1) 假设初始权向量 w1=(1,1,1,1) k=1 第一次迭代: w1Tx1=(1,1,1,1) (1,0,1,1)T=30 所以不修正 w1Tx2=(1,1,1,1) (0,1,1,1)T=30 所以不修正 w1Tx3=(1,1,1,1) (1,1,0,1)T=30 所以修正w1 w2=w1-x3=(0,0,1,0) w2Tx4=(0,0,1,0)T (0,1,0,1) =0 所以修正w2 w3=w2-x4

9、=(0,-1,1,-1) 第一次迭代后,权向量w3=(0,-1,1,-1),再进行第2,3,次迭代 如下表,直到在一个迭代过程中权向量相同,训练结束。 w6=w=(0,1,3,0) 判别函数g(x)= -x2+3x3 感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的振荡,这是它的缺点.,线性不可分样本集的分类解(取近似解) 对于线性可分的样本集,可以用上述方法解到正确分 类的权向量。当样本集线性不可分时,用上述方法求权 值时算法不收敛。如果我们把循环的权向量取平均值作 为待求的权向量,或就取其中之一为权向量,一般可以 解到较满意的近似结果。 例:在样本 1: X1 =(

10、0,2) X3 =(2,0) X5 =(-1,-1) 2: X2 =(1,1) X4 =(0,-2) X6 =(-2,0) 求权向量的近似解,x2,x1,x6,x1,x3,2,x5,2,x4,x2,1,1,H,解:此为线性不可分问题,利用感知器法求权向量 权向量产生循环(-1, 2, 0), (0, 2, 2), (-1, 1, 1), (-1, 1, 1) (-1, 1, 1), (0, 0, 0), (-1, 2, 0) 因此算法不收敛,我们可以取循环中任一权值,例如取 W=(0,2,2)T 则判别函数为: g(x)= 2x1+2x2 判别面方程为: g(x)= 2x1+2x20 所以x1

11、+x20 由图看出判别面H把二类分开,但其中x2错分到1类, 而x1错分到2类,但大部分分类还是正确的。,三 最小平方误差准则(MSE法)-非迭代法,前面我们研究了线性不等式方程组g(x) =WTX0的解法。它们共同点是企图找一个权向量W,使错分样本最小。 现在我们把不等式组变成如下形式:WTXi=bi0 则有联立方程XW=b 这是矛盾方程组,方程数大于未知 数,所以没有精确解的存在。,每个样本有n个特征,定义误差向量:e=XW-b0 把平方误差作为目标函数 W的优化就是使J(W)最小。求J(W)的梯度并为0。 解上方程得 XTXW=XTb 这样把求解XW=b的问题,转化为对XTXW=XTb求

12、解,这 一有名的方程最大好处是因XTX是方阵且通常是非奇异的, 所以可以得到W的唯一解。,MSE准则函数,只要计算出X+就可以得到W 取: 最小平方误差法同Fisher法是一致的。,(MSE 解),其中N/N1有N1个,N/N2有N2个,四 韦霍氏法(LMS法)迭代法,上节得到MSE法的W解为:W=X+b 在计算X+时, 1 要求XTX矩阵为非奇异 2 由于计算量太大而引入比较大误差 所以要用迭代法来求 求J(W)的梯度 J(W) =2XT(XW-b) 代入迭代公式 W1任意设定 Wk+1 = Wk-kXT(XWk-b) 此法可收敛于W值。W满足: XT(XW-b)=0,计算量很大,因此下降算

13、法不论XTX是否奇异,总能产生一个解。 若训练样本无限的重复出现,则简化为 W1任意 Wk+1=Wk+k(bk-WkTXk) Xk k随迭代次数k而减少,以保证算法收敛于满意的W值,五 何卡氏法 (判断迭代过程中是否线性可分),若训练样本线性可分时,感知器法可求出界面,但对不可分问题不 收敛只能取平均。最小平方误差法不论样本是否线性可分都能给出 一加权矢量,但不能保证此矢量就是分界矢量,下面介绍一种方法 可以检测迭代过程中是否线性可分。 因最小平方误差法的J(W)的解为 因为XW=b b应为正值 c为矫正系数 当(XWk-bk)0 时 当(XWk-bk) 0 时,引入误差矢量ek ek=XWk

14、-bk判断是否线性可分 所以J(W)的解为 初始条件 W1=X+b1并且b10 迭代时检测 如果ek0时,XWb,系统线性可分,迭代收敛 如果ek0时,XWb,系统线性不可分,迭代不收敛 我们用下面的例子来说明ek的作用,因此上式可以写成,例题: 1=(0,0)T,(0,1)T 2=(1,0)T,(1,1)T 解:正规化 对2取负,有,X的规范矩阵为,x2,x1,x1,x2,x3,x4,取b1=(1,1,1,1)T c=1 W1=X+b1=(-2,0,1)T 所以W1为所求解 e1=XW1-b1=0 系统线性可分,因为,若四个样本变成: 1=(0,0)T,(1,1)T 2=(0,1)T,(1,

15、0)T 解: 取b1=(1,1,1,1)T c=1 W1=X+b1=(0,0,0)T e1=XW1-b1=(-1,-1,-1,-1)T0 系统线性不可分 C为校正系数,取0 C 1 在算法进行过程中,应在每一次迭代时,检测ek 的值。 只要出现ek0 ,迭代就应立即停止。,x2,x1,1,1,六 Fisher分类准则,现在讨论通过 映射投影来降低 维数的方法。 X空间 X=-WTX-W0 0 X1 X=-WTX-W0 0 X 1 Y=WTX-W0 0 X2 把X空间各点投影到Y空间得一直线上,维数由2维降为一 维。若适当选择W的方向,可以使二类分开。下面我们从 数学上寻找最好的投影方向,即寻找最好的变换向量W的 问题。,w(y),w,y1,y2,x2,x1,1,2,投影样本之间的分离性用投影样本之差表示 投影样本类内离散度:,i=1,2,i=1,2,类间散布矩阵,上式就是n维x空间向一维y空间的最好投影方向, 它实际是多维空间向一维空间的一种映射。,其中Sw为类内散布矩阵, Sb为类间散布矩阵,现在我们

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号