1,2.3 二次和线性分类器,前面讲的统计决策理论提供了分类器设计的基础这一小节讨论二次和线性分类器所以叫作二次或线性分类器是因为分类(决策)面方程的数学形式是二次或线性的这样的分类器又叫参数分类器,因为它们由一些参数所规定(如分布的均值和方差)非参数分类器以后要讲2,这一节的目的(概念)有两个:,在一定的分布和条件下(如正态、等协方差矩阵),贝叶斯决策可以导致二次或线性分类器 虽然贝叶斯决策(似然比检验)在错误率或风险上是最优的,但必须知道类条件密度在大多数应用场合,类条件密度函数是从有限的样本中估计的后面我们将讲一些密度函数估计的方法但密度函数的估计本身是一件复杂工作(其难度不低于分类)并且需要大量样本3,即使我们得到了密度函数,有时用似然比检验的方法也很难计算,需要大量的时间和空间 因此我们有时考虑更简便易行的分类器设计方法用二次、线性、分段线性分类器即先规定分类器的数学形式,然后在适当的准则下,来确定这些参数 这一节先分析在什么条件下贝叶斯分类器变成二次和线性分类器,然后讨论当这些条件不满足时,如何设计“性能好”的参数分类器4,一. 两类问题的二次和线性分类器,对于似然比检验的决策规则:,,,,,,5,当各类的类条件密度是高斯分布时,,mi和Ki为均值向量和协方差矩阵。
6,这时似然比为,定义 ,-2倍自然对数,则:,7,上式是二次分类器计算x到各类均值mi的 Mahalanobis距离,然后和阈值 相比较,决定x属于第一或第二类8,在一维时,马氏距离 ,即比较用方差标准化的一般距离展开h(x)式,有,(),式中,9,决策边界h(x)=T是二次曲面(超曲面):超椭球面、超双曲面、超抛物面、超平面等,或它们组合的形式 (为了确定二次曲面的形状,首先要消掉x的各分量相乘的项,可采用旋转坐标系的方法,把坐标轴旋转到A()的特征向量的方向曲面的几何形状由A的特征值决定如果A的特征值全部是正的,则是超椭球面;如果特征值有些正,有些负,则是超双曲面;如果有些特征值是0,则是超抛物面10,当x落到决策边界的某一侧时,就把它分到相应的类也可以把上述二次分类器用到非高斯分布的密度函数,但这时不能保证错误率最小但所确定的边界是和二阶统计矩(均值、方差)最相匹配的 任何具有()式的分类器都叫作二次分类器只有A、b、c是由高斯密度函数确定时,才叫高斯分类器11,例1:两维时的二次分类器的决策边界,假定两类模式都是高斯分布的,参数为:,求 的分类边界,并画出其曲线。
12,解:,13,假定T=0,h(x)=T=0化为:,,是一双曲线14,15,,,,16,当先验概率相等时,最小错误率决策规则选择密度函数大的 由于第二类在x2方向上的方差大于类1的,这样密度函数p(x|2)在x2方向上将有较广的延伸使得在左边R2区域内有p(x|2) p(x|1),尽管这些点比较靠近类1的均值点 在前面的h(x)= xTAx+bTx+c中,如果两类的协方差矩阵相等,K1= K2= K,则矩阵A=0,这时决策规则为:,17,这时的决策边界就退化为线性决策边界(超平面),相应的分类器为线性分类器式中,18,二. 判别函数和多类分类器,判别函数,当模式有 类,这时的最小错误率的决策规则可以表示为:,若,(),式中,称为判别函数(discriminant function)它表示决策规则19,由贝叶斯公式, 和 等价即把 用在()式中时,决策结果和 是一样的 当先验概率相等时,p(x|k)也是一组等价的判别函数 一般地,若 是任意一组判别函数,则下面定义的 也是一组等价的判别函数:,a0,b是常数也可以是x的函数,但不能是k的函数20,同样,若f是单调增函数,则 它和 也是等价的判别函数。
这些性质可以使我们从一组判别函数推导出另外的判别函数,以便计算上更加简单,或者意义更清楚,便于理解21,当每类都是正态分布,其均值和协方差矩阵分别为mk和Kk时,这时的最小错误率决策规则的判别函数为:,多类的二次和线性分类器,由于自然对数是单调增的,所以可以定义下面等价的判别函数:,22,(),这是二次判别函数当所有类的先验概率相等时,可以省略 前面已经证明,当两类的协方差矩阵相等时,二次分类器退化为线性分类器多类时也是如此23,当 时,()式化为:,上式中,由于第一项和第四项对所有的类都是相同的,所以等价的一组判别函数为:,(),上式是x的线性函数 下面考虑一些特定情况,说明二次和线性分类器的应用 以下假定各类的先验概率都相等24,例2:最小距离分类器假定各类的先验概率相等,而且各类 ,即x的各个分量不相关,且各类等方差解:这时的判别函数化为(P22()式 ):,后两项对所有类是共同的,可以省略分母中的 也可以去掉,因而有等价的判别函数:,这时的决策规则的含义是:x离哪类的均值最近,就把它分到哪类25,例3 :内积分类器(相关分类器),有,假定 利用线性判别函数,若进一步假定每类的均值的模相等,即|mk|相等,它们分布在半径为|mk|的一个超球面上,且由于假定先验概率也相等,因此,等价的判别函数为:,26,即将测量向量x和每类的均值mk作内积(或称相关),然后选择值最大的,作为它的类。
上述例子是通信理论中信号检测的一个经典例子假定有Nc种已知信号要检测令x(t)表示接收到的信号,mk(t)是已知的信号,k=1,2,,Nc 当mk(t)发送时,加入了白噪声w(t),,27,白噪声w(t)是零均值、等方差、不相关的信号(随机过程)即在任意时刻ti,w(ti)的均值为0,方差为 ,且当 时, 即:,如果随机向量x和mk是由相应的时间函数取样而成,即,28,29,,,,这是一个相关分类器(内积分类器)的模式识别问题 假定|mk|2相等,即所有的信号具有相等的能量30,把接收到的信号和已知信号作相关mkTx,然后选择相关最大的作相关时通常通过一个“匹配滤波器”来实现31,在连续时,判别函数:,,另外,mk和x间的相关也可以通过一个线性滤波器的输出来实现构造一个函数gk(t),使满足 gk(Tt)=mk(t),则 (线性系统的杜哈美尔积分),,32,即滤波器的输出是相关值,而滤波器的脉冲响应是gk(t),匹配滤波器可由专门的仪器来作 可以把上面的线性分类器的讨论再进一步性分类器,,,,中,如果把向量在K的特征向量的坐标系下表示(作变换),并作比例变换使所有分量的方差变为1,这时,线性分类器将作mkTx相关运算。
在通信问题中,如果噪声信号是相关的,而且方差是变化的,那么最优的信号检测是使噪声变为不相关的,然后作相关或匹配滤波器运算33,三. Fisher线性分类器 另一种决策准则(另外一种解决思路),,,,在前面一节中,我们讨论了两种形式的分类器,在n维空间内分析了它的判别边界其中分类的参数如A、b、c和T都是确定的,如果模式满足高斯分布,那么分类器可以使错误率、最小风险或者NeymanPearson准则最小34,,,,但在某些情况下,不知道类条件密度函数,因此不可能找出最优分类器 在另外一些情况下,虽然可以对类条件密度进行估计,但推导最优分类器的计算量太大因此,实际工作中,一般是先假定一种分类器的数学形式,如线性或二次分类器,然后确定它的参数,使它对某种适当的准则函数最优,如类间的分离性等在一般情况下,这种准则函数不一定是错误率,而是更加简单和易于分析的35,,,,人们性分类器上作了许多工作这不仅因为它形式简单,而且用分段线性的组合可以任意逼近复杂的决策边界我们先介绍其中的一种:Fisher线性分类器(两类问题)线性分类器的形式:,,寻找分类器的参数,能够使以下的Fisher准则函数最大:,,(3.21),36,(3.22a ),式中,,(3.22b),希望使两类的均值离得越开越好,而方差尽可能的小。
回想一下,若有,,即,,,37,(3.23a ),这时h(x)(分类器的输出)的均值和方差为,,(3.23b),方程(3.21)和参数c无关(相减),因此c可以包括到阈值T里去因此只要找出b就可以了对准则函数求导并令其等于0,有,变换后的均值和方差,,,,,38,,,(3.24),,,(3.25),39,利用(3.23)式可以求出 、 、 、 ,然后代入上式,但为了简单,有时就把b定为,,,,,,(3.26),而把项 放到阈值里去40,这样分类器的形式就成为:,,,,,,,,,当K1=K2=K时,(3.26)式的b和(3.9 a)的 成比例这样,当模式满足高斯分布,且协方差矩阵相等时,使Fisher准则最优等价于最小错误率最优41,小结,这一章首先讨论了一些简单的决策理论,,,,,,,最小错误率、风险、NeymanPearson 似然比检验,只是阈值不同最小最大决策,当先验概率变化时,使最大的错误率最小 序贯决策:测量的维数可变时,分析了阈值和错误率间的关系在独立同分布的假定下分析了维数的期望值42,这一章还介绍了线性和二次分类器,,,,,,,对于多类模式识别问题的判别函数 讨论了最近距离分类和相关分类。
讨论了两类问题的一种线性分类器Fisher分类器在高斯分布、等协方差矩阵的情况下,Fisher分类器等价于最小错误率分类器43,* 这类线性分类器的更一般解法,线性分类器是最容易实现的然而,只在正态分布和等协方差的情况下,线性判别函数才是贝叶斯意义上最优的 在通信系统的信号检测中,等协方差矩阵是合理的但在不少应用场合,并不满足协方差矩阵相等 在设计正态分布、不等协方差的线性分类器,在设计非正态分布的线性分类器上有不少研究成果当然,它们不是最优的但简单易行,可以补偿性能上的损失下面我们更一般地讨论这一问题44,令,,任务是要确定 和 表示x在V方向上的投影投影后的均值 和方差 是衡量类可分性的一个准则45,投影 比 要好投影后的均值 和方差 是衡量类可分性的一个准则46,,,令 是任一准则函数(要最大或最小的),要确定使f最大(小)的v和v047,由于,,,,代入,有:,,48,由以上两式可以计算出v,但由于错误率只依赖v的方向,而不是它的大小因而可以消去v的常数系数(不是mi和ki的函数)解出:,,式中,,,49,注意,上面得出的v和f无关,f只是出现在s中 回想在正态、等协方差的情况下,有 这里是用s和(1s)对K1和K2作加权平均。
当f的具体形式给出后,v0是 的解50,例1:Fisher线性分类器因此s0.5,Fisher准则不依赖于v0因为v0从 和 相减中消失了最佳的,,,,51,例2:另种准则是,,,解出后有,,, Fisher准则不能确定v052,2.5 分类器的错误率问题,对样本进行分类是PR的任务之一在分类过程中总会有错误率,当先验概率和类条件密度函数已知,采用的决策规则也确定后,错误率也就固定了 错误率反映了模式分类问题本身的固有复杂程度也是衡量分类器性能的重要指标分类器是否和要解决的问题相匹配一. 错误率的计算和估计,53,从上式可以看出,在x是多维时,P(e)的计算要进行多重积分当类条件密度函数的解析形式比较复杂时,P(e)的计算相当困难错误率的计算公式前面已经分析,对两类问题:,54,由于错误率对模式识别系统的重要性和复杂性,人们对错误率的计算和估算方法进行了大量的研究方法主要有以下几类:,按公式计算错误率; 估算错误率的上限; 从实验中估计错误率这一小节先讨论前两种方法55,正态分布且等协方差矩阵时;。