模式识别特性选择和提取

上传人:ap****ve 文档编号:119883498 上传时间:2020-01-28 格式:PPT 页数:46 大小:649.50KB
返回 下载 相关 举报
模式识别特性选择和提取_第1页
第1页 / 共46页
模式识别特性选择和提取_第2页
第2页 / 共46页
模式识别特性选择和提取_第3页
第3页 / 共46页
模式识别特性选择和提取_第4页
第4页 / 共46页
模式识别特性选择和提取_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《模式识别特性选择和提取》由会员分享,可在线阅读,更多相关《模式识别特性选择和提取(46页珍藏版)》请在金锄头文库上搜索。

1、第五章 特征选择与提取 v基本概念 v模式类别可分性的测度 v特征选择 v离散K L变换 v采用K L变换的分类特征提取 5 1 基本概念 1 特征形成 根据被认识的对象产生出一组基本特征 这些基本特征可以 是通过计算得到的 也可以是通过一定的工具测量出来的 这些特征我们叫做原始特征 通常从物理量到原始特征需要 经过很多的过程 如识别物体 要对物体影像进行数字化 得到数字图像 再对数字图像进行各种预处理 从而得到物 体的几何的 颜色的特征 2 特征选择和提取是模式识别的一个关键问题 v 讨论分类器设计时 都假定给出特征向量维数确定的样本集 其中各样本的每一维都是该样本的一个特征 v 这些特征的

2、选择是很重要的 它直接影响到分类器的设计及 其性能 v 假若对不同的类别 这些特征的差别很大 则比较容易设计 出具有较好性能的分类器 3 特征选择和提取是构造模式识别系统的一重要课题 v 在很多实际问题中 往往不容易找到那些最重要的特征 或 受客观条件的限制 不能对它们进行有效的测量 v 因此在测量时 由于人们心理上的作用 只要条件许可总希 望把特征取得多一些 v 另外 由于客观上的需要 为了突出某些有用信息 抑制无 用信息 有意加上一些比值 指数或对数等组合计算特征 在数据上作一些处理 v 如果将数目很多的测量值不做分析 全部直接用作分类特征 不但耗时 而且会影响到分类的效果 产生 特征维数

3、灾 难 问题 v 为了设计出效果好的分类器 通常需要对原始的测量值集合 进行分析 经过选择或变换处理 组成有效的识别特征 v 在保证一定分类精度的前提下 减少特征维数 即进行 降 维 处理 使分类器实现快速 准确和高效的分类 v 为达到上述目的 关键是所提供的识别特征应具有很好的 可分性 使分类器容易判别 为此 需对特征进行选择 v应去掉模棱两可 不易判别的特征 v所提供的特征不要重复 即去掉那些相关性强且没有增 加更多分类信息的特征 v 说明 v实际上 特征选择和提取这一任务应在设计分类器之前 进行 v但从通常的模式识别学习过程来看 在讨论分类器设计 之后讲述特征选择和提取 更有利于加深对该

4、问题的理 解 信息获取预处理特征选取 分类器设计 模式分类 错误率检测 改进分类器 参数 识别结果输出 4 特征选择与特征提取 v 所谓特征选择 就是从n个度量值集合 x1 x2 xn 中 按 某一准则选取出供分类用的子集 作为降维 m维 m n 的分类特征 v 所谓特征提取 就是使 x1 x2 xn 通过某种变换 产生m 个特征 y1 y2 ym m0 iii 当 i和 j的分布完全同时 Jij 0 iv 在模式特征的各个分量都相互独立的情况下 有 v 当新加入特征的时候 永远不会使散度减小 单调性 vi 散度与分类错误概率有比较密切的关系 即散度的判据 值取越大 分类错误概率就越小 v巴氏

5、 Bhattacharyya 距离 在分析分类器的错误概率时候 引入函数 用它作为类别可分性的一个判别准则 当概率密度函数都是正 态分布情况 可以得到及其简化的表达式 若令S 1 2 则为Bhattacharyya距离 如果Ci Cj就会得到更加简单的表达式 它与马氏距离平方只是差一个系数 前面给大家介绍的各种表 征量 就是在于给出一个参考量 用于对类的可分性的度量 5 3 特征选择 v 动机与目的 设有n个可用作分类的测量值 为了在不降低 或尽量不降低 分类精度的前提下 减小特征空间的维 数以减少计算量 需从中直接选出m个作为分类的特征 v 问题 在n个测量值中选出哪一些作为分类特征 使其具

6、有 最小的分类错误 v 从n个测量值中选出m个特征 一共有 中可能的选法 v一种 穷举 办法 对每种选法都用训练样本试分类一下 测出其正确分类率 然后做出性能最好的选择 此时 需要试探的特征子集的种类达到 种 非常 耗时 v需寻找一种简便的可分性准则 间接判断每一种子集的 优劣 v对于独立特征的选择准则 v一般特征的散布矩阵准则 v对于独立特征的选择准则 v类别可分性准则应具有这样的特点 即不同类别模式特征 的均值向量之间的距离应最大 而属于同一类的模式特征 其方差之和应最小 v假设各原始特征测量值是统计独立的 此时 只需对训练 样本的n个测量值独立地进行分析 从中选出m个最好的 作为分类特征

7、即可 v 如果不同类别模式特征的均值向量之间的距离较大 而同属 于一个类的模式特征的方差和较小 那么我们认为模式具有 良好的可分性 直观的表示就是类与类之间的距离较大 每 个类的所有样本的聚合性非常的好 因此我们可以从下面的 角度出发 来考察n测量值中需要去除的部分 v 假设各个原始测量值是统计独立的 我们对n个测量值逐一 独立分析 从中选出m个最好的作为分类特征即可 测量方 法和选取原则如下 1 选取两类训练样本 和 分别计算其均值 和 且k维方向上的分量为 和 k维方向上的方差为 和 定义一个准则函数 2 按照 的大小排列 选出最大的m个测度对应的特征作 为分类特征 注 该选择方法比较简单

8、 但受模式特征的概率分布影响较 大 原因在于 选取的 和 并不一定反映了 模式的分类分布情况 如下图所示 xk P xk i j mikmjk xk P xk i j mikmjk xk P xk i j i mik mjk v 讨论 上述基于距离测度的可分性准则 其适用范围与模式 特征的概率分布有关 v三种不同模式分布的情况 v a 中特征xk的分布有很好的可分性 通过它足以分离 i和 j两种类别 v b 中的特征分布有很大的重叠 单靠xk达不到较好的 分类 需要增加其它特征 v c 中的 i类特征xk的分布有两个最大值 虽然它与 j 的分布没有重叠 但计算Gk约等于0 此时再利用Gk 作为

9、可分性准则已不合适 v因此 假若类概率密度函数不是或不近似正态分布 均 值和方差就不足以用来估计类别的可分性 此时该准则 函数不完全适用 v一般特征的散布矩阵准则 a 类内 类间和总体的散布矩阵SW Sb和St 其中SW表示类内样本之间的聚合性 Sb表示类与类之间的相距 大小 SW的量度的行列式值越小且Sb的行列式值越大 可分 性越好 因此 散布矩阵准则可用如下表示 寻求使J1和J2最大的特征子集 作为分类特征 类内 类间 总体 b 散度和变换散度准则 当两类情况是正态分布时 使Jij最大的子集 就是适合分离该两类模式的特征 于是 推广到多类 计算其平均散度 选出使平均散度最大的子集作为c类的

10、分类特征 缺点 加权求和 并以所求和J来作为评估标准是无法避免Jij之 间的大小抵消的 或者说大的值会掩盖掉数值小的情况 解决方法 引入变换散度 和 之间的变化关系 1 随着 的增加而增加 先快后慢 2 的取值范围有限度 饱和度 作用 中和抵消 平均变换散度 c 巴氏距离和詹夫利斯 马特西斯距离 J M距离 对正态分布模式的巴氏距离 如果Ci Cj时候 能得到非常 简单的形式 对aij取平均值 但是会存在数值大aij的掩盖数值小aij的情况 因此 我 们可以引用前面的变换方法 作一个类似的简单变换来 消除这种情况 再取平均值 即多类情况的J M距离 v穷举式特征选取 以上只给出了比较科学的准则

11、函数 但是还没有给出比较好的 算法解决从n中测量值中选出m个作为分类特征量 于是 可根 据穷举思路进行 即按照 特征组合方案来进行穷举 得 到选择最优 但是穷举法有个不利因素就是 计算量大 一则 来之与当n很大的时候 计算量大 二则来自于本身可能要作 矩阵运算或者求幂次运算 这可以从下面两种方法来降低运算 量或者进一步简单化 a 最大最小类对距离法 对多类问题 不是直接采用散度或者J M准则来计算 而是计 算类对距离来选择特征 在c类中选出最难分离的一对类别 即选用对应于c类中类对距离最小的来代替变换散度或J M准则 b 分支定界搜索法 核心思想是 逐一降维 要求 准则函数按照特征维数单调变化

12、性质 方法 在分支树中找到J最大的节点 5 4 离散K L变换 v K L变换全称 Karhunen Loeve变换 卡洛南 洛伊变换 v 前面讨论的特征选择是在一定准则下 从n个特征中选出 k个来反映原有模式 v 这种简单删掉某n k个特征的做法并不十分理想 因为一 般来说 原来的n个数据各自在不同程度上反映了识别对 象的某些特征 简单地删去某些特征可能会丢失较多的 有用信息 v 如果将原来的特征做正交变换 获得的每个数据都是原 来n个数据的线性组合 然后从新的数据中选出少数几个 使其尽可能多地反映各类模式之间的差异 而这些特 征间又尽可能相互独立 则比单纯的选择方法更灵活 更有效 v K

13、L变换就是一种适用于任意概率密度函数的正交变换 K L正交变换能够把n个测量信息都充分的利用起来 并且 力图保持 变换后的n分量特征是相互独立的 这是我们 讨论K L变换的两个目标 一 离散的有限K L展开 v展开式的形式 设有一连续的随机实函数 则 可用一已知 的正交函数集 的线性组合来展开 其中 aj是展开式的随机系数 是正交函数 满足正交性条 件 将展开式写成离散形式 即将连续的随机函数和连续的正交函 数在定义域内等间隔的采样为n个离散点 即 写成向量的形式 即有 取前面n项 做近似 则有 其中 v在这里我们可以将向量x看成于一个模式样本 经过 展开 这实际上是一个离散变换 而且是正交的

14、 如果对c中模式 类别 作离散正交展开 则对每一模式类别可分别写成xi ai 其中 取决于所选的正交函数集 v对各个模式类别 正交函数都是相同的 但其展开系数向量 ai则因类别的不同模式分布而异 vK L展开式的性质 K L展开式的根本性质是 将随机向量x展开为另一组正交向量 j的线性和 且其展开 式系数aj 即系数向量a的各个分量 具有不相关的性质 注意 1 x是随机变量 而正交向量 j是确定的 换句话说一旦选 定了某个函数集 那么 j就是确定的 而不是随机的 2 x是向量 表现出随机性 而且x的各个分量很大程度上 表现出相关性 而展开之后的系数向量a的各个分量不具有 相关性 这一点的考察可

15、以从x和a的自相关矩阵来看 下 面我们就进一步推导在x已知的情况下 如何找到正交函数 集或者说变换矩阵 使之得到的a的分量具有完全的或者较 好的独立性 vK L展开式系数的计算 设随机向量的总体自相关矩阵为 将 带入 其中 即得到 要求a的各个分量都具有统计独立性 也就是说满足如下关 系 写成矩阵形式 因此 有 同时 i都是归一正交的 由此可以得到 写成向量形式 就是x的自相关矩阵R的本征根 是本征向量 到此为止 我们就能够知道 选择什么样的向量来组成来 如何得到 vK L展开式系数的计算步骤 1 计算向量X的相关矩阵 如果是多类的话 则用全体相关矩阵 2 求出相关矩阵R的本征根和对应的本征向

16、量 3 展开式 二 按K L展开式选择特征 vK L展开式用于特征选择相当于一种去相关的线性变换 v若从n个本征向量中取出m个组成变换矩阵 即 1 2 m m 2 m n 0 若首先采用前面的m个特征向量 便可使变换误差最小 此时的 变换矩阵为 T 1T 2T mT T 3 K L变换是在均方误差最小的意义下获得数据压缩的最 佳变换 且不受模式分布的限制 对于一种类别的模式特 征提取 它不存在特征分类问题 只是实现用低维的m个 特征来表示原来高维的n个特征 使其误差最小 亦即使 其整个模式分布结构尽可能保持不变 4 通过K L变换能获得互不相关的新特征 若采用较大本 征值对应的本征向量组成变换矩阵 则能对应地保留原模 式中方差最大的特征成分 所以K L变换起到了减小相关 性 突出差异性的效果 在此情况下 K L变换也称为主 成分变换 5 5 采用K L变换的分类特征提取 vK L变换的优点 通过K L变换能获得互不相关或者相关性非常差的新的特征 因此 如果我们选用大本征值对应的向量组成的变换矩阵 则能对应的保留原模式中方差最大的特征成分 v下面分析K L变换的具体应用 在本征向量选取的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号