文档详情

(完整word版)模式识别文献综述

cn****1
实名认证
店铺
DOCX
34.71KB
约14页
文档ID:533928615
(完整word版)模式识别文献综述_第1页
1/14

模式识别文献综述摘要自 20 世纪 60 年代以来,模式识别的理论与方法研究及在工程中的实际应用取得了很大的进展.本文先 简要回顾模式识别领域的发展历史和主要方法的演变,然后围绕模式分类这个模式识别的核心问题,就概率 密度估计、特征选择和变换、分类器设计几个方面介绍近年来理论和方法研究的主要进展,最后简要分析将 来的发展趋势.1. 前言模式识别(Pattern Recog nitio n)是对感知信号(图像、视频、声音等)进行分析,对其中的物体对象或 行为进行判别和解释的过程模式识别能力普遍存在于人和动物的认知系统,是人和动物获取外部环境知识, 并与环境进行交互的重要基础我们现在所说的模式识别一般是指用机器实现模式识别过程,是人工智能领 域的一个重要分支早期的模式识别研究是与人工智能和机器学习密不可分的,如 Rosenblatt 的感知机[1] 和Nilsson的学习机[2]就与这三个领域密切相关后来,由于人工智能更关心符号信息和知识的推理,而 模式识别更关心感知信息的处理,二者逐渐分离形成了不同的研究领域介于模式识别和人工智能之间的机 器学习在 20 世纪 80 年代以前也偏重于符号学习,后来人工神经网络重新受到重视,统计学习逐渐成为主 流,与模式识别中的学习问题渐趋重合,重新拉近了模式识别与人工智能的距离。

模式识别与机器学习的方 法也被广泛用于感知信号以外的数据分析问题(如文本分析、商业数据分析、基因表达数据分析等),形成 了数据挖掘领域 模式分类是模式识别的主要任务和核心研究内容分类器设计是在训练样本集合上进行 优化(如使每一类样本的表达误差最小或使不同类别样本的分类误差最小)的过程,也就是一个机器学习过程. 由于模式识别的对象是存在于感知信号中的物体和现象,它研究的内容还包括信号/图像/视频的处理、分割、 形状和运动分析等,以及面向应用(如文字识别、语音识别、生物认证、医学图像分析、遥感图像分析等 ) 的方法和系统研究本文简要回顾模式识别领域的发展历史和主要方法的演变 ,介绍模式识别理论方法研究的最新进展并分 析未来的发展趋势由于 Jain 等人的综述[3]已经全面介绍了 2000 年以前模式分类方面的进展,本文侧 重于 2000 年以后的研究进展2. 历史回顾现代模式识别是在 20 世纪 40 年代电子计算机发明以后逐渐发展起来的在更早的时候,已有用光学 和机械手段实现模式识别的例子,如在 1929 年 Gustav Tauschek 就在德国获得了光学字符识别的专利 作为统计模式识别基础的多元统计分析和鉴别分析[4]也在电子计算机出现之前提出来了。

1957年IBM的 C.K. Chow 将统计决策方法用于字符识别[5]然而,“模式识别”这个词被广泛使用并形成一个领域则是 在 20 世纪 60 年代以后1966 年由 IBM 组织在波多黎各召开了第一次以“模式识别”为题的学术会议[6]Nagy的综述[7]和Kanal的综述[8 ]分别介绍了 1968年以前和1968—1974的研究进展 70年代几本很有影响的模式识别教材(如Fukunaga [9], Duda & Hart [10])的相继出版和1972年 第一届国际模式识别大会(ICPR )的召开标志着模式识别领域的形成同时,国际模式识别协会(IAPR )在 1974 年的第二届国际模式识别大会上开始筹建,在 1978年的第四届大会上正式成立统计模式识别的主要方法,包括 Bayes 决策、概率密度估计(参数方法和非参数方法)、特征提取(变换) 和选择、聚类分析等,在 20 世纪 60 年代以前就已经成型.由于统计方法不能表示和分析模式的结构,70 年代以后结构和句法模式识别方法受到重视尤其是付京荪(KS. Fu)提出的句法结构模式识别理论在70 —80 年代受到广泛的关注但是,句法模式识别中的基元提取和文法推断(学习)问题直到现在还没有很 好地解决,因而没有太多的实际应用。

20 世纪 80 年代 Back-propagation (BP) 算法的重新发现和成功应用推动了人工神经网络研究和应 用的热潮神经网络方法与统计方法相比具有不依赖概率模型、参数自学习、泛化性能 良好等优点,至今仍 在模式识别中广泛应用然而,神经网络的设计和实现依赖于经验,泛化性能不能确保最优90 年代支持向 量机(SVM)的提出吸引了模式识别界对统计学习理论和核方法(Kernel methods)的极大兴趣与神经网络 相比,支持向量机的优点是通过优化一个泛化误差界限自动确定一个最优的分类器结构,从而具有更好的泛 化性能.而核函数的引入使很多传统的统计方法从线性空间推广到高维非线性空间,提高了表示和判别能力结合多个分类器的方法从 90 年代前期开始在模式识别界盛行,后来受到模式识别界和机器学习界的共 同重视多分类器结合可以克服单个分类器的性能不足,有效提高分类的泛化性能这个方向的主要研究问 题有两个:给定一组分类器的最佳融合和具有互补性的分类器组的设计其中一种方法,Boost in g,现已得 到广泛应用,被认为是性能最好的分类方法进入 21 世纪,模式识别研究的趋势可以概括为以下四个特点。

一是 Bayes 学习理论越来越多地用来 解决具体的模式识别和模型选择问题,产生了优异的分类性能[11]二是传统的问题,如概率密度估计、特 征选择、聚类等不断受到新的关注,新的方法或改进/混合的方法不断提出三是模式识别领域和机器学习 领域的相互渗透越来越明显,如特征提取和选择、分类、聚类、半监督学习等问题成为二者共同关注的热点. 四是由于理论、方法和性能的进步,模式识别系统开始大规模地用于现实生活,如车牌识别、手写字符识别、 生物特征识别等模式识别方法的细节可以参考一些优秀的教材,比如 Bishop (2006) [11], Fukunaga (1990)[12], Duda, Hart & Stork (2001)[13]等3. 模式识别研究现状3.1 模式识别系统和方法概述模式识别过程包括以下几个步骤:信号预处理、模式分割、特征提取、模式分类、上下文后处理预处 理通过消除信号/图像/视频中的噪声来改善模式和背景间的可分离性;模式分割是将对象模式从背景分离或 将多个模式分开的过程;特征提取是从模式中提取表示该模式结构或性质的特征并用一个数据结构(通常为 一个多维特征矢量)来表示;在特征表示基础上,分类器将模式判别为属于某个类别或赋予其属于某些类别的 概率;后处理则是利用对象模式与周围模式的相关性验证模式类别的过程. 模式识别系统中预处理、特征提 取(这里指特征度量的计算,即特征生成)和后处理的方法依赖于应用领域的知识.广义的特征提取包括特征 生成、特征选择和特征变换(维数削减).后两个过程和分类器设计一样,需要在一个样本集上进行学习(训练): 在训练样本上确定选用哪些特征、特征变换的权值、分类器的结构和参数. 由于句法和结构模式识别方法是 建立在完全不同于特征矢量的模式表示基础上且还没有得到广泛应用,本文与 Jain 等人[3]一样,主要关注 统计模式识别(广义地,包括神经网络、支持向量机、多分类器系统等)的进展。

Bayes 决策是统计模式 识别的基础将模式表示为一个特征矢量x(多维线性空间中的一个点),给定M个类别的条件概率密度p(|x 3 ),i = 1,..,M,则模式属于各个类别的后验概率可根据Bayesi公式计算:P(Wj|x)(w ) p( x | w )i ip(x)P(w ) p( x | w ) i i 兰 P(w )p(x I w )jjj=1其中P(3 )是第i类的先验概率根据Bayes决策规则,模式x被判别为后验概率最大的类别(最小错误率决策)或期望风险最小的类别(最小代价决策).后验概率或鉴别函数把特征空间划分为对应各个类别的决 策区域模式分类可以在概率密度估计的基础上计算后验概率密度,也可以不需要概率密度而直接近似估计后验 概率或鉴别函数(直接划分特征空间)基于概率密度估计的分类器被称为生成模型(Generative model),如 高斯密度分类器、Bayes网络等;基于特征空间划分的分类器又被称为判别模型(Discriminative model), 如神经网络、支持向量机等生成模型每一类的参数在一类的训练样本上分别估计,当参数模型符合样本的实 际分布或训练样本数比较少时,生成模型的分类性能优良.判别模型在训练中直接调整分类边界,以使不同类 别的样本尽可能分开,在训练样本数较多时能产生很好的泛化性能。

但是,判别模型在训练时每一类参数的估 计要同时考虑所有类别的样 本,因而训练的计算量较大.32 概率密度估计概率密度估计和聚类一样,是一个非监督学习过程研究概率密度估计主要有三个意义:分类、聚类(分 割)异常点监测(Novelty detection )在估计每个类别概率密度函数的基础上,可以用Bayes决策规则来 分类概率密度模型经常采用高斯混合密度模型(Gaussian mixture model, GMM ),其中每个密度成分 可以看作是一个聚类异常点监测又称为一类分类(One—class classification),由于只有一类模式的训练 样本,在建立这类模式的概率密度模型的基础上,根据相对于该模型的似然度来判断异常模式.高斯混合密度估计常用的Expectation-Maximization (EM)算法[14]被普遍认为存在三个问题:估计过 程易陷于局部极值点,估计结果依赖于初始化值,不能自动确定密度成分的个数对于成分个数的确定,提 出了一系列的模型选择准则,如Bayes准则[15]最小描述长度(MDL) Bayesian In formation Criterion (BIC)、Akaike In formation Criterion (AIC)最小消息长度(MML)等[16]。

Figueiredo 和 Jain 在一(完整word版)模式识别文献综述 个扩展的EM算法中引入密度成分破坏(Annihilation)机制[16],可以达到自动确定成分个数的目的Ueda 和 Ghahramani 提出一种基于变分 Bayes 的准则,并用分裂-合并算法进行估计自动确定成分个数[17]. 分裂—合并算法还可以同时克服局部极值影响高斯混合密度用于高维数据时会造成密度函数的参数太多,用于分类时还会降低泛化性能这个问题 可以通过限制协方差矩阵(为对角矩阵或单位矩阵的倍数)、参数共享或特征降维来克服在多类分类时, 不同类别的概率密度要建立在相同的特征空间.如果对不同类别或不同密度成分提取不同的子空间,则要将子 空间的密度函数反投影到原来的特征空间[18]Moghaddam和Pentland的概率密度模型是主成分分析 (PCA)子空间内的混合高斯密度和补子空间中的高斯密度的结合[19]最近,Bouguila等人提出一种新的混合密度形式:Dirichlet混合密度[20][21 ] .Dirichlet分布表 示离散概率(介于 0 到 1 之间且和等于 1)的联合分布,可以用于直方图、和归一化特征矢量等的概率密 度估计。

Dirichlet密度可以是非对称的,比高斯密度函数更为灵活但计算也更复杂.Dirichlet混合密度可以 用类似于 EM 的随机优化算法进行估计,在模式分类和图像聚类等应用中取得了优异的性能[21].概率密度估计的另一种新方法是稀疏核函数描述(支持向量描述)[22][23]Scholkopf等人采用类似 支持向量机的方法,用一个核特征空间的超平面将样本分为两类,使超平面外的样本数不超过一个事先给定的 比例[22]该超平面的函数是一个样本子集(支持向量)的核函数的加权平均,可以像支持向量机。

下载提示
相似文档
正为您匹配相似的精品文档