以贝叶斯定理为架构的基于手写字体应用的可形变模版识别.doc

上传人:hs****ma 文档编号:542106313 上传时间:2024-03-26 格式:DOC 页数:10 大小:678.51KB
返回 下载 相关 举报
以贝叶斯定理为架构的基于手写字体应用的可形变模版识别.doc_第1页
第1页 / 共10页
以贝叶斯定理为架构的基于手写字体应用的可形变模版识别.doc_第2页
第2页 / 共10页
以贝叶斯定理为架构的基于手写字体应用的可形变模版识别.doc_第3页
第3页 / 共10页
以贝叶斯定理为架构的基于手写字体应用的可形变模版识别.doc_第4页
第4页 / 共10页
以贝叶斯定理为架构的基于手写字体应用的可形变模版识别.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《以贝叶斯定理为架构的基于手写字体应用的可形变模版识别.doc》由会员分享,可在线阅读,更多相关《以贝叶斯定理为架构的基于手写字体应用的可形变模版识别.doc(10页珍藏版)》请在金锄头文库上搜索。

1、以贝叶斯定理为架构的基于手写字体应用的可形变模版识别张国伟 ,电器和电子工程师协会学生成员杨秩炎 ,电器和电子工程师协会成员罗兰T秦, 电器和电子工程师协会成员摘要有见于可变模型对大形变对象的处理能力,最近人们对于许多模版识别应用都提议运用可变模版技术。此法就是将模版或形状作为可变模型,靠改变自身去迎合输入的图像,然后将萃取的信息导入分类器。 这三个部分建模,匹配和分类经常被视为独立的任务过程。而在此论文中,我们将学习如何把可变模型集成于贝斯定理架构内,从而使其成为一个对形状建模、匹配、分类的统一方法。并以手写字体识别作为评价这一方法的试验平台。通过对我们系统的使用,无论是仿射变换或其他笔迹变

2、化,都能识别无误。甚至不需要预处理和过多的手工参数设置(如对参数的归一化和字体长度的调整)。除此之外,我们还研究这一问题:如何结合模型适应性约束、加速和子部检测。即便使用只有23个原形的模型集,且无须让软件对识别手迹进行学习,我们的精确度亦可达94.7%,并对NIST SD-1数据集中任何手写阿拉伯数字都不加拒认。索引条目可变模型,贝叶斯推理,笔迹辨识,预期最大化,NIST数据库。1.介绍1.1.可变模版识别基于模型库识别是靠在输入图像中查找预模型而实现的,它的表现和定位有决定性作用,然后才能对其类别分类。通过对具有改变形状能力的可形变模型(DM)的使用,此方法可被用于柔性模版中,如人脸、细胞

3、、手势或手写字体。藉由可形变匹配中提取柔性形状,模型形变和数据失配的量化将由两个判别函数进行:其一负责量度其模型形变程度,其二负责量度数据和形变模型的差别。而最佳匹配就是在此二判别标准的估量总和中取最小值。这估量因数是所谓的正则化参数,它令模型形变和数据失配之间产生一个平衡。通过定义一堆这样的模型,达到区分多种模型类别,而每个模型都包含与其相关的的形状信息,形状的允许形变范围则由预信息或通过软件学习而确定。在现有文献中,这些识别过程的步骤时常被视为分离的,仿佛它们是独立的部分。1.2. 基于可形变模型库的笔迹辨识的前期工作由于我们可以使用大量现实数据和很多不同风格的笔迹,所以笔迹识别已被用作基

4、于可形变模型库的识别的绝好试验平台,而且在这论文中亦用于评价我们提出的这一系统。在现有文献中,对基于可形变模型库手写数字识别,已有不错的研究。Wakahara提出用于匹配字体形状骨架的局部仿射变换(LAT),这一方法是通过加入一系列点而表现出来的。字体的形变通过邻近的局部仿射变换参数的平滑度来测量,这种测量对球状仿射数据是不变的。数据的错配通过每个数据点到模型的设定数据点的最小距离来测量。Least-squares设置用于最小化,而规则化参数是人手设定的。分类基于差异点的测量。每个原形分类的数字就是一个如此的东西。通过对2,400个数字映象的测试达到的识别率、置换率和拒绝率分别为96.8%、0

5、.2%和3%。Revow et al的研究则把数字模拟成弹性的齿条模型。可变性的模型是通过齿条控制点和涉及向量的Mahalanobis距离测定的。假定输入为二值图,黑像素的分布由高斯分布以及均匀分布的齿条模拟而成,数据的不匹配被定义为反对数的似然函数。最小化的计算通过最大期望值算法来计算,手动设置正则化参数。经BP神经网络的分类,它要萃取一些输入分量,如可形变模型、数据错配和仿射变换参数。每个分类原形就是一个如此的东西。基于CEDAR数据库,最好结果:好的bs的测试组得到1.5%替代率,bs得到3.14%替代率,并且无拒绝。在单独学习时,Jain et al. 5从智能像素边界模版模拟数字。由

6、一系列置换功能系数构成的平方数来测量。数据错配被定义为模版和输入之间的边缘差异量。经确定斜率算法完成最小化,亦由正则化参数手动设置而成。两个不同量的加权总量达到分类。每一个分类原形大约为二百个,它大大地给此方法一个最邻近分类器的非参特性。根据二千个数字图的NIST SD-1数据集子集,最低的替代率可以达到0%、拒绝率为0.75%。以上的简要说明并无尽述详情,但体现出以下两点:1) 可形变模型库方法对手写识别应用非常见效。2) 不同的可形变模型库识别部分通常单独处理,而不整合为一个完整统一的计算架构。1.3.论文概述本文中,我们以Revow et al. 8提出的可形变模型库识别系统作为基础,研

7、究可形变模型库如何完整地代入贝叶斯模型,提供一个用于建模、匹配、分类独立手写字体的完整计算架构。为将我们的系统区别于Revow et al的,我们应用的组合不需手动输入超参数的预处理。此参数值自动设定为集成架构的一部分。这种改进使我们的系统比其他的应用系统更有适应力和移植能力。并且不同于那些用有辨别能力分类器如BP神经网络似然模型(或以后称为evidence)。p(D|Hi)作为分类的公制,本质地适用于贝叶斯架构。除此之外,关于约束合成的模型适应性,子部的检测和提速会进一步的研究。下文结构为:第二部分详述贝叶斯架构;第三部分是将此架构应用于字体识别的过程;第四部分显示实验的结果;第五部分将讨论

8、本方法的优劣性;第六部分总结全文。 作者:香港清水湾,香港科技大学计算机科学系。电邮:william, dyyeung, rolandcs.ust.hk. 初稿:1997年5月19 修正:1998年9月15 推荐人:R. Plamondon 欲获取再版此文章的信息,请电邮至 tpamicomputer.org 和向IEEECS Log Number 108059垂询。2 针对可形变模型的贝叶斯结构以下提供了在手写字体识别中使用的贝叶斯结构的大致总体看法。2.1 三个级别的推论以表示第i个字体类的模型,D表示输入的图像,w为表征字体形状的参数矢量,为规则化参数,为笔画宽度。和是作为高级参数使用。

9、第一级 建模:许多参考模型,每一个种类i都是建基于从先前的知识中所得的具有代表性的模型。训练的过程在模型识别中尤其棘手。第二级 匹配:每个模型的理想化参数都以与输入图像D最匹配的进行评估。此过程相当于先取条件概率密度的最大值,再取的最大值,得到的结果是的最大值。第三级 分类:最佳的模型是通过选择所有可能的i中具有最大条件概率的模型决定的。根据第三级,为了分类,需要计算所有模型的。使用贝叶斯定理并假设平均条件概率:称为模型的根据。根据贝叶斯定理将再次展开,并假设D独立于,w独立于,是条件参数的贡献,是可能性函数,是数据D的条件参数的贡献。通过拉普拉斯近似,(2)变为:和是和的有效范围,分别地,最

10、大的posteriori(MAP)评估在第二级的推论中计算,所使用的模型来自于第一级中训练结果3 基于可变模型的汉字识别在这一部分, 可变模型是在贝叶斯定理的架构下进行公式运算以创造出一个统一的运算方法从而为可变形模板识别建模、匹配和分类。3.1 模型阐述如8所示, 手写数字以三次B取样函数阐述, 每函数以一批量的k 控制点为参数,而相应的模型参数向量w 2k 则是通过连接所有k 控制点的x 和 y 左边形成,譬如, w = (x1, y1, x2, y2, ., xk, yk)t. 要达到仿射的恒定性, 每个模型框架里的字模型都映射到输入字的图象的图象框架,这种映射通过参量为A, T的仿射变

11、换完成, 其中A是一个2 2矩阵而T是一个二维向量. 要表示以分开笔划构成的数字,像 和 | 构成的 “4,” 上述的单取样函数模型仍然适用,通过隐藏笔划将断开笔划连在一起,沿线不置黑色象数。图1显示含隐藏笔划的“4”的数字模型。使用取样函数表示,每个分类至少要建一个参考模型。不同的人即便写同一个数字的差别也会很大,更莫论不同类别的数字。这种差别有时是形态学上的,而用一个单数字模型的弹性变形难以理想地表达, 譬如, “7” 和 “” 都表示数字分类“七”。再者, 一个分类的模型参数分布也许无法很好地以单一平均参考向量表示。上述两点说明要得到更好的结果,使用多重参考原型是不可避免的。从练习数据中

12、获得分类并非无意义。在这个研究中,我们分析了在现实生活中的手写数据的一般差别,并人手建立的初步模型(参看5.1的进一步讨论)。用于考虑(或估计)可变取样函数表征的模型参数包括控制点k 的数量和w的平均向量和协方差矩阵。运用priori知识, 每个数字模型的k的固定值应谨慎选取以使数字型能容易表示。基于最大相似性 (ML) 法的练习, 如8所示, 继而使用真实手写数据提炼模型参量。为了使练习数据自动归类到多重内分类原型,我们将每个练习样例与所有内分类原型匹配,以模型证据的最高值p(D|Hi)将其赋值于原型。图表 2 列出所有练习后的数字模型。4. MAP估算需要w* 以接近p(w|D, a, b

13、, Hi)。3.2 最优化标准的运算3.2.1 模型可变标准变型的程度,以 ith 模型 Hi的模型变型标准Ew(w)量化,界定为自一个预设平均向量h 2k 的控制点向量w的Mahalanobis距离,表述如下: 其中S是Hi 的w的2k 2k协方差矩阵而 wt 表示w的置换阵。因此,w分布的优先概率如下,其中|决定而a 是规则化参量。h 和的构成部分, 正如在3.1节所讨论的,是在练习阶段(第一级推算)以ML估算计算。3.2.2 数据不匹配标准将输入图象二元化。 黑象素的分布以一个统一的高斯加权混合建模,其平均数统一沿花键的可见部分放置。5 以数据不匹配标准判断的模型与数据不匹配,界定如下,

14、相似性功能由下提供其中Sj 是2k 2矩阵, 包含相应的三次B取样函数系数, 和 是一个2k 2k 对角线矩阵,而 k A 子阵置于其对角线,并且一个2k 1向量由k T子向量串连形成,分别地, 是5. 注意在Revow et al.的研究,一个附加的统一干扰数据处理将用于模拟一些由劣质分割做成的结构干扰数据。由于我们使用的数据组的分割是相对好的,是否使用干扰数据处理都没关系。如果要了解关于劣质分割的详细研究,读者情参看2. jth高斯的平均数, N 图象中黑象素的数目,Ng 是沿花键的Gaussians数目,6 b是用于建字的笔划宽度的高斯变异的相反数,yl 是个别黑象素的定位向量,而D表示

15、yl|1 l N。使用单一的球形b表示所有的Gaussians导致一个潜在的假设即字的笔划宽度的统一的。为简化起见,仿射变型参量的优先分布是假定整张纸里都是统一的,除非那些仿射变型参量会导致很大的剪切和收缩(如难以辨认的字体)而被阻止,而相应的模型构建在分类前被拒绝。这避免模型退化成一行片断,因而常常仅能很好地匹配数字“1”。这种过多的剪切或收缩在现实中并不多见。3.2.3 混合标准功能结合模型变型标准和数据不匹配标准,全面标准功能如下, 其中a是规则参量。The joint posterior distribution of w的联合在后分布和A, T的表示如下其中并假设p(w, A, T|D, a, b, Hi) . p(w, A*, T*|D, a, b, Hi) 和A* 和 T* 是A 和 T 的ML估算数。3.3 匹配3.3.1 最优控制点和仿射转换参数的估算取样函数控制点向量w和仿射变型A, T的MAP估算数是通过最大化在(11)的p(w, A, T|D, a, b, Hi)获得(或相同地通过最小化(10)中的EM(w, A, T; D)。 EM 3,和8的法则相似,但这里加入了一个仿射转换初始化步骤. 我们的实践中使用了EM运算法则, (13), (14), (15)和(16)分别给出E-

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号