基于背景特征与hmms的脱机手写字符识别技术

资源描述

《基于背景特征与hmms的脱机手写字符识别技术》由会员分享，可在线阅读，更多相关《基于背景特征与hmms的脱机手写字符识别技术（5页珍藏版）》请在金锄头文库上搜索。

1、 1 引言 (Introduction) 无约束脱机手写字符在书写过程中存在很大的随意性，其风格因人而异，因时而变，目前其识别问题已经成为模式识别领域的难点之一。隐马尔可夫模型（Hidden Markov Models, HMMs）是一种对非平稳随机序列信号进行建模的方法，它采用双重随机过程对信号进行描述1。因其对脱机手写字符手写过程中的书写变形具有很强的适应性，因此已经成为脱机手写字符识别的一种主要识别方法，并取得了良好的效果2-7。根据HMMs 中观察值的性质，可以将HMMs识别问题分为连续 IEEE Catalog Number: 06EX1310 型（Continuo

2、us HMMs, CHMMs）与离散型 (Discrete HMMs, DHMMs)两个基本类型。与CHMMs相比， DHMMs具有计算量小、无需大量训练样本就能获取较好识别效果的优点，因此得到了广泛的应用。基于DHMMs的字符识别系统主要包括预处理、图像序列化、特征提取、矢量量化、模型估计以及模型匹配等基本步骤，其中特征提取、矢量量化、模型估计算法以及模型拓扑结构等对最终的识别结果都有着重要的影响。在特征提取方面，经过几十年的研究与实践，研究者已经提出了黑像素数、笔划密度、粗外围、笔划方向、方向线素、轮廓特征、方向特征以及各种矩特征等多种描述方法，并且取得了良好的效

3、果。上述特征的一个共同点是：它们都基于前景点（黑像素点）提取出来的特征。为了从不同角度对 Proceedings of the 25th Chinese Control Conference 7-11 August, 2006, Harbin, Heilongjiang 基于背景特征与HMMs的脱机手写字符识别技术王先梅1，杨扬1，林子钰1,2 1. 北京科技大学信息工程学院, 北京 100083 E-mail: plum-wang 2. 北京中环冶金总公司, 北京 100011 E-mail: zylin 摘要: 本文提出一种基于隐马尔可夫模型与背景特征的脱机手写字符识别方法。本文所提

4、出的特征提取方法是对Alceu等人提出的4方向背景特征的改进。改进后的特征提取方法以背景点（白像素）为中心，考察其与周围前景点（黑像素）在8个方向上的连接关系，并按照所归纳的18种连接方式对每个背景点进行标记。将该方法用于无约束脱机手写大写金额的识别，取得了良好的实验效果。实验结果表明：在HMMs识别框架下，在相同的模型拓扑结构的基础上，改进后的8方向背景特征的识别率较改进前提高了2.24.8个百分点。关键词: 脱机手写字符识别，背景特征，特征提取，隐马尔可夫模型 Background Features for HMMs-based Off-line Handwritten Char

5、acter Recognition Xianmei Wang 1, Yang Yang1, Ziyu Lin1,2 1. School of Information and Engineering, University of Science and Technology Beijing, Beijing 100083, China E-mail: plum-wang 2. Zhonghuan Metallurgical Corporation, Beijing 100011, China E-mail: zylin Abstract: Feature extraction is one of

6、 the most important factors for recognition system based on Hidden Markov Models (HMMs). This paper presents a new approach by using background feature and HMMs for off-line handwritten character recognition. The background feature for white pixels (also called background pixels) is based on the Fre

7、eman code with eight directions, which is an improvement of Alceus method with four directions. Experimental results for off-line handwritten Chinese legal amount show the validity of the new approach. The recognition rate is about 1.84.9% higher than that of Alceus method with the same HMMs topolog

8、y. For the new approach within the tested topologies, the highest recognition rate can be 96.39%. Key Words: Character Recognition, Background Feature, Feature Extraction, HMMs 1825 原始图像进行描述，Alceu 与Robert等研究人员提出一种从背景点（白像素）提取特征的方法，并取得了较好的识别效果67。但是该方法仅沿着水平和垂直方向考察了0度、90度、180度和270度四个角度上背景点与前景点之间的位置

9、关系。为了更加精细的对原始图像进行描述，本文在Alceu等人工作的基础上，针对字符识别提出了一种改进的背景特征：增加了撇和捺两个方向的描述方法，将描述角度从4个扩展到包含45度、125度、225度和315度在内的8个角度，并且将背景点与前景点之间的连接关系增加到18种。为了测试该特征的有效性，本文将其用于基于DHMMs的脱机手写大写金额的识别。实验结果表明，改进后的系统识别率得到了较好的改善。此外，在基于DHMMs的识别系统中，模型拓扑结构的选择是非常重要的一个步骤。在背景特征提取的基础上，本文还考察了不同的模型结构、状态数目以及观察值数目对系统最终识别性能的影响

10、。 2 背景特征提取 (The Extraction of Background Features) 本文所提出的背景特征的基础是背景点与前景点之间的相对位置关系。这里，首先介绍了Alceu等人提出的4方向背景特征，然后给出了本文提出的8 方向背景特征的描述方法。 2.1 Alceu等提出的4方向背景特征 (Background Features with Four Directions) 文献6将前景点与背景点之间的相对位置关系归纳为图1所示的13种关系。图1 4方向背景特征的连接结构示意图特征矢量由属于每种连接结构的背景点的数量和组成，因此特征矢量的维数为13。特征提

11、取时首先以背景点为中心，考察其在上、下、左、右四个方向上与黑像素之间的连接关系。若至少两个相邻方向上有黑像素存在，则按照图1所示的连接关系对该背景点的连接类型进行标记。最后求属于每种连接类型的背景点的数目。 2.2 改进的 8 方向背景方向特征 (Background Features with Eight Directions) 本文在图1的基础上进行了改进，除上、下、左、右四个方向外，还从四个对角方向来考察背景点与前景点之间的连接关系，并去除了A、B、C和D四种结构方式。新增加的9种连接结构如图2所示。可见，改进后的8方向特征对字符结构的描述更加

12、精细。图2 新增加的连接结构示意图 3 基于HMMs的字符识别技术 (HMMs for Character Recognition) 在模式识别领域的分类器设计方面，HMMs是研究与应用的热点。它具有很强的处理序列化动态信号的能力，在语音识别、文字识别、人脸识别等领域都得到了广泛的研究与应用。关于详细的 HMMs基础知识可以参考文献 1 ，这里仅就具体应用做简单介绍。 3.1 HMMs概述 (The Introduction of HMMs) HMMs的基本思想是用双重随机过程来描述一个模式：一是不可测的基本随机过程即Markov链，用来描述模式内部状态序列；另一个是观测随机过

13、程，用来描述状态和观测值之间的关系。从观察者角度看，Markov链是不可见的，只能看到观测值，因此只能通过观测随机过程来感知状态的存在及其特性。描述一个一阶HMM过程所需的参数集为 ),(BAMN=，具体参数说明如下： 1 2 3 4 5 6 7 8 D C A B 表示该方向无黑像素存在表示该方向有黑像素存在 9 10 11 12 13 14 15 16 17 18 表示该方向无黑像素存在表示该方向有黑像素存在 1826 (1) 元素N：表示模型中Markov链的状态数。 (2) 元素M：表示在每一个状态下可观察到的不同观察值数目。 (3) 状态转移概率分布矩阵 NNij a

14、A =：表示相邻两时刻中前一时刻的状态为 i S的条件下，后一时刻的状态为 j S的概率。 (4) 模型输出观察值的概率分布矩阵 MNjk bB =：表示给定当前状态 t q为 j s时，输出观察值 k v的概率。 (5) 初始状态概率矢量).,( 21N =： i 表示初始状态 i s作为初始状态 1 q的概率。为简单起见，),(BAMN=可以简记为 ),(BA=。 HMM应用于模式识别就是要为每一个模式建立一个HMM参数模型，识别过程中根据样本的观测值，计算每个模型产生该观测值的后验概率，并将该样本归属于后验概率最大的模型所属的类型中。 3.2基于HMMs的字

15、符识别系统 (HMMs-based Character Recognition System) 出于计算量、样本数量、识别速度以及是否有成熟算法等方面的考虑，本文采用了完全的1维 DHMM来建模：采用分区滑动窗口技术将二维图像信号转变成完全的一维时间信号序列，即将二维图像信号分解成许多局部区域，然后在每一局部区域里提取特征并组成一维信号特征序列。本文所采用的系统整体结构如图3所示。整个系统分为训练过程和识别过程两大阶段。在训练阶段，每个训练样本经过二值化、外边框获取、平滑处理以及尺寸归一化等预处理后形成尺寸为6464的归一化二值图像；然后采用垂直滑动窗口技术（窗口

16、宽度为8）从左到右依次将归一化图像分割成8个子图像序列；并对每个子图像进行背景特征提取，形成背景特征矢量序列。由于可能的特征矢量序列数目太大，因此利用K-Means算法进行矢量量化。经过矢量量化后形成M个量化码本，并根据最小距离准则输出训练样本各特征矢量的编码符号，得到长度为T=8的观察值序列。然后将观察值序列送入模型估计模块，利用Baum-Welch算法计算出每类汉字的模型参数。识别过程中，待识别样本经过与训练阶段相同的预处理、图像序列化以及特征提取后，将所得的特征矢量与码本里的码本矢量进行比较，并按照最小距离准则进行码字分配，这样特征矢量序列就变成了一条长度为T=8的观察值序列；然后由Viterbi 算法进行模型匹配，估计出所有模型产生这一观察值序列的可能性；最后将该待识别汉字归属于输出最大可能性的模型所对应的类别中去。图3 系统结构 3.3模型拓扑结构的选择 (The Selection of Model Topologies) 将H

展开阅读全文