联机藏文手写识别概述

上传人:夏** 文档编号:579350945 上传时间:2024-08-26 格式:PPT 页数:23 大小:987.54KB
返回 下载 相关 举报
联机藏文手写识别概述_第1页
第1页 / 共23页
联机藏文手写识别概述_第2页
第2页 / 共23页
联机藏文手写识别概述_第3页
第3页 / 共23页
联机藏文手写识别概述_第4页
第4页 / 共23页
联机藏文手写识别概述_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《联机藏文手写识别概述》由会员分享,可在线阅读,更多相关《联机藏文手写识别概述(23页珍藏版)》请在金锄头文库上搜索。

1、联机藏文手写识别概述吴健孙嫣吴健孙嫣中国科学院软件研究所中国科学院软件研究所基础软件国家工程研究中心基础软件国家工程研究中心8/26/20241摘要n准备工作n手写识别过程n联机藏文手写识别的预处理n联机藏文手写识别特征提取n聚类n实验方法和结果8/26/20242准备工作n藏文文字的组成n藏文的字符集编码标准GB/T 16959-1997信息技术 藏文编码字符集 基本集GB/T 20542-2006信息技术 藏文编码字符集 扩充集A字母字丁(字符)音节词句子8/26/20243n藏文字丁的书写特点n基本处理单元的选择藏文文字的结构特点相关国家标准n识别编码范围基本集和扩充集A在内的910多个

2、字丁,剔出掉了不常用的梵文字符准备工作8/26/20244准备工作n联机藏文手写识别的研究基础参考结构文字的联机特征提取方案还是拼音文字的联机特征提取方案?n藏文识别相对于汉字识别的特点宽高比1:2笔画方向性圈、弧状结构8/26/20245准备工作n藏文手写识别难点易混淆字过多n印刷体相似字n手写体相似字f41ef41ef37df37df42af42af3aef3aef4ebf4ebf5e1f5e1f327f327f497f497f3b4f3b4f49cf49c8/26/20246联机藏文手写识别流程n识别基本流程n预处理了对手写输入的字符在字形上进行修正,减少同类字符输入样本间字形上的变异。

3、是保证特征提取和识别算法的有效性的前提。n特征提取根据经过预处理后的联机手写字符,提取出相对于位移、大小、旋转、变形等具有不变形的模式特征。 预处理特征提取分割分类后处理语料库word8/26/20247联机藏文手写识别的预处理n预处理主要操作线性归一化,减少字符大小的变异。加入虚拟点,使字的每个笔画的点密度相同。非线性归一化,减少笔划形状的变异(笔画太长、太短,笔画太集中等)。重采样,减少点的间距的变异以及笔划上点的数目的变异。点的平滑,去除笔画上的噪点。8/26/20248n线性归一化操作的选取公式及宽高比确定进一步改进联机藏文手写识别的预处理8/26/20249n非线性归一化方案的选取基

4、于线密度基于交叉距离基于点密度联机藏文手写识别的预处理方案1:“初始方案”,使用基于点密度的非线性归一化操作;方案2:基于线密度的非线性归一化操作。方案3:基于基交叉距离的线密度非线性归一化操作。方案4:改进后的基于点密度的非线性归一化操作。8/26/202410联机藏文手写识别的预处理n对基于点密度的非线性归一化方案的改进笔画断裂、笔画间不连续的原因n直方图投影变化剧烈n解决方案8/26/202411联机藏文手写识别的预处理n笔画等距离采样和平滑基本作用都是为了消除噪音。应用在非线性归一化操作之后,除了能消除手写字符本身由于抖动带来的噪音以外,还可以消除由于预处理阶段中前续处理带来的附加噪音

5、。n等距离采样 平滑NewOldW和H是经过重采样操作处理后的手写样本的宽和高。8/26/202412联机藏文手写识别的特征提取n特征提取根据经过预处理后的联机手写字符,提取出相对于位移、大小、旋转、变形等具有不变形的模式特征。选用了网格方向信息特征提取方案,使最终提取出来的样本特征尽可能的突出表现这个样本的笔画方向信息特征。n网格方向特征一种模板相关的特征提取方法,不针对手写字符具体的结构。先将预处理操作后联机手写字符分成nm的格子,再在每个方格中提取与空间位置相关的方向特征。使联机手写的笔画上的点的方向特征与空间相关,而不是与时间相关。8/26/202413联机藏文手写识别的特征提取n方向

6、的确定八方向还是四方向拆分?8/26/202414联机藏文手写识别的特征提取n滤波器的选择网格方向特征提取方法需要对分割后的小网格计算特征值;特征值的取得依赖于小网格内点的分布以及一个权值空间;权值空间的分配一般都使用某种低通滤波器来计算。n使用Gaussian滤波器来计算权值Gaussian函数是单值函数,因为边缘是一种图像局部特征,靠近切分后小网格的边缘部分的点一般认为是噪音。二维Gaussian函数具有旋转对称性,即滤波器在各个方向上的平滑程度是相同的。Gaussian滤波器看以看做是Gabor滤波器的简化,它的参数较少,便于设计和实验。8/26/202415联机藏文手写识别的特征提取n

7、Gaussian滤波器是尺度,它决定了滤波器的分布宽度。n优点滤波器宽度(决定着平滑程度)是由决定,和平滑程度的关系是非常简单的。n设计越大对噪声的抑制效果越好。过大的会造成图像模糊、变暗,造成图像轮廓界限的消失。 r是切分后的小网格边长。8/26/202416联机藏文手写识别的特征提取n图像分割的粒度弹性网格n根据直方图投影对图像进行切分弹性网格设计中的困难nGaussian滤波器n切分后采样中心的确定n二值投影到灰度投影联机手写样本中的交点信息8/26/202417联机藏文手写识别的特征提取n原始特征值缺陷特征值在0200多不等,导致在进行聚类的距离计算时,大数占据了绝对的地位。个别特征值

8、的巨大差异会削弱其他特征值的影响。n改进 n实验结果根据不同字型可实验不同的方法,本文采取第二种方法,识别率提高到96.146%,比原始的特征值计方法提高了1个百分点。8/26/202418聚类n聚类距离:传统的欧氏距离 n分析比较距离时,不必计算平方根,减少计算量。曼哈顿距离、city-block距离:计算相对应的属性差值绝对值之和,即指数为1。指数 2时:增加了大差异的影响力而削弱了小差异的影响力。n实验结果欧氏距离:96.0646%。不计算平方根:96.0992%,有微小提高。指数 = 1:90.3861%,识别率迅速下降,说明减小大差异的影响不利于识别效果。指数 = 3:96.8843

9、%,比欧氏距离提高了0.8个百分点。8/26/202419聚类nHard Clustering每个模式只能属于一个类nFuzzy Clustering每个模式可以属于多个类由Hard Clustering改为Fuzzy Clustering,识别率由97.146%提高到97.2151%。8/26/202420实验方法和结果n实验数据使用自建的藏文手写字库。用的样本集是编码在0xF3000xF3FF之间的256个字符,每个字符平均包含80套样本,共20259个联机藏文手写样本数据。n分类学习方法聚类:模糊的K均分距离测度:改进的欧氏距离8/26/202421实验方法和结果n实验结果Top-N结果候选集是指与测试集中的字丁最相似的前N个字丁。开放测试中,训练集中包含15094个字,测试集包含5165个字。99.9951%1202581099.9654%720252599.5409%9320166297.2111%565196941识别率识别率错误字数错误字数正确字数正确字数Top-N98.819%6151042097.6379%12250431094.5402%2824883584.5305%7994366272.8935%140037651识别率识别率错误字数错误字数正确字数正确字数Top-N封闭测试识别率开放测试识别率8/26/202422谢谢大家!8/26/202423

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号