文档详情

打印文稿识别技术研究与设计

壹****1
实名认证
店铺
DOC
569KB
约16页
文档ID:428641446
打印文稿识别技术研究与设计_第1页
1/16

毕业设计 学 生 姓 名: 学 号: 学 院、系:电子与计算机科学技术学院计算机科学与技术系专 业:软件工程设 计 题 目:打印文稿识别技术研究与设计指导教师: 2012年2月24日1绪论1.1研究背景和意义目前,打印文档的使用越来越广泛,而与此同时与伪造文档相关的案件也越来越多,例如伪造合同、伪造文档证据、非法传单在法庭的审判中,需要验证这些作为证据的文档的真实性;在刑事侦查过程中,需要追踪文档的来源因此,司法和公安部门迫切需要打印文档的取证技术,检验文档是否经过伪造,以及判断文档来自于哪一台打印机目前我国司法部门进行文件检验时主要采用人工借助仪器的手段,针对喷墨打印机主要从墨水驱动方式、墨水种类、打印字符质量、打印介质、用纸、油墨的理化性质[l-3]等进行种类鉴别;针对激光打印机主要利用拉曼光谱[4]分析打印文件字迹确定墨粉种类,从而推断打印机品牌和大致型号这些方法存在分析仪器价格高,操作专业性强,人工操作凭经验,分析成本高,有一定的主观性等特点实际的检验过程中,还很难做到判断文档来自于哪一台打印机如何确定文档的打印机品牌,以及来自于哪~台具体的打印机,一直是文件检验中的一个亟待解决的问题[5]。

随着计算机科学的发展,人们逐步尝试使用图像处理和模式识别技术来解决文档检验问题这种技术通过扫描仪将文档扫描成文档图像,然后利用图像处理技术从文档图像中提取一些能够代表打印机固有特征的特征,最后使用模式识别技术判断文档的打印机来源近年来,这种基于图像的无损被动打印取证技术[16-27]逐步发展起来,学者们提出了很多种方法但是实际中情况非常复杂,对提取特征的影响因素主要包括:纸张类型的变换、打印机的老化、硒鼓中墨量变化和更换、扫描仪的不同目前所提出的各种方法中的特征针对上述情况还并不是很稳定,检验准确率还有待进一步提高1.2本文贡献在上述基于图像的无损被动打印机取证技术中,学者们提出的方法主要集中在如何从含有墨迹的连通区域中提取打印机固有特征本文从整体页面上提取页面几何失真特征,实验表明,该特征可用于打印机来源认证本文分别用投影变换模型和弹性变换模型来对页面几何失真进行建模,提取模型的参数作为打印机固有特征本文的主要贡献如下:(1)综述打印文件取证技术本文总结归纳了2002年以来的打印取证技术,介绍各种取证技术主要思路目前在打印机取证技术领域,主要包含两大类技术:主动取证技术和被动取证技术。

本文所研究的内容属于被动取证技术2)提出了利用矩和矩阵函数进行判别本文最大的贡献就是利用矩阵相关知识来取证研究文中具体介绍通过行斜率变化规律实验发现页面几何失真现象的过程文中分别采用了投影变换模型和弹性变换模型来模拟页面几何失真现象,并实验了两个模型在文档来源认证中的具体性能,比较了两种模型在各方面的相似和不同之处,并比较了它们各自的优缺点1.3论文结构本论文各章的结构组织如下:第一章为绪论,主要介绍了研究背景和意义,同时介绍了本文主要贡献第二章为打印文档取证技术概述,主要从主动和被动两个方面进行介绍第三章介绍如何通过矩阵知识进行相关取证研究第四章在对全文进行总结归纳的基础上,展望了本文工作的可能发展2打印机取证技术综述本章将打印取证技术分为主动打印取证技术和被动打印取证技术两类主动取证技术通过嵌入外部特征实现取证;被动取证技术则利用了文档打印过程引入的固有特征2.1主动打印取证技术主动取证技术向打印文档中嵌入水印信息,使文档具有视觉不可见又可供算法识别的外部特征(extrinsic siemature),从而实现打印文档的主动取证目前主要包括以下典型技术:打印机厂商在部分品牌彩色激光打印机的打印品中嵌入视觉不可见的黄色斑点阵列信息:有很多学者研究了在打印机半色调算法中嵌入视觉不可见的水印信息;而Purdue大学的Edward J Dclp团队通过改变打印机机械级参数[10-15]控制墨点大小和位置来嵌入视觉不可见的外部特征。

以上方法和思想分述如下:(1)彩色激光打印机的黄色斑点信息激光打印机的制造商很早就考虑到其高性能的办公设备可能会给伪造文件者提供方便于是在打印机输出文件中嵌入了可供追查文件来源的水印信息在电子先锋(EFF,EIeclI_omc Frontier Foundation)的网站[6]上,报道了施乐彩色撇光打印机在输出文档中嵌入规则的黄色斑点阵列,如图2.1所示,以此记录文档的打印机型、打印时问等信息在文献中针对彩色激光打印机的黄点嵌入机制给予了一些实验性研究工作的报道[7-9]在图2. 1中,左图为实际扫描的黄色斑点图,其尺寸要大于实际;右图为人工绘制的蓝底黄点图,用以说明斑点阵列的编码格式 图 2.1 施乐彩色激光打印机的黄色斑点阵列及其编码格式EFF统计了18个厂商的209种型号的彩色打印机,具体如表2.1所示其中141种型号含有可追踪来源的黄色斑点,57种型号不含有,剩余的11种型号未知从中可以看出,有67%的彩色激光打印机嵌入了黄色斑点阵列信息,其它没有嵌入黄色斑点阵列的打印机可能采用了其它未知的技术嵌入了水印对于含有黄色斑点的彩色打印文档,可以通过提取黄点阵列信息准确的找到其来源打印机。

但是,占据市场上份额非常大的黑白激光和喷墨打印机是不可能嵌入“黄色"的墨点水印的所以这种可靠且简易的方法存在很大的局限性 表2.1各品牌彩色激光打印机是否嵌入黄色斑点型号统计表 (2)半色调算法级水印嵌入半色调算法级水印嵌入通过调整基N)异(Screening)、差错分散(Error Diffusion)和搜索(Searching)等算法的半色调处理过程实现水印嵌入它们的计算复杂度很高,不适合于实时打印应用[10]该类方法的讨论超出了本论文的研究内容,不详细介绍3)打印机机械结构级水印嵌入该类方法通过调整打印机机械结构的处理参数来实现水印嵌入在研究了打印文档中可用于判断打印机来源的条带特征[11]的基础上,可以事先通过调整激光强度产生这种条带信号[12],但是它的数据嵌入容量非常有限为了增大数据嵌入容量,Edward J.Delp团队又提出了基于边缘粗糙程度‘131和激光曝光调制[14]的改进方法,它们本质上仍然是调节激光强度嵌入条带特征最新的研究成果是通过调节半色调图像中墨点的位置来嵌入信息[10,15],它具有更好的鲁棒性和嵌入容量2.2被动打印取证技术被动打印取证技术从文档中提取了能够代表打印机个体的固有特征,使用模式识别的分类技术进行训练和分类,实现追踪文档的打印机来源。

2.2.1现有被动打印取证技术框架为了能够深入理解打印机的固有特征,了解激光打印机的工作过程是非常必要的激光打印过程如图2.2所示,共有6步:(1)感光鼓均匀充电;(2)激光扫描感光鼓,对特殊区域放电;(3)放电区域吸附墨粉;(4)感光鼓上的墨粉转印到纸张上;(5)墨粉与纸张相融合;(6)清洁感光鼓打印机结构中的电子机械设备的不理想会导致打印输出中存在缺陷[11]由于这些“缺陷”直接和打印机结构有关,所以认为是打印机的固有特征图2.2激光打印过程框图:(A)充电(B)曝光(C)附墨(D)转印(E)融合(F)清墨.为了便于大家理解,我们将通过和摄影过程做对比来解释这个六个步骤的作用步骤作用对比摄影过程充电将感光鼓表面充满电荷制造胶片感光通过激光束的扫描,在感光鼓上形成静电潜像拍照显影将带电墨粉颗粒吸附到静电潜像区,形成可见的墨粉图像冲洗底片转印将感光鼓上的墨粉图像转移到纸张上在相纸上放像定影通过加热加压将墨粉融化固定在纸张上冲洗相纸消影清除感光鼓表面的残余墨粉和电荷制造胶片的片基 表2.2打印过程和摄影过程的对比激光打印机工作原理:(1) 激光打印机的核心技术就是所谓的电子成像技术,这种技术融合了影像学与电子学的原理和技术以生成图像,核心部件是一个可以感光的感光鼓。

2) 打印机接收到计算机传来的打印内容后,将其转换为激光驱动信号,激光头发出的激光束通过一个转动的棱镜反射到充满电荷的感光鼓上,随着棱镜的转动,激光束从感光鼓的一端扫描到另一端,感光鼓被扫描到的部分电荷消失,形成静电潜像,将带电的墨粉颗粒吸附到感光区域(静电潜像区域),形成可见的墨粉图像,再将墨粉转印到打印介质上,最后通过加热装置将墨粉熔化固定到打印介质上对目前所掌握的文献进行总结归纳,对文档进行取证的过程框架如图2.3所示: 图2.3目前打印机被动取证技术的实现过程框架针对扫描得到的待取证的文档图像,主要经过预处理、对字符图像提取特征、分类/分割三个步骤实现文档的取证工作预处理过程用于完成前期处理工作,包括图像二值化,斑点墨迹噪声的消除,字符图像分割和字符识别工作.在文献[26]中还使用了直方图匹配和空间校正的预处理步骤来分别统一字符的灰度直方图变化范围和尺寸对字符图像提取特征主要分为9类,如表2.2所示: 表2.3被动取证技术提取特征的分类分类/分割则针对上述提取的特征,使用SVM分类器进行分类实现文档的来源取证,或者使用区域分割的技术判断文档是否经过伪造篡改。

同样可以采用其它的分类和分割方法实现类似的功能2.2.2现有被动打印取证技术详述下面分别将这9类方法简单描述如下:(1)打印质量分析02年John Oliver[16]等借助于ImageXpert专业打印质量分析软硬件,将提取的打印质量特征用于打印机来源取证,具体包括:线宽度、粗糙度、拖墨度、点圆满度、周长、周围散落墨点数等特征ImageXpert公司是专门为Hp等打印机公司提供打印质量分析工具的公司,它们可以帮助打印机厂商更好的完成新型打印机的质量性能检测评价该方法需要借助专业软硬件,扫描分辨率要求较高2)共生矩阵特征之前有很多学者在研究如何改进打印机的控制程序以更好的消除打印文档中包含条带现象,而05年Edward J.Delp团队则利用了这种条带特征进行打印机取证由于文本文档由较小的字符连通区域组成,提取条带存在困难,他们在05年从打印的“e”字.符图像中提取了描述纹理的共生矩阵特征[17]该方法实验中要求的扫描分辨率为1200dpiEdward J.Delp团队在该领域的研究最活跃,03年至今发表文献有22篇左右,其中5篇综述,7篇关于提取固有特征的被动取证技术,10篇关于嵌入外部特征的主动取证技术。

最近几年,该团队在嵌入外部特征的主动取证技术方面做的工作更多一些,他们与机械电子专业的团队进行合作,完成打印机内部的硬件改造3)灰度级特征04年Jack Tchan[l8]提出的特征包括:边缘锐利程度、表面粗糙度、图像对比度,要求的扫描分辨率较低,但仅实验圆点和方块图像内容的文档,并没有实验文本字符06和08年,Thomas Breuel等提出了一些基于普通纹理和边缘描述的灰度级特征[19-20],这些特征与04年Jack Tchan提出的特征有些类似,所以将其统称为“灰度级特征”文中给出了特征具体计算公式,便于实现,而且实验结果很详细该方法所需的扫描分辨率较低,适合应用在银行的高吞吐量文档管理系统中4)不变矩特征06年Cyril Murie等提出不变矩特征[21]用于打印机来源取证不变矩最早由M.Hu于1962年提出,针对图像的旋转、缩放、。

下载提示
相似文档
正为您匹配相似的精品文档