验证码识别技术研究

资源描述

《验证码识别技术研究》由会员分享，可在线阅读，更多相关《验证码识别技术研究（74页珍藏版）》请在金锄头文库上搜索。

1、中国科学技术大学硕士学位论文验证码识别技术研究姓名：王璐申请学位级别：硕士专业：信号与信息处理指导教师：张荣 2011-05 摘要 I 摘摘要要随着互联网的高速发展，网络在给人们的生活带来极大便利的同时，其安全问题也日益突出。网络验证码作为一项广泛使用的验证手段，对网络安全起到了重要的作用。对验证码识别技术的研究，可以及时发现和改善验证码的漏洞，在增强网络安全性、防止恶意机器程序攻击方面有着重要意义。本文运用计算机视觉、模式识别等相关理论对多种不同类型的验证码进行识别研究。选取了具有代表性的猫扑、西祠胡同和天涯验证码为研究对象，对具体的验证码提出了针对性的破解方

2、法，揭示了其不安全的可能性。并通过不同的识别算法的对比，使研究具有一定的理论和实际价值。主要工作和成果如下： 1. 重点研究了用于字符识别的 BP 神经网络、卷积神经网络和形状上下文算法，给出详细的推导。 2. 针对已有的猫扑验证码，提出了一种识别方案。该方案采用分段线性变换去除图像模糊，利用局部 OSTU 二值化，得到了比全局阈值更好的分割结果。对传统的投影分割法改进，提出了极小值分割算法，有效解决了猫扑验证码字符粘连的问题。并采用简化后的卷积神经网络进行字符训练和识别，达到了 94.1%的高识别率。 3. 对已有的西祠胡同验证码，提出了 K-means 聚类算法和竖直投影结合的

3、方式完成分割，解决了字符叠加和粘连的难题。对单个字符以简化后的卷积神经网络进行训练和识别，识别率达到了 53%。 4. 对已有的难以分割的天涯验证码，提出了基于形状上下文整体识别验证码的方法，破解率达到了 27.7%。这种整体识别的思想也给其他较难分割的验证码提供了一个新的识别思路。关键字关键字：验证码,识别，卷积神经网络，BP 神经网络，形状上下文 Abstract III A ABSTRACTBSTRACT With the rapid development of Internet，the network has brought great convenience to peo

4、ples live. At the same time, network security issues are also prominently increasing. As a widely used means, Network CAPTCHA has played an important role in network security. The research of CAPTCHA recognition technology can help us discover and improve the loopholes of the verification code, so a

5、s to prevent websites from malicious attacks by machine program. This paper uses computer vision and pattern recognition to recognize different types of CAPTCHA. We select the representative Mop, Xicihutong and Tianya captcha as the research object. Aiming at the specific code, we proposed targeted

6、breaking method to solve practical problems. The results reveal the possibility of their insecurity. Through comparison of different recognition algorithms, the study has theoretical and practical value. Following is the main work and achievements: 1. Focus on the algorithms of BP neural network, co

7、nvolutional neural network, and give their details of the derivation. 2. For the existing divided Mop code, we propose a recognition scheme. It use piecewise linear transformation to remove the image blur. Local OSTU binary threshold got better than the global results. After improving the traditiona

8、l projection method we propose the minimum segmentation algorithm and it effectively solve the merged characters in Mop code. Then simplified convolutional neural network is used to train and recognize single character. It achieves a high recognition rate at 94.1%. 3. For existing Xicihutong verific

9、ation code, the K-means clustering algorithm combined with vertical projection is proposed to complete division and it solve the problem of stacking and adhesion. Then single character is trained and recognized by simplified convolutional neural network and the recognition rate is 53%. 4. For existi

10、ng tianya captcha, we put forward the overall recognition algorithm based on shape context to verify code. The broken rate is 27.7%. This global recognition thought also gives a new idea to identify other code which is more difficult to split. Key words: CAPTCHA, recognition, convolutional neural ne

11、twork, BP neural network, shape context 中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名：_ 签字日期：_ 中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将

12、学位论文编入中国学位论文全文数据库等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。公开保密（_年）作者签名：_ 导师签名：_ 签字日期：_ 签字日期：_ 第 1 章绪论 1 第第 1 1 章章绪论绪论 1.1 1.1 研究背景研究背景 1.1.1 1.1.1 验证码概念验证码概念随着互联网技术的快速发展和应用，网络在给人们提供丰富资源和极大便利的同时，伴随而来的就是互联网系统的安全性问题。验证码的出现正是加强 web 系统安全的产物。验证码(CAPTCHA

13、) 最早作为卡内基梅隆大学的一个科研项目，Yahoo! 是 CAPTCHA 的第一个用户。 CAPTCHA 是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写，是一种区分用户是人类还是计算机的公共自动程序。在一个验证码测试中，由计算机生成一个问题并评判用户的答案，这个问题必须只有人类才能解答。由于计算机无法解答，回答出该问题的用户就会被认为是人类1。CAPTCHA 在网络上的大规模使用起源于 1999-2000 年 Yahoo 网站的账号注册

14、。目前大部分网站都引入了验证码机制来加强网络的安全验证。 1.1.21.1.2 验证码的分类验证码的分类由于生成验证码程序的不同，验证码的种类也多种多样。大体有基于字符的图片验证码、3D 验证码、基于数学的验证码、声音验证码和中文验证码等。 1. 基于字符的图片验证码这是网络中最常用的验证码。它易产生，具有标准答案，不受背景知识和文化差异的影响，暴力破解复杂度很大。几乎所有的国内网站和大部分的国外网站都是采用此种验证码。此类验证码是系统在用户访问页面时随机产生的一个图像，图像中包含数字、字母或其他文字。其中字符序列与背景图像进行信息融合，添加干扰噪声，或对图像进行混杂、

15、扭曲、粘连、变形等处理，以增加图像识别的难度。这也是我们的研究对象。以后章节提到的验证码若无特别说明，便指此类图片验证码。第 1 章绪论 2 新浪新浪搜狐搜狐网易网易西祠胡同西祠胡同 Google Yahoo Msn Hotmail 图图 1.1 各大网站邮箱的验证码 2. 3D 验证码这类验证码对机器而言较为难以破解，但生成比较麻烦，用户体验也不如字符验证码简单，现有网站应用的较少。图图 1.2 带缩放和旋转的 3D 验证码2 3. 基于数学的验证码这类验证码基于数学运算，给出一个数学算式或一段代码，其结果作为验证码填入页面。计算机几乎无法回答，但用户体验更差，要求用

16、户有数学基础或代码经验，难以普及。图图 1.3 数学验证码第 1 章绪论 3 4. 声音验证码图图 1.4 audio 验证码这种验证码跟字符验证码结合，播放的声音中有图片中的字符。图图 1.5 另一种声音验证码 5. 中文验证码验证码图片字符为汉字，如网易验证码(图 1.1)。由于中文字库较大，汉字字体类型较多且国外对汉字不熟悉，这类验证码可以抵挡得住国外垃圾信息的攻击。但这种验证码的用户体验比较差，只能应用于中国。并且用户需要花费比数字英文字符验证码更多的时间来输入中文字符。图图 1.6 中文验证码的另一个例子第 1 章绪论 4 6. 一些其他的验证码下图给出的是基于图像内容和语义的验证码。图 1.7 的验证码要求用户单击 3 幅是猫的图像。图 1.8 是根据所给的图像顺序在备选图像库中单击匹配的图像。图图 1.7

展开阅读全文