验证码识别技术研究毕业论文
2022-04-05 19:50:36
论文总字数:20539字
摘 要
随着技术的迅猛发展,网络已经渗透至人们生活的方方面面,与之伴随而来的是网络的安全性问题。目前,各种类型的验证码应用已经成为加强网站安全性的一个重要手段。
本文采用图像处理、模板匹配和机器学习等理论和算法对验证码进行识别研究,先选取了比较有代表性的南京工业大学统一身份认证服务图形验证码作为研究对象,主要使用图像处理算法和模板匹配算法对其提出针对性的破解方案,验证了这种验证码本身存在的不安全性。另外选取较为复杂的百度网站登录图形验证码作为可选任务,和第一种验证码的破解方案不同,不再主要采用模板匹配,而使用机器学习中的支持向量机算法进行破解。
在论证了具体方案之后,设计了软件流程,描述了实际调试中遇到的问题,分析原因,再用上述两种方案系统对更多验证码进行识别,测试其鲁棒性并得出结论。
关键词:验证码 识别 图像处理 模板匹配 机器学习
Research on technology of the recognition of CAPTCHA
Abstract
With the rapid development of technology, the network has penetrated into all aspects of people’s life, followed by the network security issues. At present, the application of various types of CAPTCHA has become an important means to strengthen the security of sites.
This paper uses image processing, pattern recognition, machine learning and other theory to research on verification of CAPTCHA. Firstly, we select the representative Nanjing Tech University unified identity authentication service image CAPTCHA as a research object. We mainly use image processing algorithm and pattern recognition algorithm to propose the targeted cracking method, and verifying the insecurity of itself. In addition, we also select another more complex CSDN image CAPTCHA as an optional task. Different from the first cracking method, for this type of CAPTCHA, we use SVM algorithm to crack instead of using pattern recognition algorithm.
After demonstating the specific schemes, we design the software process, describe the problems encoutered when debugging, and analyze the possible reasons. Then, we use the above two schemes to recegnize more CAPTCHAs, and test their robustness to draw a conclusion.
Key Words: CAPTCHA; Recognition; Image processing; Pattern recognition; Machine learning
目 录
摘 要 I
Abstract II
第一章 绪 论 1
1.1 验证码的定义和起源 1
1.2 验证码的作用 2
1.3 验证码的分类 2
1.3.1 字符型验证码 2
1.3.2 图像验证码 2
1.3.3 语音验证码 3
1.3.4 其他验证码 3
1.4 验证码识别技术研究的意义 3
1.5 目前相关技术的发展情况 4
1.6 本文的工作 4
第二章 方案论证 6
2.1 课题任务 6
2.2 课题分析 7
2.3 图像预处理 9
2.3.1 灰度变换 9
2.3.2 图像二值化 9
2.4 图像分割 10
2.5 归一化
2.6 验证码识别
第三章 验证码识别系统设计 12
3.1 流程图 12
3.2 开发工具 13
3.3 具体实现 13
3.3.1 灰度变换 13
3.3.2 图像二值化 13
3.3.3 图像分割 17
3.3.4 归一化 18
3.3.5 制作模板库 19
3.3.6 验证码识别 19
第四章 验证码识别系统性能分析 21
4.1 性能分析 21
4.1.1 南京工业大学统一身份认证服务图形验证码识别 21
4.1.2 百度网站登录图形验证码识别 22
4.2 识别方法比较 28
4.3 建议 30
第五章 设计改进和结论 31
5.1 设计改进 31
5.2 结论 31
结 语 33
参考文献 34
致 谢 36
绪 论
本章主要介绍验证码的概念、起源、作用、分类和相关背景知识,为之后验证码的识别打下理论基础。
1.1 验证码的定义和起源
随着技术的迅猛发展,网络已经渗透至人们数字化生活当中的方方面面,与之伴随而来的是互联网络的安全性问题。目前,各种类型的验证码应用已经成为加强网站安全性的一个重要手段。
验证码是一种测试,它可以由计算机自动生成并评判,但是必须只有人类才能解答并通过测试,而计算机程序是不能通过此类测试的。
验证码产生的源头主要是雅虎一方面想要解决雅虎邮箱用户每天遇到的数以千计的垃圾邮件轰炸,另一方面雅虎自己的免费邮箱受到垃圾邮件的攻击最多,而这些人们想要竭力阻拦的垃圾邮件却都来自于雅虎本身的服务器,无论是涉及到用户体验还是雅虎自身的利益问题,都需要一个方式去解决人机辨识问题。当时路易斯给出了一个简单却巧妙的设计方案,先是由计算机产生一个随机的字符串,然后利用计算机程序对这个字符串的图像随机进行添加噪声、倾斜、扭曲、变形等操作,再显示给计算机前的用户,让用户去辨识图片上的字符,而只有当用户是人类的时候,这些被随机变形扭曲或者添加噪声的字符才能够得到正确的辨识。这种让用户输入一个扭曲变形的图片中显示的数字或字母的方法,便是最原始的一种验证码。这种新奇的验证方式很快得到大众的认可,人类用户只需要使用短短几秒就可以通过互联网上的验证码测试,但这种验证方式却可以阻挡绝大部分的垃圾邮件和垃圾评论。
图1-1 验证码图像
请支付后下载全文,论文总字数:20539字