联机手写数字识别研究毕业论文
2022-07-24 10:13:32
论文总字数:21771字
摘 要
手写数字识别是OCR技术的一个重要分支,分为包括联机识别和脱机识别,而联机识别是本文主要研究的内容。
本文实现了手写数字的联机输入、预处理、特征提取、特征匹配和识别。联机输入过程采用模拟手写板进行输入;本文对手写数字进行了去拐点、二值化、归一化字符大小等预处理;提取手写字符的方向特征和距离特征构成特征码串作为匹配的特征;特征匹配采用模板匹配法,从建立好的特征库中查找特征与提取的特征进行匹配识别,得到最终识别结果。
实验结果的表明本文的联机手写数字识别方法有较高的识别率和较快的识别速度。
关键词:联机识别 模板匹配 特征提取
The Study of the On-line Handwritten Character Recognition
Abstract
Handwritten character recognition is an important branch of optical character recognition technology, which studies that people use computer automatically to recognize handwritten numbers. Handwritten recognition includes online and offline character recognition, and on-line handwritten character recognition is the main study.
In this paper, the system includes online inputs, preprocessing, feature extraction, feature matching and identification. In the online input, the analog of the handwriting board is used. Preprocessing includes removing the inflection point, binarization and normalization. And while the character input, the array is used to record character locus as matching feature. Feature matching uses template matching, which searches feature matched to identify from the well-established features of the library, to get the final recognition result.
Experimental results show that on-line handwritten recognition methods in this paper have a higher amount of recognition rate and faster recognition speed.
Key Words: Online Identification; Template Matching; Feature Extraction
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 课题背景 1
1.2 联机手写数字识别的研究现状 1
1.3 本文的主要工作和安排 2
第二章 联机手写数字识别系统概述 3
2.1 联机识别系统的基本构成 3
2.2 联机识别系统的相关概念 3
2.2.1联机输入 3
2.2.2 预处理 4
2.2.3 特征提取 4
2.2.4 特征匹配识别 5
2.3 识别难点 5
2.4 本章小结 6
第三章 联机输入与预处理 7
3.1 联机输入 7
3.2 预处理 8
3.2.1 去除拐点 8
3.2.2 二值化 9
3.2.3 归一化 9
3.2.4等间距取样 9
第四章 特征提取与识别 11
4.1 特征提取 11
4.1.1 特征提取方法 11
4.1.2 手写数字特征 11
4.1.3 本文选用的特征 12
4.1.4 本文特征提取的实现 14
4.2 特征库的建立与更新 19
4.2.1 特征库的建立 19
4.2.2 特征库的更新 21
4.3识别 21
4.4 本章小结 23
第五章 结果与分析 24
5.1 实验环境 24
5.2 测试过程与结果 24
5.3 分析 27
第六章 总结与展望 29
6.1 总结 29
6.2 展望 30
参考文献 31
致谢 33
第一章 绪论
1.1 课题背景
模式识别包含了联机手写数字识别,通过对客观物体进行模式分类,模式识别是利用计算机对客观的物体进行分类,在允许错误的一定范围内,使得输出识别的结果尽可能与客观事物相一致。联机手写数字识别通过一个手写板实时的将数字输入到计算机中,这种方法将输入的字符转化为书写时的坐标序列,处理的是这些坐标序列构成的笔画串,含有了书写时的方向和速度等信息[1]。联机手写数字识别涉及到很多领域的内容,如模糊数学、图像处理、统计理论和计算机等领域,是一门综合性研究的技术。另外,手写体数字识别的研究一直是人们研究较为深入的一个领域。通过最近几十年来国内外人员对字符进行的深入研究,发现了许多有效的识别方法,同时,也产生出越来越多的用于字符识别的应用软件。
随着现在社会经济的全球化、国际化,票据的数量与日剧增。而目前票据数据的录入还依赖于人工键入处理的方式,如果能够实现联机手写的输入,将大大节约时间,节省工作量。另外,手写数字识别能够应用到人口普查,成绩录入,甚至能够被应用到邮件分拣系统中[2]。而且,阿拉伯数字作为全球通用的符号,没有国家文化的差异不同,没有实验平台的差异,各国研究人员可以更好的交流,有助于研究比较各种算法的优缺点,促进联机手写数字识别的研究进展[3]。
1.2 联机手写数字识别的研究现状
1929年至1933年,有德国人Tausheck与美国人Handel先后取得了OCR专利权[4]。20世纪50年代计算机的出现与发展促进了真正OCR的到来。在1990年之后,各国许多研究人员通过对字符的识别的研究提出了许多流行有效的识别工具,其中有人工神经网络ANN(Artificial Neural Network)[5],支持向量机(Support Vectot Machine)[6-8],隐马尔科夫模型(Hidden Markov Model,HMM)[9]等。在人工神经网络识别方法中,采用了神经网络的学习和记忆功能,通过对特征向量的记忆构成一个记忆库,当识别时,通过输入的样本从记忆库中找到与之匹配的样本进行输出。支持向量机具有出色的学习功能,在人脸识别、指纹识别、车牌识别等领域得到了很广泛的应用。另外,具有很强学习和建模能力的隐马尔科夫模型现今已经应用于图像识别中了。
目前研究手写数字识别的方法有结构特征的提取识别和统计特征的提取识别[10]l两种方法。在我国邮电部第三研究所为了区别各地区的信函,采用方法识别信封上的邮政编码。在中国科学院自动化研究所采用有限状态机对手写数字进行识别,识别率达到95.2%。上海交通大学采用BP网络识别法,选取12600个样本训练集,6000个样本测试集,识别率达到97.58%。德国一位研究学者Friedhelm Schwenker以一万个模板样本为基础,采用SV-RBF40对手写数字进行识别,识别率高达98.56%。然而,上面提到的系统,对书写人员的限制比较多,或者对书写的正规程度有要求,或者对书写位置有要求,真正的无限制手写数字识别的研究还有待进一步的提高。
请支付后下载全文,论文总字数:21771字