基于深度学习的图片文字识别技术的研究毕业论文
2022-01-13 21:53:59
论文总字数:15451字
摘 要
文字识别主要包括图像预处理、字符特征的提取、图像的输入、字符的预识别和文本信息的后处理。神经网络识别法是目前主要的文字识别技术之一。在实践中,它通常是和其他文字识别技术相互结合使用的。
卷积神经网络是由隐藏层和输出层组成可以并行、高速地处理数据的前馈神经网络。它以其快速的学习收敛性而备受关注。自学习、自组织、自适应是它最显著的特点。
本文研究和分析了字符识别的相关技术和神经网络技术,同时对常用的图形和字符提取算法进行了比较和分析,设计并实现了一种复杂图像的布局分析算法。使用OpenCV算法和相关的先验知识对段落和行进行分段。最后,利用投影和贪婪算法对字符进行分割,形成图形和文本信息。实现了一种简单的卷积神经网络,系统的输入是提取对象的特征向量,通过对大量文本样本的训练,来达到实现对字符的识别的目标。
关键词:文字识别 卷积神经网络 深度学习 OpenCV
Research On Picture Recognition Technology Based On Deep Learning
ABSTRACT
Text recognition mainly includes image input, image preprocessing, character feature extraction, character pre-identification, and post-processing of text information. Neural network recognition is one of the main text recognition technologies. In practice, it is often used in conjunction with other text recognition technologies.
Convolutional neural network is a feedforward neural network, which consists of a hidden layer and an output layer. It can process data in parallel and at high speed. It has received much attention for its rapid learning convergence. Self-learning, self-organization, and self-adaptation are its most prominent features.
This paper studies and analyzes the related techniques of text recognition and neural network technology. At the same time, it compares and analyzes commonly used graphics and character extraction algorithms, and designs and implements a layout analysis algorithm for complex images. Segments and lines are segmented using the OpenCV algorithm and related prior knowledge. Finally, the projection and greedy algorithms are used to segment the characters to form graphics and text information. A simple convolutional neural network is implemented. The input of the system is to extract the feature vector of the object. Through training a large number of text samples, the target of text recognition can be achieved.
Key words: text recognition; deep learning; Convolutional neural network; OpenCV.
目 录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1课题研究的背景与意义 1
1.2国内外研究现状 1
1.3本文的主要工作 2
第二章 深度学习理论 3
2.1深度学习简介 3
2.2卷积神经网络简介 3
2.2.1卷积运算 3
2.2.2神经网络 4
2.3卷积神经网络的基本结构 5
2.3.1卷积层 6
2.3.2池化层 6
2.3.3激活层 7
2.3.4全连接层 8
第三章 神经网络的构建及训练 9
3.1卷积神经网络模型的训练 9
3.1.1数据集的构建 9
3.1.2网络模型的训练 10
3.2卷积神经网络服务的构建 11
3.2.1 TensorFlow模型持久化 11
3.2.2使用socket网络服务提供接口 11
3.3卷积神经网络的部分代码 12
第四章 图像处理 14
4.1图像前期处理 14
4.1.1图像灰度化 15
4.1.2图像二值化 15
4.2倾斜校正 15
4.2.1基于傅里叶变换和霍夫变换的图像矫正 16
4.2.2基于文本轮廓的矩形矫正 16
4.3表格框线处理 18
4.3.1形态学转换 18
4.3.2交点分析 19
4.3.3构建掩模 19
4.4图像版面分析及分割 20
4.4.1轮廓检测 20
4.4.2宽度优先策略 21
4.4.3最大空白区域法 22
4.5字符分割 23
4.5.1投影处理 23
4.5.2 Beam Search算法分割 24
4.6实验结果 25
4.6.1单字符识别结果 25
4.6.2纯文本识别结果 26
4.6.3复杂文本识别结果 27
总结与展望 29
参考文献 30
致 谢 32
第一章 绪论
1.1课题研究的背景
文本作为不同于一般视觉元素的信息源,可以补充其他信息。因此在我们的日常生活和办公中,快速、准确地获取和处理这些文本信息就越来越显得十分重要了。
从阅读到智能条目扫描,文本信息处理的阴影无处不在,但信息处理的主题已经从人脑变为计算机,但这种变化让我们节省了大量的时间和精力。文本识别技术可以广泛应用于实际生活中,如文档输入与扫描仪相结合等。这些应用程序减少了人们的劳动,提高了处理效率。目前市场上的文本识别产品种类繁多,但由于相关问题还不完全解决,这些产品一直存在一些缺陷。因此,我们还需要研究文本识别技术,以改进和创新这一技术,扩大其应用领域。
神经网络自提出以来一直没有停止前进,其理论也不断更新。各种基于神经网络的产品不断地被设计和应用于各个科学研究领域。利用神经网络以及其他新兴技术学科来处理问题也成为人们解决问题的方向。
利用神经网络实现文本识别是目前最流行的识别方法之一。与其它方法相结合并相互补充的文本识别应用仍是目前研究的方向。未来文本识别技术的发展方向应是更高效、准确、智能的识别,并与工业应用相结合。
1.2国内外研究现状
字符识别技术往往随着图像技术或计算机技术的发展而变化。其最关心的问题是字符识别的速度和准确性。现在这项技术的进步往往来自这两个方面。近年来,中国在计算机自动输入汉字信息领域的研究和开发取得了长足的进步。同时,大量的应用实践也对文献自动化的研究提出了更高的要求和更多的课题,使得该领域的科研工作进入了一个深刻而蓬勃的发展阶段。
OCR的构想起源于1929年,由德国科学家Taushcck首先提出了。因此国外很早就开始研究字符识别技术,并将主要能量放在识别方法研究的早期阶段。因为外文的构成相对简单和开始研究时间较早,所以国外在该领域的研究相较国内研究更具优势,在理论和产品开发方面更为成熟。
国内的研究起步较晚,但发展很快。从早期的简单单一字符识别到现在可以支持简单和繁体汉字的识别,以及支持中英文字母识别。例如,极端OCR支持多语言的高效离线识别,准确率为96%,并支持单个图形的任意文本选择。
1.3本文的主要工作
本课题是基于神经网络的图形文字识别技术的研究。 它基于日常生活中的各种图像,结合深度学习技术。 系统识别后,将其转换为计算机可识别的文本,从而完成系统输出。 将系统应用于实际场景可以大大提高工作效率。 如果应用于办公室,它可以快速识别各种文件和表格数据,生成文件,提高工作效率,同时也可以识别网络中的文本,方便计算机了解图片内容,从而非法信息进行快速排除故障,清理网络环境等等。
第二章 深度学习理论
2.1深度学习简介
我们人类可以自动解决直观问题。如果我们把这些概念描绘成彼此的基础,我们将得到一幅深刻的(多层次的)画面,这种方法就是深度学习。
请支付后下载全文,论文总字数:15451字