基于机器学习的图像文本识别算法毕业论文
2022-01-16 17:38:33
论文总字数:17045字
摘 要
图像识别文本算法解决的是在互联网不断发展的今天,图像作为当今社会信息的主要载体,如何快速有效的检测图像中的文本信息。随着大数据时代的到来,每天都产生了大量的图像信息,而人的精力是有限的,如果能通过计算机视觉,帮助人们提取图像中的文本信息具有很好的研究意义。
近年来随着深度学习的兴起,卷积神经网络相比于传统神经网络在图像处理上有了很好的性能提升,所以使用卷积神经网络来处理图像文本是非常有可能的。
本次课题研究的主要是图像识别文本,对文本识别首先要对连续文本进行分割,本次研究课题首先采用投影分割法对于文本进行分割,其中涉及到对于图像二值化等操作。对于文字的识别采用卷积神经网络的结构来进行识别。
课题的开发语言选择使用Pyhton, Tkinter作为界面实现,TensorFlow作为神经网络框架。
关键词:投影法分割 卷积神经网络 深度学习 文本识别
Image Text Recognition Algorithm Based On Machine Learning
Abstract
The image recognition text algorithm solves the problem that the image is the main carrier of today's social information, how to quickly and effectively detect text information in images. With the advent of the era of big data, a large amount of image information is generated every day, and people's energy is limited.
In recent years, with the rise of deep learning, convolutional neural networks have improved performance in image processing compared to traditional neural networks, so it is very possible to use convolutional neural networks to process image text.
The main aim of this subject is the recognition text during the image. For text recognition, the continuous text should be segmented first. This research topic first uses the projection segmentation method to segment the text, which involves operations such as image binarization. The recognition of the text is identified by the structure of the convolutional neural network.
The development language of the subject is selected using Pyhton, Tkinter as the interface, and TensorFlow as the neural network framework.
Key Words: Projection Method Segmentation; CNN ;Text Recognition
目录
摘要 I
第一章 绪论 1
1.1 课题背景和意义 1
1.2 国内外研究现状 1
1.2.1对深度学习研究的现状 1
1.2.2对于文本识别的现状 2
1.3 课题研究主要研究内容 2
1.4 文章的主要结构 2
1.5 本章小结 3
第二章 相关技术 4
2.1 TensorFlow介绍 4
2.2 Python介绍 4
2.3神经网络介绍 4
2.3.1传统神经网络和激活函数的介绍 4
2.3.2 卷积神经网络介绍 8
2.4 本章小结 10
第三章 设计流程 11
3.1 设计的主要流程 11
3.2 图像分割简介 11
3.3水平垂直投影法介绍 12
3.3.1 背景介绍 12
3.3.2 算法介绍 12
3.3.3 效果演示 12
3.4 卷积神经网络模型介绍 14
3.5 模型内参数的介绍 17
3.5.1 对学习速率的介绍 17
3.5.2 对损失函数的介绍 17
3.5.3 对优化器的介绍 20
3.5.4 Dropout和分类器介绍 22
3.5.5 卷积层和池化层结构特征的介绍 24
3.5.6 对数据的操作 25
3.6 本章小结 26
第四章 界面介绍 27
4.1 Tkinter介绍 27
4.2 界面介绍 27
4.3 本章小结 28
第五章 模型的应用和测试 29
5.1 数据集介绍 29
5.2 分割图片和识别效果展示 30
5.3 本章小结 30
第六章 总结与展望 31
6.1 本文的主要工作 31
6.2 对文字识别的进一步展望 31
参考文献 32
致谢 33
绪论
本章对图像识别文本的背景和意义以及行业的现状进行了描述,对主要研究内容的介绍。
1.1 课题背景和意义
图片信息充斥在生活的方方面面[5]。随着大数据时代的到来,图像数据的暴增,但是与此同时图像又是我们获取信息的重要来源。因此使用计算机模拟人类进行图像识别有着重要的意义。
深度学习技术不依赖人工去设计图像的表层特征,而是以数据为驱动,自动去学习到图像的特征[11]。深层的卷积神经网络比传统的机器学习取得了更好的成绩,现阶段的深度学习方法用于图像识别的常用方法是构建深度神经网络,使用一定量的数据进行训练,深度神经网络会自动提取图像特征,达到较好的识别效果。
本次课题研究的意义就是在图像发展迅速的现代社会背景下,使用深度学习方法使得计算机智能的提取图片中的文本信息。本次实验图像识别文本选则的就是对手写汉字的一个识别。因为汉语作为母语,汉字作为人们日常生活中使用最多的文字,比如说平时的书写等,即便是在计算机迅速普及的现在,手写依旧在现在的生活发挥着极其重要的作用。所以手写汉字运用广泛,具有很好的研究价值,具有非常广泛的应用场景。
1.2 国内外研究现状
1.2.1对深度学习研究的现状
深度学习是现在机器学习的主要趋势,九十年代的LeNet是最早的卷积神经网络框架,但是由于当时数学理论的没有完全完善导致卷积神经网络并没有得到重视,直到2012年数学理论在深度学习方面的不断完善和发展,卷积神经网络也得到了数学理论的强力支撑,与此同时AlexNet取得巨大成功之后,卷积神经网络被大规模使用于计算机视觉。
请支付后下载全文,论文总字数:17045字