基于VGGNet-16的数字识别系统毕业论文
2021-04-13 20:16:02
摘 要
模式识别技术是对输入的数据进行特征提取再进行分类或者匹配的操作。分类技术是模式识别的一个分支,手写数字识别技术本质上也属于一项分类任务。虽然手写数字识别是模式分类中一个非常基础的任务,但是我们仍然可以由小见大,在对手写数字识别进行研究的过程中学习模式识别的一些核心问题,并由此掌握其他分类问题的解决方法。数字的使用跨越了语言的存在,在世界范围内,数字的使用可谓无所不在。不管是在日常生活或是自动化系统研究领域中,手写数字识别都有着十分广阔的市场需求和应用前景。因此,不论是从理论学术还是实际应用方面来讲,对手写数字识别的研究都有着十分重要的地位。
人工智能是近年来非常流行的一个概念,在大家眼中,它是高科技、先进技术的代表。人们希望计算机能够拥有类似于人类的思维模式去解决问题,帮助人类从繁琐的劳动任务中解放出来,改善人类的生活水平。机器学习(Machine Learning,ML)是使计算机由变得“智能”的一种方法,而深度学习(Deep learning,DL)则是则是机器学习领域新兴的一种技术。它的出现极大程度地推动了机器学习的发展,使人工智能的实现变得不再遥远。
目前对于印刷体数字识别技术已经较为成熟,但是手写体数字由于个人书写习惯、使用场景等因素,较印刷体数字的识别会更难建立起一个精确的数学模型。因此本文完成了基于VGGNet-16的数字识别系统的设计与实现,网络结构参考2014年发表的VGGNet论文,并在此论文中提出的VGGNet-16网络模型上做出修改:由于选用数据集的图片尺寸原因,在网络中第五段卷积网络中的三个卷积层中不采用论文中提出的3×3大小的卷积核,而是选取更小的1×1的卷积核;由于第五段卷积层输出数据的卷积核通道数并不多,因此将全连接层的输出节点数改为1024。并在网络模型中使用Dropout技术来提高所设计的模型的泛化能力。最终训练好的网络在MNIST数据集的训练集上准确率的峰值可达100%,训练集上准确率近似收敛于99.219%,在MNIST数据集的测试集上准确率可达98.4375%。网络在训练集和测试集上都有着不错的准确率。并使用MFC技术完成系统的实现。
关键词:卷积神经网络;TensorFlow;手写数字识别;VGGNet-16;
Abstract
Pattern recognition technology is the operation of feature extraction and classification or matching of input data. Classification technology is a branch of pattern recognition, and handwritten digital recognition technology is also a classification task in essence. Although handwritten numeral recognition is a very basic pattern classification task, but we can still see from small to big, the opponent to write number recognition is studied in the process of learning some core problems of pattern recognition, and thus to master other classification methods to resolve the problem. The use of Numbers spans the existence of languages, and the use of Numbers is ubiquitous around the world. Whether in the field of daily life or automation system research, handwritten digital recognition has a very broad market demand and application prospect. Therefore, whether from the theoretical academic or practical application, the research on the digital recognition of adversary writing has a very important position.
Artificial intelligence is a very popular concept in recent years. In everyone's eyes, it is the representative of high technology and advanced technology. People hope that computers can have the thinking mode similar to human beings to solve problems, help human beings free from the tedious labor tasks, and improve the living standard of human beings. Machine Learning (ML) is a method to make computers "intelligent", while Deep Learning (DL) is a new technology in the field of Machine Learning. Its emergence has greatly promoted the development of machine learning and the realization of artificial intelligence is no longer far away.
To print digital identification technologies are relatively mature, but the handwritten Numbers due to factors such as personal writing habits, usage scenarios, a print digits recognition will be more difficult to build a precise mathematical model. So in this paper, based on VGGNet - 16 digit recognition system, the network structure reference VGGNet of papers published in 2014, and in this paper puts forward the VGGNet - 16 a change on the network model: due to choose the image size of the data set, the fifth in the network in the period of the three convolution convolution network layer is not adopted in the paper put forward 3 x 3 sizes of convolution kernels, but choose a smaller 1 x 1 convolution kernels; Since there are not many convolution kernel channels for the output data of the fifth convolution layer, the number of output nodes of the full connection layer is changed to 1024. Moreover, the data mirroring technology is used in the network model to improve the generalization ability of the designed model. Finally, the trained network can reach a peak of 100% accuracy in the training set of MNIST data set, approximately converges to 99.219% in the training set, and 98.4375% in the test set of MNIST data set. The network has good accuracy in training set and test set.
Key Words: Convolutional neural network; TensorFlow; Handwritten digit recognition;
VGGNet-16;
目 录
第1章 绪论 1
1.1 选题背景 1
1.2 国内外研究现状 3
1.3 本文主要工作和结构安排 4
第2章 系统需求分析与设计 5
2.1 系统需求分析 5
2.2 系统相关原理分析 5
2.2.1 卷积神经网络结构 5
2.2.2VGGNet-16模型 7
2.2.3 神经网络的优化 11
2.2.4 MNIST数据集 12
2.3 系统方案设计 14
第3章 基于VGGNet-16的数字识别系统实现 15
3.1 模型实现 15
3.1.1 模型搭建 15
3.1.2 训练模型 17
3.1.3 评估模型 19
3.1.4 手写数字图片识别 19
3.2 系统实现 19
第4章 实验结果与分析 21
4.1 框架介绍 21
4.2 实验结果和分析 22
第5章 总结与展望 29
5.1 总结 29
5.2 展望 29
参考文献 30
致 谢 32
第1章 绪论
1.1 选题背景
上世纪中期计算机被发明出来时,人们仅仅希望借助计算机来完成一些科学计算。但是到现在,随着计算机技术的迅猛发展,计算机的体积越来越小,处理速度越来越快,存储空间越来越大。计算机已经能更加准确、高效地代替人类完成一些计算繁复的问题。但这并不意味着计算机就能取代人类的劳动。一些对于人类来说较为容易完成的任务,例如不同语言之间的相互转换、语音识别、图像分类这些需要一定的思维能力来处理的任务,却很难通过传统的计算机处理方法来处理。人工智能的难题也由此展开:如何使计算机在处理数据时拥有类似人类的“思考能力”。
人工智能的说法近年来非常流行,但它并不是一个新兴的概念,在上个世纪计算机被发明出来不久,就已经有了相关的说法。在1950年的时候,图灵(Alan Mathison)就提出了图灵测试的想法,但是自此五十年来,尽管大批的科研人员孜孜不倦的对于人工智能进行深入研究,但却没有一台机器能达到图灵测试的标准。人工智能的发展陷入了瓶颈。
深度学习的出现打破了这一瓶颈。自2006年以来,随着人工神经网络领域的突破性发现以及互联网的发展,图灵实验的实现也渐渐变得可能起来,就在前不久,谷歌母公司董事长确认语音AI Duplex已经通过图灵测试,它可以基于用户的日程安排,通过电话完成理发和餐厅预定。究其缘由,不仅要归功于是当下计算机性能的提升,更要归功于深度学习算法的出现。