基于深度学习的手写字符识别文献综述
2020-04-28 20:30:26
随着计算机技术的推广应用,尤其是互联网的日益普及,人类越来越多地依赖计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行。在日常生活和工作中,存在着大量的文字信息处理问题,因而将文字信息快速准确地输入计算机的要求就变得非常迫切。光学字符识别技术(OCR)是计算机自动、高速地辨别纸上的文字,并将其转化为可编辑的文本的一项实用技术。它是新一代计算机智能接口的一个重要组成部分,也是模式识别领域的一个重要分支。
手写字符识别是OCR领域的一个基础的问题,字符识别要解决数据的采集、处理及选择、输入样本表达的选择、模式识别分类器的选择以及用样本集对识别器的有指导的训练等问题。字符识别和处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字(如:汉字,英文等)书写或印刷的文本信息;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等。目前文字识别技术己经广泛应用到了各个领域中,它作为计算机智能接口的重要组成部分,在信息处理领域中可以大大提高计算机的使用效率,是办公自动化、新闻出版、计算机翻译等领域中最理想的输入方式,将庞大的文本图像压缩成机器内码可以节省大量的存储空问。
深度学习(Deep Learning)是机器学习领域的重要分支,隶属于神经网络范畴,旨在通过模拟人类大脑进行抽象学习的过程来解决相关问题,其本质是多层神经网络。卷积神经网络(ConvolutionalNeural Network, CNN)是一种前馈神经网络,它包括卷积层(Convolutional Layer)和池化层(Pooling Layer)。由于其在处理图像分类问题的高效性和准确性,引起了专家学者的广泛重视。
TensorFlow是谷歌研发的深度学习框架,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。TensorFlow中包含深度学习的经典算法和模型,借助TensorFlow,用户可以快速地搭建好深度学习模型并投入测试。{title}2. 研究的基本内容与方案
{title}本课题设计了一个深度卷积神经网络模型,并使用TensorFlow对模型进行实现,从识别手写数字开始,到识别大小写手写字母。最后应用于手写字符数据集MNIST和Chars74K并评估。
在模型设计的过程中参考了Yann LeCun于1994年提出的LeNet-5模型,其主要特点如下:
1)每个卷积层包含三个部分:卷积、池化、非线性激活函数
2)MLP(Multi-layer Perceptron)作为最终的分类器
3)层与层之间稀疏连接以减少计算复杂度
4)最终预测结果由Softmax函数输出