基于深度学习的字符识别文献综述
2020-05-25 23:43:50
文 献 综 述
1. 字符识别的研究背景及意义
随着计算机与信息技术的高速发展,计算机技术已经完全地渗透到我们的生活中,成为人们日常生活中不可或缺的一门技术。然而,在今天这样一个信息量爆炸的时代,人机交互的效率已经成了信息技术发展的瓶颈,而字符识别是实现人机交互的接口之一,对它的研究有助于实现人机交互的智能化。字符识别技术[1]就是对信息进行智能化的识别,采用人工智能的手段,通过这种技术可以完成信息的对接交流,同时这门课题在模式识别神经网络技术应用中具有很好的研究价值。
字符识别技术所对应的处理信息主要有文字信息和数据信息两类。文字信息方面主要处理的是各国、各名族的手写文字或印刷品上的文字信息,联机手写字符识别技术和印刷体识别技术目前已趋于成熟,且已具备许多应用系统,但在脱机手写字符识别方面还有众多瓶颈需要解决。字符识别根据特征提取方法大体上分为了基于结构的方法与基于统计的方法两类[2]。基于结构的方法的优点是符合人的直觉,可以容易地处理局部变换,其主要缺点是抗噪声能力差。基于统计的方法比较成熟,具有抗干扰、噪声的能力,识别性能好,识别速度快的优点,它的难点是特征提取,因此,在统计字符识别中,特征提取的质量是影响系统性能的关键因素。字符识别这一研究领域涉及到认知心理学,图像处理,模式识别等多个学科,与我们的生活密切相关。本文的理论意义在于,通过研究字符识别算法,在其现有算法的基础上进行改进优化算法,提高识别率和准确率,对理论算法的深入研究以及提出新的理论有很大帮助。
2. 字符识别的发展
随着信息技术的快速发展,特别是计算机和图像处理技术日趋成熟,字符识别得到
了广泛的应用,国内外对字符识别已经有了很深的研究。早在1929年,德国Tausheck就申请到了光学字符识别(OCR)技术专利[3,4],利用模板匹配对字符进行分类识别,成为字符识别领域的先驱者。上世纪60、70年代,全世界的各个国家都陆续开始研究OCR,同为亚洲国家的日本于上个世纪60年代左右开始研究OCR的相关识别理论,开始以数字为研究对象。我国在这方面的研究在80年代才开始,相对于其他国家来说,我们国家的研究确实晚了一些[5],我国最开始牵头研究这方面的专家是我国的一位中科院院士,起初是研究手写字符的识别系统的。
现在,对于正规的中文书写,识别的正确率可以达到98%,但是对于行书,由于其相似性,正确率很难达到90%,现在的技术现状告诉我们字符识别技术仍留给我们很大的研究空间。2014年4月,计算机应用与软件在其第31卷第4期刊登了期刊 #8212; 一种改进的深度神经网络在小图像分类中的应用研究[6],该期刊基于卷积神经网络和深度信念网络各自的优点,通过把卷积神经网络的局部感受野引入到深度信念网络的单层中,把深度信念网络的单层分成多个子RBM,提出一种改进的深度信念网络,改进的深度信念网络在Cifar-10库上错误率为30.16%比卷积神经网络低了9%,比传统的深度信念网络低了40%;在MNIST上的识别错误率为1.21%,比传统的深度信念网络分别降低了16%,略高于卷积神经网络。2015年6月,周树森将深度学习的方法应用到手写中文识别中,提出了一种新的手写中文识别方法#8212;#8212;基于深层架构的手写识别方法(Handwriting Recognition with Deep Networks,HRDN)[7],来解决无约束手写中文问题。
3. 深度学习在字符识别中的应用
从20世纪80年代以来,机器学习的发展大致经历了两次浪潮,浅层学习(Shallow Learning)和深度学习[8](Deep Learning)。2006年,多伦多大学的教授Geoffrey Hinton[9]和他的学生在《《自然》》上发表文章第一次提出了深度学习的概念。深度学习主要包含深度信念网络(DBN,Deep Belief Network)、卷积神经网络(CNN,Convolutional Neural Networks)和深度神经网(DNN, Deep Neural Network)等几类模型。