基于Python的图片文字识别方法研究文献综述
2020-04-15 09:45:06
【研究目的及意义】
随着因特网,智能手机以及微信,QQ等社交网络的发展,给我们带来的大量的图片资源,图片成为因特网信息交流的主要媒介之一。而文字是图片信息存储和传递的重要载体,快速识别并处理图片文字信息对我们的工作或生活具有非常重要的作用。同时,在文本和其他对象同时存在的图片中,往往用户会更加关注图片中的文本内容,因此如何能够准确、快速地识别图片中的文字,对图片的主题和含义有更加深入的理解。然而,关于图片文字识别的研究还很少,相关算法也很不成熟,急需进一步的研究和探索,所以,图片文字识别技术在近年来越来越受到重视,图片文字的提取与识别在我们的办公、日常生活、盲人等特殊群体、实时车牌定位、实时处理票据、图像和视频检索等多个领域都有应用。比如:腾讯光学字符识别(Optical Character Recognition,OCR)的应用,可以快速识别腾讯QQ中的文字信息,有效区分文字内容是否合规,过滤违规文字,可以对QQ用户进行身份识别,可广泛应用于需要用户身份验证的场景中,降低用户输入错误,有效提升用户体验。还可以广泛应用于信息的检索,大大降低人力成本。但是,当下图片文字识别准确率在特定场景下还未能超越人类,传统意义上的搜索目前还不能完全摆脱图片文字搜索的局限,因此,深入探索一个更加精准、快速的图片文字识别算法具有十分重要的意义。
本文主要对基于Python的图片文字识别研究方法进行思考和研究,能够快速准确对输入的图片进行识别,提取图片内的高级语义信息,对了解图片文字识别原理和利用深度学习提高图片文字识别准确度具有较大的研究价值。
【国内外研究现状】
图片文字识别技术是计算机视觉中一个重要的研究领域。图片文字识别主要包括文字信息采集、信息分析和处理、信息分类和判断等几个步骤。其中信息采集就是将现实生活中的场景利用拍摄设备转化为计算机能够识别的数字图片,信息分析和处理就是通过计算机程序和算法,分析和处理图片中文字信息,如文字检测和定位、信息分类和判别就是对图片中文字信息去除噪声或者对文字分类提取出可编辑文字[1-5]。
为了解决图片中文字信息提取困难,从20世纪50年代文字识别方法就开始探讨并研制出了光学字符识别器[6-7]。到60年代后期手写体文字识别技术逐渐成熟,而且在识别精度和性能上基本能够满足需求。此时关于汉字识别研究也逐渐开展起来,例如IBM公司的Casey与Nagy于1966年发表了关于印刷体汉字识别论文。到70年代末,我国开始重视汉字字符识别研究,随后我国字符识别技术研究逐渐开展起来。到90年代中后期,清华大学开始综合研究汉字识别技术,这使得关于汉字的印刷体识别以及联机、脱机手写识别技术等取得巨大进步。近年来图像字符识别技术开始倾向于复杂的场景文字的研究,面对OCR技术的成熟与OCR局限性,大量学者开始着手场景文字识别的理论研究。然而就目前来看,由于图片文字复杂性,图片文字识别的技术离现实产品的实现还有一段差距[8-9]。
为了克服传统的文字识别局限性,近些年,随着人工智能的飞速发展与其他学科不断交叉渗透,新的文字识别方法涌现出来,即基于深度学习的场景文字识别方法,目前该方法处于蓬勃的发展当中,效果也越来越突出,逐渐成为计算机视觉社区热点研究内容之一。深度学习方法识别效果相对于传统文字识别方法要好,原因在于基于深度学习的方法克服了传统文字识别的一些不可逾越的缺陷,例如传统文字的考虑文字的纹理特征或者颜色、倾斜度等,而采用深度学习的方法则会弱化或者不考虑这些问题[10-11]。
关于深度学习方法进行图片文字识别是随着深度学习算法一直发展着,而且随着各种算法出现,图片文字识别效果正在向良好的方向发展。最初文字识别停留在简单的单层感知机、反向传播(Back Propagation,BP)神经网络识别上[12-13]。自从Hinton等人提出的深度置信网络(Deep Belief Net,DBN)结构,掀起了深度神经网络研究热潮,由此推动了深度神经网络(Deep Neural Networks,DNN)的发展,加之硬件GPU处理速度不断改善,训练神经网络效率也越来越高。相比于无监督学习的神经网络模型DBN,有监督的神经网络模型卷积神经网络(Convolutional Neural Networks,CNN)是目前比较流行的文字识别模型,被广泛运用在场景文字识别中[14-16],相比于CNN,循环神经网络(Recurrent NeuralNetwork,RNN)在文字识别中运用的则相对较少。实际上,现在更多学者倾向于结合DNN、CNN、RNN中一项或者多项算法进行文字识别的研究,从而利用它们之间的优点,达到更好的文字识别效果[17]。