基于深度学习的多语言OCR模型研究开题报告
2021-03-10 23:59:09
1. 研究目的与意义(文献综述)
光学字符识别(ocr)有着相当广泛的应用,也是目前研究的热点和难点。然而现今的ocr系统绝大部分都是针对单种语言,在mocr(多语言ocr)方面任然面临着极大的挑战[1]。传统的ocr过程一般采用文本归一化[2] 字符分割 特征提取 隐式马尔科夫(hmm)模型的方案以完成识别过程[1]。
ocr起源于上个世纪,近期又由于多种因素而兴起[3]。tesseract[4]和ocropy系统是业界著名开源的ocr系统,能对拉丁语系进行识别,且正确率可观。然而,亚洲语系(中日韩语,阿拉伯语,印度语等)的识别一直是ocr难点所在。ray smith等人综述亚洲语系的识别困难[5];simon liao等人详细地给出影响中文ocr的因素所在[6]。ray smith等人通过调整tesseract处理方案,完成中英混合文本的ocr过程;simon liao利用二维几何序列提取中文字符特征优化识别,都取得了不错的结果。但这些识别过程始终无法跳出字符分割和单一字符识别的传统ocr框架。
近些年,随着深度学习理论的完善[7,8],我们发现lstm网络[9,10]在时间序列问题上取得优异表现。这意味着,采用lstm完成ocr不失为一种新的解决方案。lstm网络完成mocr相较于传统mocr方案有着很多优点。在文献[11]中,thomas breuel等人采用,不使用语言建模进行优化的lstm网络,得到比优化后的hmm模型更佳识别结果。在此基础上,thomas breuel等人使用双向lstm网络[12] ctc在英德法三种语言上进行mocr,能将识别误差降至约1%[13]。但lstm网络在东亚语系的mocr结果如何,怎样提升lstm网络的mocr性能,就是本文的研究所在。
2. 研究的基本内容与方案
研究的基本内容包括:
①研究基于lstm递归神经网络来实现多语言的训练及识别过程。
②研究其他深度学习的方法能否改善现有的基于神经网络的多语言ocr识别结果。
3. 研究计划与安排
2017.2 - 2017.3.15 获取某些语言的文本数据,并产生训练集
2017.3.16 - 2017.4.15 lstm网络编码与调试
2017.4.16 - 2017.4.30 东亚语系应用,结果分析与讨论
4. 参考文献(12篇以上)
[1] xujun peng, huaigu cao, venu govindaraju. multilingual ocr research and applications: an overview, 2013
[2] sheikh faisal rashid, faisal shafait, thomas breuel. scanning neural network for text line recognition, 2012
[3] thomas breuel. the ocropus open source ocr system, 2008