基于ASTER模型的场景文本检测方法的研究与实现毕业论文
2021-11-06 23:15:58
摘 要
随着大数据时代的到来,信息的重要性不言而喻,而作为信息的重要载体,文字的识别成为了学界和工业界的一个热门研究方向。传统OCR技术的发展使得文档本文的识别不再成为问题,但场景文本的出现形式和功能都与文档文本有着很大的不同,有着更高的复杂性。而场景文本识别的一大难点就在于不规则文本的识别。
为了解决这一问题,本文基于空间变换网络和薄板样条插值技术设计了一个具有矫正功能的注意力机制序列到序列识别模型。模型包括矫正网络和注意力机制识别网络两个模块。矫正网络负责将不规则文本矫正为规则文本,识别网络负责从矫正产生的新图像中识别文本内容。传统的矫正网络使用的空间变换网络使用了双线性插值,本文在此基础上做出了改进,使用薄板样条插值作为插值算法,提升了矫正性能。识别网络上,本文使用双向长短期记忆网络代替了传统的循环神经网络,增强了对一些特殊单词的识别性能。
为验证模型效果,在多个数据集上对模型进行了测试。实验验证表明,矫正网络的添加对识别模型的性能有着显著的提高。同时,在多个数据集上的测试也表明本模型对多种类型的不规则文本都有着良好的矫正和识别效果。
关键词:场景文本识别;不规则文本;矫正网络;空间变换网络;薄板样条插值
Abstract
With the coming of the information age, information’s significance is self-evident. As an important carrier of information, the recognition of words is turning into a high-profile research direction in the academic and industrial circles. With the development of traditional OCR technology, the technology of document text recognition is mature. But scene text is different from document text. It’s more complex. One of the problems in scene text recognition is the recognition of irregular text.
In order to solve this problem, an attentional sequence-to-sequence recognition model with rectification is designed based on STN and TPS. The model includes two modules: rectification network and recognition network. The rectification network rectifies irregular text into regular text. The recognition network identifies text content from rectified images. Spatial Transformer networks used in traditional recognition network uses bilinear interpolation. This paper uses Thin Plate Spline as the interpolation algorithm to improve rectification performance. Besides, this paper uses bidirectional LSTM instead of RNN to improve rectification performance on some special words.
So as to validate the consequence of the model, we do the tests on some datasets. Experimental findings manifest the rectification network is able to enhance model’s recognition ability, Besides, test on several datasets manifests this model has good rectification and recognition performance on various types of irregular text.
Key Words: Scene Text Recognition;Irregular Text,;STN,;TPS;Rectification
目录
第1章 绪论 1
1.1 选题背景 1
1.2 研究目的和意义 3
1.3 国内外研究现状 4
1.3.1 场景文本检测 4
1.3.2 文本矫正 5
1.3.3 端到端文本识别 6
1.4 研究内容 7
1.5 文章结构 7
第2章 ASTER模型 8
2.1 矫正网络 8
2.1.1 控制点定位网络 9
2.1.2 采样点生成器 9
2.1.3 取样器 10
2.2 识别网络 11
2.2.1 编码器 12
2.2.2 解码器 12
2.3 模型训练 13
2.4 本章小结 14
第3章 实验验证 15
3.1 实验环境 15
3.1.1 深度学习框架 15
3.1.2 运行环境 15
3.2 实验设置 15
3.2.1 数据集设置 15
3.2.2 矫正网络设置 16
3.2.3 识别网络设置 16
3.3 实验结果分析 17
3.3.1 矫正网络效果 17
3.3.2 识别性能对比 17
3.4 本章小结 18
第4章 总结与展望 19
4.1 总结 19
4.2 展望 19
参考文献 20
致谢 22
第1章 绪论
1.1 选题背景
随着大数据时代的到来,信息的重要性不言而喻,是越来越重要的。而文字是信息传播的重要载体,作为人类文明的传承基石,文字已经有着非常悠久的历史。公元前四千年前,那还是青铜时代初期,从那时起,文字逐渐取代象形图、助计符等不完善的记录方式,成为了人类历史和思想的一个准确而持久的载体,不断传承着文明。而在现代这个信息化社会,每时每刻都有大量信息流通。作为信息传递的主要载体,文字承担着传递信息的重任,因此提取文本中的文字信息是获取所需信息的重要途径,这就意味着文字识别技术所具有的重要性。而伴随着通讯行业、多媒体行业的发展,文字不再仅仅以标准文本的形式出现,有很多的文字信息开始以图片的方式出现在生活和工业生产中。如果能够通过机器自动地检测、分割、识别这些文字信息,那么对理解、检索图像信息有着很大的帮助。这也就是光学字符检测技术,即OCR。文字识别技术在日常生活和工业生产中都有着极为广泛的应用,譬如在文档扫描、证件检测、虚拟现实、图像检索、人机交互、无人驾驶等多个领域都拥有着很高的地位。
因为文字作为信息传递载体普遍存在,且文字信息具有高度重要性,所以在计算机视觉中,检测并理解图片之中的文本信息一贯是处在一个特别重要的地位。从图像中检测并识别文本的技术我们称之为光学字符识别技术,即OCR。它的研究在上个世纪初也就是20世纪初就已经开始了,在计算机视觉方面它一直是最早的应用场景之一。早在二十世纪二十年代,以色列就有一物理学家Emanuel Goldberg发明了一种基于感光器和模式识别算法的引擎,称为统计机,它被用来检索微缩胶片文档。自二十世纪六十年代起,基于电子计算机和各种仪器的OCR系统在各个领域都有了很广泛的应用。根据资料的记载,最早的OCR软件是开发于1957年的ERA(Electric Reading Automation)。它的实现方案是使用窥视孔技术完成识别,它的识别英文字母的速度最高可以达到120/s。从此,OCR技术的研究以及开发工作在世界范围进行广泛。