基于CTPN的自然场景文字识别研究开题报告

2020-02-18 19:22:46

1. 研究目的与意义（文献综述）

1、目的及意义（含国内外的研究现状分析）

1.1 研究意义

自然场景的文字识别，可以使计算机充分理解图像中的信息，减少人工成本。例如，可以通过交通路口的摄像头拍摄违规车辆的车牌进行识别，有助于交通系统的管理；通过拍摄商品包装的文字信息，快速获取袋内的商品信息；通过计算机分析报表文章，快速获取自己想要的信息。除此之外，自然场景的文字识别对于智能交互、机器人、无人驾驶等领域也有着十分重要的意义。

传统的光学文字识别主要面向高质量的文档图像，其中的文字大多都是印刷体，背景也十分清晰，辨识度高，但相比自然场景的文字识别，自然场景下图像就更为复杂——分辨率低、排布复杂、字体多样、噪声干扰等，此时，传统光学文字识别就会无法应用。自然场景是我们最为密切的环境，包含图案、位置、文字、结构等各种各样的视觉信息，而其中的文字信息则更为复杂，包含大小、纹理、颜色以及语义等信息，所以相对来说提取这些信息也就变得更为困难。作为许多相关技术的基础工作，自然场景的文字识别的不断发展具有十分重要的意义和发展前景，寻找一个简单、高效的算法是十分必要的。

1.2 国内外研究现状

图像中文本信息识别的研究最初源于ohya等对路牌、车牌、商店的标牌及货运列车标牌的信息提取，后来经过lee等对货运集装箱的识别，zhong等对cd和书籍封面的文本提取，zhou等从 www图像中提取文本的研究，使得原先只能处理灰度图像的方法发展到能够处理彩色图像，而且解决的背景复杂程度越来越高。近年来的工作热点则集中在场景图像和视频图像方面。
而如今针对自然场景中的文字识别研究也已有了很多，主要可分为基于字符的识别和基于整个单词的识别。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

2、基本内容及技术方案

2.1基本内容

本课题采用ctpn(connectionist text proposal network)来对图像进行文字识别。自然图像的文字识别主要分为两个部分，一是检测文本区域，提取文本区域图像；二是对提取出的文本进行处理、识别。通过这样一个过程能够对大多自然场景图像中的文字有一个较高的识别率。

而其中文本检测的难点在于对一个完整的文本线的检测，同一文本线的字符可能存在差异大、距离远的情况，每条文本线的长度可能不同，难度比检测单个目标更大。传统方法是先检测字符，再连成文本，其缺点是没有考虑到上下文，并且步骤复杂。ctpn 方法考虑到同一文本行上的不同字符可以由上下文表示，因此只预测文本在竖直方向上的位置，使用rnn 和cnn 进行序列的特征识别和深度特征提取，从而提高了检测的鲁棒性。ctpn 方法将候选区域产生的滑窗的宽度设为固定值，并在rpn 网络后添加一个lstm 连接全连接层，从而将坐标回归减少为一个。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

3、进度安排

第 1-3周：查阅相关文字识别的资料，并完成开题报告。

第 4-5周：完成场景图像自动分类方法的研究与算法实现。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

4、参考文献

[1] tian z , huang w , he t ,et al. detecting text in natural image with connectionist text proposalnetwork[c]//european conference on computer vision. springer, cham, 2016:56-72.

[2] baldi p , hornik k . neural networks and principal component analysis: learningfrom examples without local minima[j]. neural networks, 1989, 2(1):53-58.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码