特征精细化的多方向文字检测模型设计文献综述

2020-05-04 21:17:14

1．目的及意义

1.1研究背景及意义

随着互联网技术的不断普及和发展，文本信息被广泛地记录在图像当中，图片中含有的这些丰富的文字信息，可以被广泛地应用在很多的领域：如图像检索、信息检索、导航、人机交互等。通过获取这些文本信息有利于正确理解图像的内容，并对构建基于图片内容进行检索的系统具有重要意义，对自然场景中的文字进行识别和理解也是大量计算机视觉应用的基础。而文本检测则是上述相关技术实现的关键性技术，其精准程度直接关系着整个基于图像应用的准确性、鲁棒性和泛用性^[1^]。近些年自然场景图像中的文本检测与识别技术越来越引起人们的重视，在ICDAR的历届比赛中，也不断地将文本检测的准确度提高。

1.2国内外研究现状

文本检测很重要的一点就是要获取到文字的特征，才能进行后续的步骤。国外基于这些文字特征进行了广泛的研究并取得了丰硕的成果，如Ephtein设计了基于内容的图像分割方法，Hasan和Park采用了形态学处理方法，这些方法都通过字符的某些特征来提取字符，如笔画的宽度、字符的颜色等^[2^]。

国内的研究起步比较晚，但是发展很迅速。郑庆庆，桑农^[3^]等提出了一种基于区域合并的纹理图像分割方法，首先选择符合人类视觉对颜色的感知区分能力的Lab颜色特征，然后提取图像的Gabor的能量作为纹理特征；接着有颜色相似度和纹理相似度概率加权平均获得2个相邻区域的相似度；最后利用基于最大相似度的区域合并算法交互地完成图像分割任务。胡小峰^[4^]等人提出了基于纹理与连通区域的算法，将大多将文字看作具有某类特定的特征或某类特定的区域。因此这一大类算法一般利用文字的低阶局部特征，从自然图像中提取文字候选区域，并筛选融合为文本行候选，最终得到检测结果，也成为了非常有效的文字检测方法。

目前文本检测的方法大致可以分为传统的方法和基于深度学习的方法。传统的文本检测方法除了上文提到的一些方法外还有SWT^[5^]（笔画宽度变换）、MSER^[6^]（最大稳定极值区域）等方法，其中基于MSER的文本检测算法在2014年之前，也就是基于深度学习的文本检测算法开始发展之前一直处于领先地位。

近些年来，随着硬件成本降低，人们可以训练结构更加复杂的神经网络，可以在很多领域达到与人类相似的水平，能够轻易的击败传统的模型和算法。因此深度学习迅速成为人工智能领域的一大热门。因此，人们开始尝试使用CNN^[7^]（卷积神经网络）进行文本检测，CNN是深度学习中的一种模型，在计算机视觉领域得到广泛的应用。使用基于深度学习的算法进行文本检测取得了很好的效果，在ICDAR的排行版上排名前列的也基本都是使用深度学习的框架。今年来，不断的有很好的基于深度学习的文本检测方法的提出，如EAST^[8^]、SSD^[9^]、还有黄伟林^[10^]等人提出的CTPN等等。

{title}

2. 研究的基本内容与方案

{title}

2.1基本内容及目标

使用基于卷积神经网络的方法进行文本检测，将训练集样本进行处理，输入卷积神经网络的卷积层进行深度文字特征的提取，进行一系列后处理，预测出文本线和文本框的位置，再输入全连接层进行分类和回归，计算损失，在回馈给前向网络优化参数，达到训练网络的效果，最终训练出一个合适的网络模型，再输入测试集数据到训练好的网络中进行预测，力求达到比较高的准确率。

2.2技术方案及措施

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码