基于笔画特征的自然场景文本检测方法及实现文献综述
2020-04-14 19:57:24
1.目的及意义
随着经济社会的持续发展和科学技术的飞速进步,智能移动设备特别是智能手机的普及,获取图像和视频变得异常方便,每时每刻都有大量的自然场景图像和视频数据产生,而其中最主要的是自然场景中文字的信息,这些信息服务于语言翻译、导航、多媒体信息检索等具体的应用。文本检测识别是上述应用实现的关键步骤,其检测的准确程度关系着图像应用的准确性和广泛性。由于自然场景图像的背景复杂,字符多变,容易受到光照,拍摄方位以及拍摄设备等因素的影响,为文本检测带来了许多不确定性。为此,提出一种基于笔画特征的对于自然场景的文本检测技术并进行研究有着重要的意义。
1.1国内外研究现状
目前国内外的很多大学和研究机构在基于内容的图像视频检索和文字检测方面进行了广泛的研究,并且取得了一定的成绩,其中具有代表性的机构有:卡耐基梅隆大学、哥伦比亚大学的多媒体研究中心(Digital videa and Multimedia Lab)、北京科技大学、牛津大学视觉几何组、华中科技大学多媒体研究中心、中国科学院自动化研究所等。卡耐基梅隆大学是较早开展研究文本检测工作的机构之一,其最初是应用在交通指示牌中的文本检测,随后应用在新闻视频结构分析中的文本检测。哥伦比亚大学的多媒体研究中心在多媒体内容分析、检索、目标识别、安全及取证等方面做了大量的工作并取得了一定的成绩。他们利用先进的机器学习算法,研发出了SemanticVisual Concept DetectionandVideo Search检索系统。该系统能够快速的在海量多媒体大数据中进行准确地语义搜索。
随着文本检测应用性的增强,越来越多的公司加入了这方面的研宄,其中具有代表性的公司有:微软研究院、谷歌、三星通信电子研究院、百度、阿里、腾讯、商汤科技、海康威视、今日头条等。微软研究院人类数字记忆项目中的一个研究方向是对图像的智能处理,将图像中的人名、地点、时间以及发生的事件信息提取,以便能够达到快速检索的目的,实现了对数据的智能化管理。谷歌提出了一种在安卓系统中对文本快读检测识别的算法。互联网公司如百度深度学习研宄院、阿里巴巴、腾讯等注重对图像、视频智能化的处理,给用户更好地体验,也纷纷加入了文本检测识别领域的研宄。商汤科技、海康威视、今日头条等新兴的人工智能公司把文本检测加入到重点研究的项目课题中,并且在参加的国际计算机视觉竞赛中获得优异的成绩,排名名列前茅。[6]
经过学者们共同的努力,自然场景图像中的文本检测技术正处在蓬勃发展的阶段。根据获取文本候选区域实现的框架不同,现有的文本检测算法主要概括起来分为三类:基于连通域的方法(Connect component basedmethond)基于滑动窗的方法(slidingwindowbasedmethond)和基于深度学习的方法(deeplearningbasedmethond)。
基于连通域的方法原理是:自然场景中的文本与背景通常具有较强的颜色对比,同时文本字符内的颜色信息具有一致性。因此相对于背景,文本字符可以被认为是一个个独立的连通域。根据文本与背景的颜色对比关系、文本的几何特征以及相邻文本字符具有相似性等特点,基于连通域的方法可以分为以下几个步骤:首先根据相关的属性如一致的颜色、较强的边缘或者一致的笔画宽度,从原图中提取一系列的连通域;其次利用分类器或者其他启发式规则对连通域判断,排除非字符连通域;最后对于保留的连通域采用一定的规则融合为文本行,实现对文本行的精确检测。而基于笔画宽度特征的自然场景文本检测方法是目前基于连通域的主流方法。
图像的笔画宽度变换(Stroke Width Transform, SWT) 技术是由Epshtein等在2010年提出。该方法提出了一种图像中笔画宽度的计算算子,利用该算子可以为图像中每个像素估算出该像素位置可能的笔画宽度,然后利用每个像素的笔画宽度信息把图像中的像素聚合成候选连通区域,像素聚合所基于的假设是文字的笔画宽度是比较均匀的或者变化不太大。后来Huang等分析了原始的笔画宽度变化算法的缺点,即当图像中的一些边缘含有不规则的梯度方向的时候,原始的笔画宽度算子并不能准确地计算出笔画宽度。为了解决这个问题,他们提出可以利用颜色信息来改进笔画宽度算子,提出了笔画特征变换(Stroke Feature Transform , SFT) 算子。近几年来,在文献中还有很多文字检测的方法是基于笔画宽度变换。笔画宽度的提取方法除了Epshtein等的方法之外,还有一些别的方法。
本次毕业设计主要就是基于笔画宽度特征方法完成对自然场景的文本检测。