自然场景图像中文本检测算法研究毕业论文
2021-03-22 22:24:53
摘 要
随着计算机网络技术、人工智能和思维科学研究的迅速发展,人们开始尝试着运用新的搜索引擎去获取信息,从自然场景图像中获取文本信息已经成为近几年来的热门研究领域。作为文字的检测和识别这一系统,文字的识别已经具有相当成熟的算法可以准确的实现,目前最大的技术难点在于复杂背景下的文本检测与定位,为了实现场景图像文字的检索,本文将着重对自然场景图像中文本检测算法进行研究。本文对各类主流算法进行了简要介绍,包括基于连通域的算法、基于边缘检测的算法和基于纹理的算法,对基于笔画宽度变换的算法进行了详细的理论分析与实际模拟,通过完成了一个基于笔画宽度变换的文字检测系统的开发,验证了基于笔画宽度变换的文本检测算法在自然场景图像中文本定位的有效性。
关键词:文本检测;笔画宽度变换;自然场景
Abstract
With the rapid development of computer network technology, artificial intelligence and thinking science, people began to try to use the new search engine to get information, from the natural scene images to obtain text information has become a popular research field in recent years. As the text detection and recognition of this system, the text recognition has a very mature algorithm can be accurately achieved, the biggest technical difficulty lies in the complex background of text detection and positioning, in order to achieve the scene image text search, this article will focus on the text detection algorithm in natural scene image. In this paper, the mainstream algorithms are briefly introduced, including the algorithm based on the connected domain, the edge detection algorithm and the texture based algorithm. The algorithm based on the stroke width transformation is analyzed and simulated in detail. The validity of the text detection algorithm based on stroke width transformation in the natural scene image is verified by the development of a text detection system based on stroke width transformation.
Key Words:text detection;stroke width transform;natural scene
目 录
第1章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 2
第2章 场景图像中文本检测算法概述 4
2.1 基于连通域的方法 5
2.2 基于边缘的方法 5
2.3 基于纹理的方法 6
第3章 基于笔画宽度变换的文本检测算法 8
3.1 相关技术介绍 8
3.1.1 使用梯度的边缘检测 8
3.1.2笔画宽度变换 11
3.1.3 线型空间滤波 13
3.1.4形态学图像处理 13
3.2 算法实现步骤 16
第4章 场景图像文本检测系统的设计 18
4.1 系统结构 18
4.2 系统实现 18
4.3 性能评价 21
第5章 结论与展望 22
参考文献 23
附 录 24
致 谢 28
第1章 绪论
1.1 研究背景及意义
科学技术的不断进步给人们的生活带来了新的便利和新的体验。随着信息技术的飞速发展,多媒体技术的快速发展和智能通讯设备的广泛普及,图像作为一个普遍的信息载体,在生活中扮演着越来越重要的角色,因此利用计算机对图片数据进行分析的能力也越来越重要。人们更加关注如何利用计算机来识别各种图片的信息,数字图像处理技术也随之得到了巨大的发展。
文字是人们记录思想、交流思想的符号,是人们获取信息、了解世界的重要途径。人们对人工文本的检测技术已经较为成熟,例如已经能较好的从纸质文本文件的扫描图像中检测到字符。然而,除了这种静态图像的文本检测,生活中更多遇到的情况是自然场景下的图像文本检测,例如公交车站牌处的公交行程表、商铺的广告牌、马路上的警示标语等等。文字往往是人们沟通的媒介,相比于图像中的其他成分,人们更关注与文字的内容。
图像文本有两种类型:一种是利用图像处理软件添加在图像上、用来描述该图像的文本信息,叫做人工文本;另一种是通过数码相机等图像采集工具在自然场景中采集到的文本信息,叫做自然场景文本。自然场景文本在一定程度上体现了图像的重要内容,如果能够开发相关的应用将这些文本信息自动提取出来,人们就能快速便捷地理解和检索图像,将给生活带了极大的便利。目前自然场景图像中文本检测和定位的理论意义和应用前景有:
(1)图像和视频检索系统
随着科学技术的进步以及互联网和多媒体的普及,各类重要信息的检索成为当前计算机领域研究的热门,其中图像和视频的检索尤为重要。然而目前的搜索引擎通常是通过图像或者视频的名字,或者其上下文的内容进行检索,这样的检索方式所得到的结果,通常是差强人意的,不能满足很多人的需求。人们需要通过一种更加直观的方式来检索得到所需要的信息。图像和视频中拥有大量的文本内容,而这些文本内容在很大程度上描述了图像和视频。利用这种关系,如果能够利用图像和视频上的文本内容进行检索,那就可以更加直观的得到所需要的信息。为了实现这一检索引擎,自然场景图像中文本的检测和定位是最基础也是最重要的环节。所以自然场景图像中文本检测算法的研究显得尤为急迫和重要。
(2)视觉障碍导航系统
对于存在视觉障碍的人来说,如果能够拥有一个能自动检测、识别文字的系统来充当眼睛,那将是梦寐以求的事情。尽管在现实生活中有很多设计方便了有视觉障碍的人,比如盲道和红绿灯报数的设计方便了那些存在视觉障碍的人的出行,但是一些正常人很平常的行为,例如获取菜单上的菜名、公交车站牌的公交路线信息、商品价格等等,在他们看来这都是遥不可及的,如果可以设计一个视觉障碍导航系统,而这个系统借助摄像头,对自然场景图像中的文本内容进行检测和识别,然后通过朗读的形式告诉存在视觉障碍的人,那将极大的方便他们的出行。
(3)即时翻译系统