遮挡文档图像定位算法研究毕业论文
2021-11-06 20:20:12
摘 要
在智能信息时代,文档的存储形式也逐渐趋于多样化,出于便携或是安全的目的,越来越多的人选择将文档数字化,存储在手机、平板等便携式电子设备上。用手机或是相机拍摄文档并进行存储成往往是人们对文档数字化的首要选择,因此如何定位图片中的文档继而获取文档内容就成为文档数字化研究的一个关注重点。虽然文档定位的研究目前已取得了比较大的进展,但是这些研究大多实现的是简单背景下的文档定位,或者是通过传统光学字符扫描仪完成。由于拍摄时的视角会引起文档形变,又或是多张文档随意放置时其他文档成为了想要定位的文档的背景,增加了定位的难度,如何在复杂的自然场景下进行文档的定位至今仍然是一个难题。针对以上问题,本次毕业设计使用传统图像检测方法与深度学习方法相结合,旨在实现对自然场景下存在双文档重叠情况的文档进行精准定位,得到一个自然场景下的文档定位系统。
关键词:文档定位;角点检测;卷积神经网络;边缘检测;图像处理
Abstract
In the age of intelligent information, the storage forms of documents are gradually diversified. For the purpose of portability or security, more and more people choose to digitize documents and store them on mobile phones, tablets and other portable electronic devices. Taking and storing documents with a mobile phone or a camera is often the primary choice for document digitization. Therefore, how to locate the documents in the pictures and then obtain the contents of the documents has become a focus of the research on document digitization. Although great progress has been made in the study of document location, most of these studies are carried out in the simple background, or through the traditional optical character scanner. Due to the deformation of documents caused by the perspective of shooting, or the random placement of multiple documents, other documents will become the background of the documents to be positioned, which increases the difficulty of positioning. How to locate documents in a complex natural scene is still a difficult problem. In view of the above problems, this graduation project combines traditional image detection method with deep learning method, aiming at achieving accurate positioning of documents with double document overlap in natural scenes and obtaining a document positioning system in natural scenes.
Key Words:Document positioning; Corner detection; Convolutional neural network; Edge detection; Picture processing
目 录
第1章 绪论 1
1.1 研究背景及意义 1
1.2 研究的具体内容 2
1.3 国内外研究现状分析 2
1.3.1 基于文档边缘的文档定位算法 3
1.3.2 基于角点检测的文档定位算法 3
1.3.3 基于光学字符识别技术的算法 4
1.3.4 目前文档定位存在的主要问题 4
1.4 文章结构安排 5
第2章 文档检测模型 6
2.1 问题描述及算法流程 6
2.2 边缘检测及细化 7
2.2.1 自适应阈值的Canny算法 7
2.2.2 Hough直线变换 8
2.3 角点检测及细化 9
2.3.1 Fast算法 9
2.3.2 使用CNN进行角点分类 10
2.4 文档的具体定位 11
第3章 实验及评估 13
3.1 实验环境介绍 13
3.1.1 实验平台 13
3.1.2 实验框架 13
3.2 实验数据集介绍 13
3.2.1 角点分类网络数据集 13
3.2.2 文档定位数据集 14
3.3 评价指标 15
3.4 检测结果展示 15
3.4.1 边缘检测结果展示 15
3.4.2 角点检测结果展示 15
3.4.3 角点筛选结果展示 16
3.4.4 角点分类结果展示 17
3.4.5 最终文档定位结果展示 17
3.4.6 结果对比 19
第4章 总结与展望 21
4.1 研究工作总结 21
4.2 研究展望 21
参考文献 22
致谢 25
第1章 绪论
1.1 研究背景及意义
随着科学技术的不断发展,人类的生活水平得到了大幅改善,越来越多的科技产品逐渐进入人们的日常生活中,手机、相机等电子产品也成为人们进行图像拍摄的主流设备,除了拍摄记录生活的照片,人们也会将文档拍摄成照片保存到电子设备上,使得文档的信息更加方便携带且不易丢失,这种新的文档的存储形式大大加快了文档数字化的发展。然而想要获取数字格式的文档,必须首先对图像中的文档进行精准的定位,因此如何定位图片中的文档继而获取文档内容就成为文档数字化研究的一个关注重点。
近几年涌现了许多有关文档的定位的研究,算法的核心思想不尽相同,主要有基于OCR技术的文档定位、基于文档边缘的文档定位以及基于角点检测的文档定位这三种思想。光学字符识别技术(OCR)作为扫描仪等扫描设备的核心技术,在过去的文档识别实践中得到了广泛的应用。然而,由于价格昂贵,使用扫描仪进行文档的识别对于大多数需求较小的普通用户来说并不是一个良好的选择;不仅如此,扫描仪的扫描速度和识别准确率往往都不能让人满意,一旦人们需要进行大批量文档的信息提取,扫描仪处理速度慢的缺陷就会显露出来;又或者如果是在复杂的自然场景下拍摄的文档图片,拍摄视角引起的形变或是文档出现重叠的情况都会让文档内容的准确率大幅降低。另外,由于人们往往会将多张文档放置在同一处,拍摄某一张文档的内容时另一张文档可能会成为该文档的背景,又由于文档的外观及布局都是极其类似的,增加了我们想要识别的文档的定位难度。因此,如何能对自然场景下拍摄的文档图像进行快速的定位与识别就成为人们亟待解决的问题。本文期望通过结合后两种思想设计一种算法,实现根据文档边缘信息和文档角点信息实现对放置在自然场景下的双文档中未被遮挡的文档进行精准定位的功能。
本次研究将基于将角点检测的文档定位算法与基于边缘检测的文档定位算法相结合,实现对于自然场景下存在重叠情况的文档进行定位,弥补了传统光学扫描算法在自然场景下对于文档定位准确率较低的缺陷。实验中使用的数据集均为在自然场景下拍摄的双文档有重叠的图片,为了解决由于光照的强弱或是拍摄角度引起文档的形变而对文档定位结果产生影响等问题,本文使用了自适应阈值的Canny边缘检测算法,相较于手动设定阈值的边缘检测算法,自适应阈值的方法可以更准确地检测出各种自然场景下图像中的边缘信息,减少了图片拍摄背景因素对于边缘检测结果的影响。此外,本次算法充分利用了图片信息,基于卷积神经网络构建了文档角点分类检测器,除检测文档本身的角点外,还可以检测重叠情况下两文档交叉的点,利用交叉点的信息进一步确定文档的角点位置,根据交叉点的信息减少其他文档作为背景时的影响,最终利用边缘信息和角点信息实现文档的精确定位。