便捷电子图书文档的设计与实现毕业论文
2022-02-14 19:51:38
论文总字数:29812字
摘 要
信息技术的不断发展,促使计算机的应用领域不断地扩大,给我们的日常工作和生活带来便捷的同时,许多相关的应用也应运而生,比如能随时查阅又易于携带的电子文档,给人们提供了便利。现代人们在上课、参加会议时,经常用手机拍摄书本、会议报告相关的图片,并在之后从这些图片了解和熟悉课程和会议的内容。由于拍摄的手机图片存在无序、内容不全等问题,不可避免地造成了人们花双倍甚至更多时间却并不能很有条理的了解其中的重要内容,人们迫切需要一种能够从手机拍摄的相关的图像中自动提取出有效区域的方法,从而方便人们高效地学习、工作内容。本次毕业设计将研究并提供一种书页、会议内容电子图书文档的自动生成方法,即如何把手机拍摄的散乱的图片生成一本有条理、易携带并且可随时翻阅的PDF文档。
本次毕设用C 和Matlab联合编程开发,图像处理采用OpenCV函数库,用到的平台是Visual Studio 2012和Matlab R2012b。需要完成的功能模块包含序列图像的对齐、校正、剪裁和PDF生成四个模块。对于给出的图片中有效区域内容的提取,采用了腐蚀、膨胀,开、闭操作,对具体文字、图像内容进行模糊处理,通过削弱文字、图像特征,从而使得图片的有效内容区域特征更突出,与周围区域形成明显的边界,进而定位出有效内容区域。而后为了使图像有效内容区域趋于规则,使用了线性拟合算法对有效内容区域的边界进行线性拟合,生成一个规则的矩形区域从而保证有效内容区域生成的完整性。最后再经过剪裁、图像转PDF操作得到最终的电子图书文档。论文所述应用在win7系统上进行了多次测试,均能准确提取目标图片的有效区域并转换成电子图书文档输出。
关键词: 腐蚀膨胀 线性拟合 便携电子图书文档 有效区域提取 逐行逐列扫描
Design and Implementation of
Portable Electronic Book and Document
Abstract
With the development of technology, more and more computer applications are invented to bring convenience to our daily life. Such as electronic documents , which are readily accessible and easy to carry, Providing convenience to people. When people have class or attend a meeting, they often take photos with their mobile phones to record something import. They can revise from these pictures and familiar with the contents of the course and the meeting. Because the pictures taken by mobile phones have some problems which could lost some important information, resulting in that people use lot of time reading these pictures but couldn’t understand very well. People urgently need a method which can bring them high efficiency. This paper will study and provide a method which can make book page and the contents of the meeting into a portable electronic book which easy to bring and use.
In this paper, we use C and Matlab to develop, use OpenCV library to process images, the platform be used are Visual Studio 2012 and Matlab R2012b. The functional modules that need to be completed include sequence alignment, correction, cropping and PDF generation of the four modules. Analysis according to the existing theory of theoretical. We design algorithm and implement, and then generate the results. To extract the effective area of the given picture, the corrosion, expansion, opening and closing operations are used to blur the specific text and the image content, and the effective content area of the picture is more prominent by weakening the characters and image features , forming a clear boundary with the surrounding area, and then locate the effective content area. In order to make the effective content area of the image become regular, the linear fitting algorithm is used to linearly fit the boundary of the effective content area to generate a regular rectangular region. And finally we cut the image and converse these format to PDF to get the final portable electronic book and document. The application of the paper has been tested in the win7 system, it can accurately extract the effective area of the target image and converted them into a portable electronic book or document,.
Key words: Eroding and Dilating;Linear fitting;Portable electronic book and document;The extraction of effective region;Progressive scanning
目录
便携电子图书文档的设计与实现 I
摘要 I
Design and Implementation of II
Portable Electronic Book and Document II
Abstract II
第一章 绪论 1
1.1便捷电子图书文档的设计与实现的研究背景 1
1.2便捷电子图书文档的设计与实现的研究意义 1
1.3 课题研究的现状 2
1.3.1 国内研究现状 2
1.3.2 国外研究现状 4
1.4 便携电子图书文档的应用 4
1.5 本次毕业设计的组织结构 5
第二章 系统的开发环境 7
2.1 Visual Studio 2012概述 7
2.2 Matlab产品概述 8
2.3 openCV函数包简介 9
第三章 相关支撑算法简介 11
3.1腐蚀、膨胀算法概述 11
3.2线性拟合算法概述 12
3.3逐行逐列扫描算法概述 13
第四章 便捷电子图书文档的详细设计 14
4.1图片的边缘提取 14
4.2图像有效区域的提取 17
4.3图像有效区域的裁剪 21
4.4 PDF的合成与输出 24
第五章 总结与展望 29
致谢 35
绪论
1.1便捷电子图书文档的设计与实现的研究背景
如今信息技术的飞速发展使得计算机成为了现代人们不可或缺的生活工具,它在各方面的应用也越来越广泛。在工作、学习的时候,人们会直接用手机将遇见的重要信息拍摄、记录下来,但仅仅是手机相册里的一堆图片,不仅杂乱无序、缺乏条理,查阅起来也不方便,对信息的获取产生了较多的不便,而且极易遗漏某些重要信息。而电子图书文档可以将原文件所带的字体、图像等转换成不受软件环境限制的文档格式,这样一来同一文档就可被应用于多种输出方式。目前电子图书文档已被广泛应用到数码打印、胶片输出、网络传输及电子出版和网络出版行业。PDF是一种可以跨媒体出版的开放式电子文档格式,也就是说,将它拿到任何一台计算机上都能顺利的进行阅读,并且保持了其原有的格式和版面,不会出现排版格式混乱、乱码等现象,更加方便并大大节省了人们的时间。
如果将人们随手拍摄的一系列照片制作成一个完整的PDF文件,不仅易于携带,浏览起来条理清晰,还可在多个设备上查看、打印,方便和他人共享。在确保了信息准确性的前提下,同时具有能够快速传输、方便查找等优点。本次应用研究的目的就是使随手记录的书页图片变成便携式的电子图书文档以提高人们日常工作学习的效率从而为人们提供方便。
1.2便捷电子图书文档的设计与实现的研究意义
现代人们对于文档通用性的要求越来越高,同时对于文档的格式和是否能够跨平台使用也提出了更多的要求。而PDF文件格式不仅满足了人们对于文档传输速度、格式和字体的要求并且能够在多个系统平台上运行。
它可以跨平台、跨语言、跨软件,可以运行于不同的操作系统和程序语言版本。它将文本信息全部封装在一个文件中,它支持特长文件,集成度和可靠性都很高。PDF文件使用了标准的压缩算法,相互独立的每一页都可以单独处理。越来越多的用户开始使用这种格式文件,因为它能够在不依赖任何操作系统以及显示设备的前提下将文件原样展现在用户面前,并且目前PDF文档格式已经是数字化信息传播和电子文档发行的一个标准。
如今许多格式的文档都可以转换成PDF输出,未来也会有更多的软件开始支持PDF文档格式的转换、编辑以及输出。Adobe PDF文档目前不仅是价值千亿美金的出版业工作流程标准,更是在许多重要行业都发挥着重要作用。
面对PDF文档的广泛使用,本次毕业设计提供了一种将多个图片转换成PDF文档的方法,从而可以使人们快速获得便携电子图书文档。
1.3 课题研究的现状
由Adobe公司推出的电子文档格式PDF(Portable Document Format)是目前最常用的电子文档格式,它相较于word更具有稳定性。由于它的只读性可以有效的防止人们因随意操作导致文档内容的改动,同时这也是它的一个缺点。PDF具有有效的内容表述能力;便捷的网络传播;兼容各类操作系统平台等优点使其逐渐成为各类行业的一种标准的文档格式。凡事涉及文档需求的领域都可以采用PDF电子文档格式,因此它在教育、医疗、商务等众多领域都有着广泛的应用。图片转PDF的应用可以有效的保存图像内容,方便快速浏览等优点使得其逐渐越来越成为国内外研究的热点。
1.3.1 国内研究现状
(1) PDF在商业中的应用研究:
由于PDF的易于浏览、存储方便等优点使其成为各类软件系统中良好的文档存储载体。国内各大高校及省立图书馆都开通了电子图书馆,其中PDF文档成为电子图书馆系统中文献最重要的存储格式。同样,在如今的电子地图系统中其文档的呈现格式全都是PDF格式。PDF没有操作平台、显示设备以及字体语言格式等局限性使得越来越多的电子图书、电子邮件、产品功能介绍都开始使用PDF格式文档。文献[1]研究了PDF系统在web中的设计与实现,利用B/S架构实现PDF自动生成系统。
PDF在商业软件上研究通常要有较为成熟的API接口和文档操作工具,这可以使得研究能更快的应用到实际工作中来,提高开发效率。
(2) 文档格式间的转换
由于应用需求的不同,现实生活中有时我们需要文档格式并不能满足需求,所以需要对已拥有的文档格式进行改变但同时又不能丢失原有文档的信息。将其他文档格式转变为PDF文档是非常好的选择。现实工作中对文档格式需求的复杂性决定了决定了需要对不同格式的文档进行相互转化以满足现实需求。因此,研究文档格式之间的转换具有迫切的现实意义。
文献[5]介绍了将PDF文件与PS打印标准文件之间的相互转化以适应当前在文件打印方向的需求。文献[6]介绍了TIFF/IT文件与PDF文件格式的转换,使得生成的PDF文件所需要的存储空间更小,文档清晰度更高等优势。
PDF文档格式的转换是因现实中需求应运而生的,越来越多的文档格式之间的转换软件开始被研发,其中包括WORD转PDF,JPEG转PDF等。
(3)PDF信息提取
文档处理已经成为人们现实生活中的一部分,网络技术的发展使得电子文档数目大大增加同时也带来的PDF格式的文档逐渐增加。对PDF文档内容进行检索,从海量的PDF文档中找出所需要的信息成为研究的一种趋势,而内容检索的实现要建立在对PDF文档信息的提取、整合及识别的基础上。
PDF文档信息的提取由于研究时间短、难度大等原因,该方面的研究进展较其他方面慢。文献[7]研究了如何从PDF文档中对有用的对象信息进行提取,如文字、图像、图像等。文献[8]研究了利用Abrobat plug-in 插件实现从PDF文档中提取网页链接信息和书签信息。文献[9] 为基于图像的PDF文件检索提供了条件,因为其实现了从中提取能够识别的图像信息。
PDF文档是开源格式并且可以跨平台。它不受所用的操作系统限制,在Windows、Unix和Mac OS中都是通用的。
PDF将字体和图片转换成矢量图形保存,以便能够保持字体特性的功能而不受其操作系统的影响,并且可以将图形放大缩小而不影响其清晰度。
1.3.2 国外研究现状
PDF文档格式不仅仅在国内成为研究热点,国外同样针对PDF做了一些不同方向的研究。主要包含以下几个方面的研究。
(1)处理和识别图像的PDF文档研究
目前PDF文档直接通过解析底层数据来获取文档的主要信息具有不小的难度,因为大量的PDF文档内包含不能按照逻辑进行有序存储的无用信息。因此对文档中图像内容的识别有利获取PDF文档中有效的信息,为基于内容的PDF文档检索奠定了基础。文献[18]从PDF文档中图像、字体、颜色等主要的排版信息进行了详细的分析从而实现了对PDF文档中重要文本信息的提取。
(2)基于内容重组的PDF文档研究
PDF文档具有多种生成工具,不同工具所包含的文档内容的物理存储规则不尽相同。这些都给PDF文档内容提取增加了难度,因此需要将不规范的PDF按逻辑结构重组其文档内容。
文献[19]通过分析文档排版的结构,文档的物理存储结构,对原始PDF文档进行内容拆分,再通过版面关系对内容进行重新组合,实现了内容的重组。
1.4 便携电子图书文档的应用
PDF是一种可在不同平台使用的开放式电子文件格式。PDF在信息化时代得到了飞速发展,目前已成为公认网络出版行业的工业标准。现在无论何种系统平台或应用软件生成的文件,绝大多数都可转换成PDF,并且支持网络传输。PDF文档能够在任何计算机上浏览与打印,不丢失原有格式。
PDF能够保留原有格式和内容,将图片储存为矢量图,屏幕上放大到800%而不失真。对于某些敏感信息可以将PDF文件加密以防止被他人改动或者打印,所以在某种程度上它能够保护一些文件的知识产权。正是因为PDF具有如此多的优点,人们的工作和生活都越来越离不开它,目前流行的许多软件对PDF文件格式的支持程度都有了很大提高,有的无须利用Acrobat就能产生PDF,如Photoshop5.0、Coreldraw9.0、Freehand 9等都已在程序中附带了PDF输出的功能。常见文件格式像PDF格式的转换也在飞速发展,WORD、WPS、方正PS2、PSD、CDR图像文件等都可以转换成便携易用的PDF文档。
目前,PDF在电子资料的出版中也受到了广泛应用。比如说有些专题资料的年需求量只有几十份,如果将其大量印刷成本比较高并且会造成资源的浪费。但如果以普通的电子文本发行很容易被不法分子盗用,造成作者的损失。但如果利用PDF出版电子资料,将电子文本转成PDF之前设定权限或增加版权标志,甚至在转化时可设置密码。这样,每份资料不仅可以压缩到一张磁盘上,同时支持用户打印,并且不能随意翻印,大大保障了版权方的权益。
便携电子图书文档在网络出版业的应用也正在被不断推广,给广大网络用户带来了便利。在期刊出版行业,越来越多的人们已经开始接触PDF和使用Acrobat Reader。随着网络的不断普及,网络用户对信息保真传送的要求会不断加强,需求也会更多,有一天PDF会像Doc一样为用户所熟知和使用。
1.5 本次毕业设计的组织结构
本次毕业设计的组织结构如下:
请支付后下载全文,论文总字数:29812字