印刷文档识别的预处理毕业论文
2022-02-15 22:24:39
论文总字数:18447字
摘 要
随着信息化时代的发展, 纸质文档所拥有的信息量已经不能满足人们的需求了,将纸质文档转化成信息文档的是信息化发展的必经之路,世界各国或早或晚都开始进行对OCR识别技术进行研究,中文OCR识别技术是OCR技术的一个重要组成部分,这项技术能够将中文印刷文档合理的转化为信息文档。
本文针对中文印刷文档预处理方法进行了一些研究,使用Visual Studio结合Opencv库设计出了一个基于c 的中文印刷文档预处理方法。预处理的具体操作包括了对文档图像的二值化、倾斜校正以及对汉字字符的提取和孤立公式的提取。其中主要采用了平滑去噪,傅里叶变换,hough变换,投影等方法。
实验表明,本文的方法对于单幅静态印刷文档图像有较好的预处理效果。
关键字:预处理 倾斜校正 印刷文档 孤立公式
Pretreatment of Chinese printed documents
Abstract
With the development of information age, the interaction of information is more and more extensive, the digitalization of paper information has become more and more attention, more demanded, and more important.Chinese OCR recognition technology is an important technology to realize the conversion of paper information into digital electronic information, and reasonable pretreatment of Chinese printed documents is the prerequisite and guarantee of OCR recognition rate. Pretreatment is good or bad, will directly affect the recognition system to determine the level of recognition rate . Therefore, the study of the preprocessing of Chinese printed documents has certain value and significance.
This thesis is mainly to design and verify the preprocessing of Chinese printed documents. By using Visual Studio and OpenCV library, we design a Chinese preprocessing document based on C to complete the automatic preprocessing of document images, including the document image Binarization, skew angle correction and extraction of Chinese characters and the extraction of isolated formulas, and finally achieved a better pretreatment effect.
Keywords:Binarization; skew angle correction; pretreatment; printing of documents; OCR
目 录
摘 要 I
Abstract II
目 录 III
第一章 绪论 1
1.1课题背景及意义 1
1.2研究现状 1
1.2.1 国外研究现状 1
1.2.2国内研究现状 2
1.3本文的主要工作 2
第二章 中文印刷文档识别系统的构成 4
2.1 中文印刷文档图像的特点 4
2.2识别系统的结构 4
2.3 中文印刷文档处理的重点 5
2.4 文档图像预处理的总体方案 6
第三章 文档图像预处理的实现 8
3.1 开发工具与环境 8
3.1.1 Visual Studio介绍 8
3.1.2 OpenCV介绍 8
3.2二值化处理 8
3.2.1 二值化方法 9
3.2.2 二值化的实现 9
3.3噪声的处理 10
3.4 倾斜校正 11
3.4.1 基于傅立叶变换与Hough变换的方法 11
3.4.3 倾斜校正的实现 13
3.5 文本行分割 16
3.6 单个字符及孤立公式的分割 18
3.6.1 纯文本行及孤立公式行的判断 18
3.6.2 割裂公式行的合并 21
3.6.3 孤立公式的分割 22
3.6.4 单个字符的分割 25
第四章 实验结果与讨论 28
4.1 实验结果 28
4.1.1 输出测试显示模块设计 28
4.1.2 字符、孤立公式分割效果 29
4.2 分析 31
第五章 总结与展望 32
5.1总结 32
5.2展望 32
参考文献 33
致谢 35
第一章 绪论
1.1课题背景及意义
随着信息化时代的飞速发展,纸质载体存储信息的方式已经不能够满足人们对于信息量的追求。在过去,纸质印刷品是人们获取和存储信息的主要途径,如书籍、报纸、杂志等[1]。印刷体纸质文档具有很多的缺点,对于人们的生活来讲不是很方便。现如今,纸质文档数字化成为热门发展趋势。利用扫描仪、数码设备等输入设备将纸质文档输入计算机形成文档图像,然后将文档图像保存到磁盘、光盘等电子存储介质上,由此我们可以更加便捷的获取所需的信息[2]。因此将大量以纸张为介质的文档信息转化为数字形式是一项非常有意义的工作。从时间和空间的角度上看,在数字化后可以非常容易的实现基于文档内容的检索,大大节省了时间;也可以用很小的存储空间保存大量的文档资料,大大的节约了空间[3]。
由于纸质文档的信息量太大,利用人手动的方式将纸质文档上的内容通过电脑码字的方式转化为电子文档是不切实际的,所以自动化的转化方式的优点久显现出来了。光学字符识别技术(Optical Character Recognition,OCR)是目前自动实现纸质文档数字化所采用的核心技术[4]。这项技术实现了纸质文档转化为电子文档的自动化,速度和效率有了飞跃的提升,是非常有意义和价值的一项技术研究。
1.2研究现状
1.2.1 国外研究现状
OCR识别最早起源于德国,1929年科学家Gustav Tauschek在德国申请了一项有关OCR的专利[5]。后来美国科学家Handel也提出了利用技术对文字进行识别的想法。为了更加有效率地处理与日俱增的文件、报表和报纸等资料,欧美国家从上个世纪50年代就已经开始了对西方文字OCR技术的研究,用于代替手动键盘输入,西方文字OCR软件在上世纪末开始日渐成熟。1960年左右,日本人开始研究方块字识别,并且取得了一定的进展。
1.2.2国内研究现状
我国对OCR技术的研究也比较晚,在70年代才开始借鉴西方的技术来研究,因为西方的OCR技术并没有方块字符的识别技术,所以只能对数字、字母、符号进行研究,在70年代末,我国科学家开始进行汉字识别的研究,这对于我国的OCR研究历程是一个历程碑。1986年以后我国的OCR研究有了很大进展,在汉字建模和识别方法上都有所创新,在系统研制和开发应用中都取得了丰硕的成果,不少单位相继推出了中文OCR产品。而识别技术也由单字体识别、纯文本印刷体识别及中文印刷体识别发展到了多字体混排的多体识别、复杂版面和双语识别。
一般来说,我国OCR发展过程大概可以分为三阶段,第一阶段对算法和方案的探索,第二阶段我国OCR中文识别由实验室走向市场,进行初步试用。第三阶段主要是印刷体汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。
请支付后下载全文,论文总字数:18447字