中文印刷文档的预处理文献综述
2020-06-02 19:48:32
文 献 综 述 一、研究背景 随着信息时代的到来和网络技术的迅速发展,人类获取信息和存储信息的方式发生了巨大的变化。
在过去,纸质印刷品是人们获取和存储信息的主要途径,如书籍、报纸、杂志等[1]。
印刷体纸质文档具有浪费空间、不易长期保存、不便于编辑整理和传播等诸多不便因素。
现如今,纸质文档数字化成为热门发展趋势。
利用扫描仪、数码设备等输入设备将纸质文档输入计算机形成文档图像,然后将文档图像保存到磁盘、光盘等电子存储介质上,由此我们可以更加便捷的获取所需的信息[2]。
因此将大量以纸张为介质的文档信息转化为数字形式是一项非常有意义的工作。
从时间和空间的角度上看,在数字化后可以非常容易的实现基于文档内容的检索,大大节省了时间;也可以用很小的存储空间保存大量的文档资料,大大的节约了空间[3]。
由于现今社会要处理的信息量可能是十分巨大的,以至于手工根本没可能完成,所以文档数字化采用自动方式会更加的便捷。
光学字符识别技术(Optical Character Recognition,OCR)是目前自动实现纸质文档数字化所采用的核心技术[4]。
这种技术实现了将文档信息内容转换成可编辑的电子化文档格式的功能,并可以将信息识别快速的输入至计算机中,因此OCR的研究具有非常重要的学术价值和应用意义。