中文印刷文档的预处理开题报告

2020-06-02 19:48:34

1. 研究目的与意义（文献综述包含参考文献）

文献综述一、研究背景随着信息时代的到来和网络技术的迅速发展，人类获取信息和存储信息的方式发生了巨大的变化。

在过去，纸质印刷品是人们获取和存储信息的主要途径，如书籍、报纸、杂志等[1]。

印刷体纸质文档具有浪费空间、不易长期保存、不便于编辑整理和传播等诸多不便因素。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容、问题解决措施及方案

课题以中文印刷文档为研究对象，了解文档识别的的相关技术，重点关注预处理阶段的处理方法，能够对中文文档中的汉字和孤立公式进行较为准确的定位和分割，主要过程如下： ①　输入中文印刷文档图像； ②　图像灰度化：对RGB三分量进行加权平均法得到较合理的灰度图像； ③　图像二值化：图像二值化的关键在于对阈值的选择，该课题将对比全局阈值二值化和局部阈值二值化处理结果，从中选择效果较好的作为处理方式； ④　平滑去噪：借助辅助矩阵在每个像素点移动来消除位于矩阵中心的孤立像素点； ⑤　倾斜校正：先边缘检测，然后Hough变换检测直线，计算直线斜率，反向旋转校正； ⑥　目标分割：利用行间空隙进行行切分，再投影法进行单个汉字分割和孤立数学公式分割。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码