中文印刷文档的预处理开题报告
2020-06-02 19:48:34
1. 研究目的与意义(文献综述包含参考文献)
文 献 综 述 一、研究背景 随着信息时代的到来和网络技术的迅速发展,人类获取信息和存储信息的方式发生了巨大的变化。
在过去,纸质印刷品是人们获取和存储信息的主要途径,如书籍、报纸、杂志等[1]。
印刷体纸质文档具有浪费空间、不易长期保存、不便于编辑整理和传播等诸多不便因素。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
2. 研究的基本内容、问题解决措施及方案
课题以中文印刷文档为研究对象,了解文档识别的的相关技术,重点关注预处理阶段的处理方法,能够对中文文档中的汉字和孤立公式进行较为准确的定位和分割,主要过程如下: ① 输入中文印刷文档图像; ② 图像灰度化:对RGB三分量进行加权平均法得到较合理的灰度图像; ③ 图像二值化:图像二值化的关键在于对阈值的选择,该课题将对比全局阈值二值化和局部阈值二值化处理结果,从中选择效果较好的作为处理方式; ④ 平滑去噪:借助辅助矩阵在每个像素点移动来消除位于矩阵中心的孤立像素点; ⑤ 倾斜校正:先边缘检测,然后Hough变换检测直线,计算直线斜率,反向旋转校正; ⑥ 目标分割:利用行间空隙进行行切分,再投影法进行单个汉字分割和孤立数学公式分割。
剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付