OCR文字识别相关算法的研究与实现开题报告
2021-12-14 21:54:47
1. 研究目的与意义及国内外研究现状
随着计算机的普及,越来越多的人学习并运用计算机,很多人学习计算机就是从学习输入汉字开始的。本课题研究ocr文字识别技术的实现与发展,着重解决office文档扫描件下印刷体的识别与输入,使能够不适用键盘也能输入汉字,简便平时办公、学习方面在pdf文档方面的修改缺陷,提高工作效率:
1.文字识别是中文信息录入的快捷手段,由于汉字是非字母、非拼音化的文字,笔画复杂多样,人工键入速度缓慢且劳动强度大,计算机自动识别文字或语言方式解决了这一难题,能快速有效的将汉字输入进计算机。
2.文字识别技术是提高办公自动化水平的主要因素。办公自动化就是要借助计算机来进行文档的处理,以代替人们的日常活动
2. 研究的基本内容
本课题着重实现office类文档的扫描件的印刷体的识别,研究主要围绕以下几个方面: 1.office文档的检测,充分考虑光照强度、文档模糊程度、字体识别难易程度,对此实施不同的算法。
2.office文档的识别:对文档的行和单个字的分割,使每个字与字典相比较,获取最形近的结果,在识别过程中注意每行的行距,单个字的间距。
3.office文档要进行的是汉字、英文与数字的识别,其中最复杂的是汉字的识别,英文与数字比较量较小,而汉字最基本的字典对比就有7500多个,这其中关键的是分类器的设计,目前最常用的训练器基于神经网络算法(cnn),而对目标样本的测试也是关键步骤。
3. 实施方案、进度安排及预期效果
(1)本课题实行方案:
在预处理阶段对待识别的图片进行处理,去除图像的背景将噪声对后续过程中文字识别的影响降到最低。由于office文档固有不变性,对其处理没有灰度化和二值化的步骤。对于有自然背景的图像,在光照角度的影响下,先去除图片带有的色彩和其他背景,此时使用灰度化、二值化和降噪来进行图像处理。在深入分析和比较了目前存在的研究方法后,使用基于加权平均法的灰度化算法和基于迭代思想的二值化算法。在预处理阶段完成后对整段文字进行字符分隔,本系统的使用的是基于垂直投影方法的分水岭算法,使文字便于识别处理。在字符切分完成后,就需要对文字进行识别,识别算法用的是基于vtd、htd字符识别的方法。
(2)本课题进度安排:
4. 参考文献
[1] 夏德深,傅德胜著.计算机图像处理及应用.2004年[2] 傅德胜著.图像处理学.2002年
[3] 百度ocr文字识别企业版(api)
[4] 王行刚.文字识别的两种新方法[j].电子计算机动态.1963(04)