基于卷积神经网络的英文文本图像识别开题报告
2022-01-13 21:51:59
全文总字数:2258字
1. 研究目的与意义及国内外研究现状
文字图像信息是人类获取外界信息的主要来源,在近代科学研究、军事技术、工农业生产、医学、气象及天文学等领域中,人们越来越多的利用图像信息来识别和判断事物,解决实际问题。在日常的生活和工作中,存在着大量的信息处理问题,绝大部分信息是以语言文字作为媒介传播、 交换和记载的。随着计算机技术的推广应用,人与计算机的交道越多,文字语言进入计算机的要求就越迫切。 文字识别(Optical Character Recognition,简称OCR)用计算机自动辨识印刷在纸上和人写在纸(或介质)上的文字。
文字识别是新一代智能计算接口的重要组成部分。 它涉及到计算机数字图像处理、模式识别、人工智能、模糊数学、组合数学、信息论、自然语言理解等学科。计算机将代替人们的简单、重复的劳动,将语言及文字高速自动地输入计算机,用计算机对他们进行编辑和整理,保存在磁盘。磁带或其他介质上,可随时以各种方式(例如通过打印机输出、通过网络进行通讯、通过显示器输出到荧光屏上等等)满足人们的不同需要。因此,研究计算机识别文字的目的就是解决文字信息高速、自动输入计算机的问题,使计算机能方便地进行信息加工处理。国内外研究现状
20世纪20年代文字图像处理首次得到应用。陶舍克利用光学模板匹配识别开始。当时,他使用了10块模板对应10个数字,依次把待识别的数字投影到这10块模板上,当模板透过的光达到最小时(数字遮挡了模板的透光部分),数字就被识别成这块模板上的数字。20世纪60年代,电子计算机的发展得到普遍应用,文字图像处理技术也不断完善,逐渐成为一个新兴的科学。大约从 70 年代开始,相继对印刷体汉字识别、手写印刷体汉字识别及在线手写汉字识别进行了研究。 1980 年进行了印刷体汉字识别的公开表演, 1981年 5 月在日本第 56 届商业展览会上,富士通研究实验室进行了手写印刷体汉字识别的公开表演。1984年日本研制成多体印刷汉字识别装置,识别率为99.98%,识别速度大于 100 字/秒,代表了印刷体汉字识别的最好水平。最近几年出现的手写印刷体汉字识别装置,识别率可以达 90%,识别速度 5~40 字/秒,笔顺可变,笔划数不变的联机手写楷书汉字识别装置已有产品出售,正在研究具有一定规则的手写行书识别装置。 我国的汉字识别研究比日本晚了大约10年,1988 年后才有初步实用的印刷体识别系统问世。
2. 研究的基本内容
该论文将采用二维图像的识别方法,涉及一些信号处理的理论和技术,包括图像处理,图像分割和神经网络,文字识别方法主要研究以下内容:
(1)运用图像处理的sobel算子提取图像文字边缘,初步处理背景;
(2)运用图像处理形态学的膨胀算法对文字区域进行划分,运用滑动窗口技术进行单一文字的分割;
3. 实施方案、进度安排及预期效果
实施方案
(1)预处理环节,包括去噪,二值化,平滑,正规化,线性或非线性变换等。
(2) 行列切分就是把整合并列的一页文档划分成单一的字符。也可以把行列切分这一步归入预处理环节。
4. 参考文献
[1]高锦.基于svm图像分类[m].2010.
[2]周俊宇,赵艳明.卷积神经网络在图像分类和目标检测应用综述[j].计算机工程与应用,2017:34
[3]杨 帆等. 数字图像处理与分析[m]. 北京: 北京航空航天大学出版社,2007.