基于机器学习的手写汉字识别app的设计与实现文献综述

2020-04-15 09:38:48

1．目的及意义

手写识别（Handwriting recognition, HWR）是计算机从纸质文档、照片、触摸屏或其它设备接收并识别手写文字等信息的技术，而手写汉字识别（Handwritten Chinese character recognition, HCCR）正是该技术在识别汉字方面的一个分支。

手写汉字识别主要有两种方式：离线识别（Off-line recognition）和在线识别（On-linerecognition）。在线识别相对容易，它是文本在特殊数字化仪（如手机、掌上电脑等）上写入时的自动转换技术，主要靠传感器拾取笔（指）尖的移动和坐标数据来识别文字。2000年后，中国市场上越来越多的手机提供触控笔，一些不擅长打字的用户开始使用手写输入代替键盘输入，首次体现了手写汉字识别技术的实际意义。2007年，手机触摸屏的问世让在线识别技术得到了更好的应用，其识别范围、识别速度、识别率都更上一层楼。时至今日，仍有不少不熟悉键盘输入的中老年人在依靠这一技术与机器和人交流。

而离线手写汉字识别是将图像中的汉字自动转换成计算机可以使用的字符代码，相对于在线识别，这要困难许多，因为缺少了手写过程中的数据，而且汉字笔画繁多，结构复杂，不同的人又有不同的书写风格，其形式可谓是变幻莫测。但离线识别有更大的实际意义，它是汉字高速、自动输入计算机的重要手段，在文献检索、办公自动化、邮政系统、银行票据处理、表格录入及盲人阅读机等方面有着广阔的应用前景，能为人们的生活带来极大的便利。

为了克服离线手写汉字识别的种种困难，传统方法主要通过文字提取、特征提取和文字识别对单个汉字进行识别，而现代方法专注于识别分段文本行中的所有汉字，广泛用到的就是能够学习视觉特征的机器学习技术。国外已有许多基于机器学习的手写英文识别的研究成果，目前最先进的方法是使用卷积网络在文本行图像的几个重叠窗口上提取视觉特征，再用循环神经网络基于这些特征来产生字符概率^[1]。但汉字远不同于英文，国外很多研究成果并不能直接应用于汉字的识别，好在国内有不少学者针对手写汉字识别的研究做出了宝贵的贡献。

手写汉字识别已经研究了50多年^[2]，这个问题的解决方案依赖于各个领域的许多技术：图像处理，机器学习，认知科学，语言学等，它的难点在于字符类别众多，字型结构复杂，相似字符混淆，字体和书写风格多变等。从20世纪60年代开始，汉字识别领域渐渐出现了许多有效的方法，那时广泛使用的是模板匹配，包括单阶段分类和分层分类^[3][4]。字符结构分析（笔画分析，松弛匹配，归因图匹配^[5][6]）在20世纪70至90年代引起了广泛的关注，特别是结合松弛和归因图的结构匹配，在80至90年代很流行。继模板匹配和模式匹配之后，特征匹配在20世纪80年代初露锋芒^[7]，为之后的统计分类方法提供了良好的特征提取技术。从20世纪90年代开始，统计识别方法主导了该技术，然而结构方法仍在研究中，因为它类似于人类认知的过程，并且具有识别草写手写字符的潜力。

进入21世纪初该项技术的进展主要是字符结构的统计建模^[8]，再往后直至现在，基于机器学习的方法主宰了此技术的发展。在中国科学院自动化研究所组织的ICDAR-2011^[9]和ICDAR-2013^[10]竞赛中，获胜队伍提交的系统^[9]均基于卷积神经网络（convNet）。深度学习方法可以直接从原始数据中学习判别式表示，因此可以为许多模式识别问题提供端到端的解决方案。首次成功使用convNet进行离线HCCR的是multi-column深层神经网络^[11][12]，比较著名的还有[13]中提出的交替训练的松弛卷积神经网络。最近，[14]通过整合多种策略（如局部和全局扭曲，多监督训练和多模型投票）实现了离线HCCR的最高准确度。

使用深度学习的HCCR方法相比传统方法已经有了更大的优势，甚至在一些方面超越了人类的表现，但研究并没有接近尾声，这项技术仍有很大的提升空间。通过更好的网络架构（例如超深度网络^[10]）或训练算法，可以实现对卷积神经网络的进一步改进和加速。未来，识别系统的三个基本组件（directMap，convNet和adaptation）可以与其它模型（例如递归神经网络）结合，以解决其它具有挑战性的问题，如自然场景（视频）文本检测和识别等。就目前来看，这一技术还没有广泛地从实验室走向用户手中，国内的应用市场鲜有识别手写汉字的APP，大多主流的OCR应用仅能识别机器打印的标准字体。

本次研究以手写汉字识别为目标，致力于设计出一个基于机器学习的手写汉字识别的安卓应用。机器学习中的神经网络、k-最近邻（KNN）等算法可用于信息的识别与分类，借助Tensorflow等框架可训练出高效、准确的识别模型。截至2019年，绝大部分智能手机的摄像头达到了1200万像素，很容易拍摄要识别的目标汉字，并生成高清图片，作为识别模型的输入。识别过程中所需的运算可由云服务提供，云主机拥有远强于手机的性能，能够显著提升识别速度，在云端计算也可降低手机的存储和内存消耗，配合4G或即将推出的5G移动网络，手机上传目标图片和下载识别结果的速度也会很快。借助此安卓应用，广大用户均可很方便地通过拍摄照片或使用本地图片来快速、准确地识别图像中的手写汉字，直接生成可编辑的电子文档，还可快捷分享给他人。

参考文献：

[1] Puigcerver J. Aremultidimensional recurrent layers really necessary for handwritten textrecognition?[C]//2017 14th IAPR International Conference on Document Analysisand Recognition (ICDAR). IEEE, 2017, 1: 67-72.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码