成批相似图像中数值的标注与识别系统的设计与实现文献综述

2020-04-15 15:46:15

1．目的及意义

目的：

在自动化产业日益发达的今天，我们有时会面临诸多图纸中数值的识别与提取，而这样的工作通常也是重复的，也往往需要消耗大量的人力劳动时间，亦可能出现视觉疲劳而造成的差错问题。因此，针对这样的情况，本次毕业设计希望能开发出一个针对成批相似图像的数值提取与识别系统，对多种类相似图图像中的数值，量纲，数据种类等进行标注与识别，以更好的提高实际需要中的工作效率和减轻人们在工作中的重复劳动。

国内外研究现状：

文本提取在图像处理中具有重要的应用价值。近年来，大数据时代带来了海量的信息检索的需求，因此也带来了大量的图像文本检索方法。

张等从自然场景文本特性出发, 提出了一种基于视觉显著性与边缘密集度的鲁棒性文本定位方法。首先利用谱残差理论提取图像的显著性区域, 然后在提取的显著性区域中寻找边缘密集度大的区域, 以此构建候选连通域, 利用少量的先验信息滤除其中的非文本区域。在标准数据集上的实验结果表明, 与单纯利用边缘特征进行文本区域检测的方法相比, 该方法可获得 70% 的综合检测率。

李等针对传统颜色聚类算法对低对比度自然场景图像检测不佳的问题，提出一种基于文本像素颜色聚类的场景文本检测方法。首先利用 MSER(Maximally Stable Extremal Regions)提取原图像初始文本区域，经过非文本滤除后，结合SWT(StrokeWidth Transform)与角度特征筛选稳定文本像素；然后对稳定文本像素进行像素分组、确定初始颜色中心，通过多尺度的颜色聚类获取候选字符区域；经过字符区域去重后，提取出候选区域的几何特征、笔画特征、纹理特征和边缘特征并结合支持向量机进行字符区域验证；最后进行文本行聚合，从而实现文本检测的目标。

Wang等提出一种基于连通区域的由粗到精的算法来检测定位场景图像中的文本。算法将彩色图像分隔成均匀的颜色层，利用块邻接图(Block Adjacency Graph，BAG)分析颜色层中的每个连通区域块。在粗定位阶段，提出一种调整与分析的方案来定位所有颜色层中可能的文本区域。基于区域的方法通常假设文本区域的像素都有相同的颜色，根据字符像素颜色的一致性和字符颜色与背景存在较大的对比度等特征对图像进行分割。

范等针对传统的最大稳定极值区域(MSER)方法无法很好地提取低对比度图像文本区域的问题,提出一种新的基于边缘增强的场景文本检测方法。首先,通过方向梯度值(HOG)有效地改进MSER方法,增强MSER方法对低对比度图像的鲁棒性,并在色彩空间分别求取最大稳定极值区域;其次,利用贝叶斯模型进行分类,主要采用笔画宽度、边缘梯度方向、拐角点三个平移旋转不变性特征剔除非字符区域;最后,利用字符的几何特性将字符整合成文本行。相比传统的MSER进行文本检测的方法,所提方法提高了系统的检测率和实时性。

黄提出了基于卷积神经网络(CNN)的文本定位全卷积网络算法,该算法主要包括了:1)基于深度学习中的CNN提出了文本定位全卷积网络,对图像中的文本特征进行自动提取处理,避免了使用人工设计特征的缺陷;2)把角度化为正弦值和余弦值加入到文本定位全卷积网络的训练中,使得该网络能够对自然场景中图像倾斜文本提取倾斜角度特征信息;3)后处理从文本定位全卷积网络算法输出的特征信息,预测出自然场景图像中文本的坐标定位信息。

意义：

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码