基于形状描述的图像检索方法与实现文献综述
2020-04-19 21:07:59
随着互联网时代的到来,人们使用网络俞加普遍。图片作为人类摄入信息的主要来源之一,其数量以极其惊人的速度飞快增长。突然猛增的信息量使得人们获取真正所需的信息变得更加困难,传统的文字检索功能已然不能满足人们的需求,诸如对已注册商标的查重、数字图书馆的检索、医疗军事方面的定向搜寻等等,如何才能在海量的图片中准确、快速地寻找到所需内容呢?图像检索相关技术就成为人们亟待解决的热点问题。
早在1992年,为了解决报刊媒体中图片检索的难题,T.Kato就提出了CBIR(Content-based image retrieval)即基于内容的图像检索,该技术包含了由颜色和形状两个层面对图片库中的图片进行定向检索,本文则主要论述基于形状描述的图像检索技术及实现。在此之前,已有TBIR 技术来实现类似目的,不过TBIR主要是将图像转为描述字段或标注来进行检索,当图像数据量过大时,其劣势便显现出来,如其标注需要人工操作,无法由计算机处理,极大增加了人力工作量;每个人对图像的理解不同,用来形容的标注文本也会不同,使得后期检索会出现较大误差,同时在图像的纹理、抽象物体的描述等不便用语言表达的特征处理上显得捉襟见肘,因此研究方向慢慢转为基于内容的图像检索。
自CBIR技术提出以来,国内外对该方面的研究就从未停歇。清华大学马少平教授承担的“973”项目二级课题《基于内容的多媒体信息检索》;中国科学院计算技术研究所开发的Mires多媒体信息检索系统,该系统可以从图像的纹理、颜色、形状等特征进行定向检索,同时添加了用户自定义反馈信息功能对已经筛选过的图片进行二次检索,从而使得最终结果更加准确;国防科技大学研发的基于内容的视频新闻节目浏览检索系统NewsVideoCAR,可以对新闻视频进行分类管理,并提供对新闻内容片段的检索,可以大幅缩短从大量新闻中摄取主要信息的时间。国外如QBIC,是美国IBM公司研制的世界上第一款商用化的图像检索系统,作为该领域的先河产品,其系统结构和框架对后续产品都有深远影响;伊利诺斯大学研发的MARS系统,该系统的反馈功能可以根据用户喜好动态调整各项特征参数的比重,最终得到符合用户需求的结果。
目前的CBIR技术已经广泛应用于各个领域,可以用于高效定向地处理传感、遥控、医疗、电子设备生产等专业领域的图像识别问题,指纹对照、人脸识别等用来处理安保措施、处理犯罪行为等,严格审查新申请的候选商标与已注册商标的差异、维护知识产权等,大幅度地提高了人们工作办事效率。
2. 研究的基本内容与方案
{title}图像的形状区分一般有基于区域和基于边缘两种判定方式,傅里叶描述子就是基于边缘检索的方式来提取轮廓边界特征,Hu不变矩、推广不变矩方法、ZMD描述符则是基于区域形状的描述来提取局部区域的特征。但是上述方法会受到图片大小比例、旋转角度等因素的影响,实际上不能明确识别同形状不同大小角度的图片。除此之外对形状描述的特征鲜明度要求颇高,即形状描述的物体必须和背景反差较大才可识别。为了使识别更加准确,需要先对图像进行分割,图像分割的效果直接影响最终筛选结果的优劣。其次要处理好人类与机器间的语义鸿沟,机器对图像的识别是根据各项数据信息设定的,而人类则仅仅是视觉感受这种模糊的定义,至今对于形状尚没有明确的数学定义,如何处理语义鸿沟也将是完成系统的主要攻克难题。拟打算采用向量来定义图像的相似性,通过比较边缘轮廓关键点之间的几何距离和空间向量来判定二者是否具有相似性。常用的距离表示有欧式距离(Euclidean distance)、明氏距离(Minkowski distance)、马氏距离(Mahalanobis distance)和直方图相交距
CBIR技术框图