基于语义概念和顺序学习的图像和文本匹配研究文献综述

2020-04-14 16:31:23

1．目的及意义

1.1 研究的目的及意义

随着互联网技术和智能电子设备的普及,人类生活中所接触到的图像文本信息日益膨胀,如何实现对这些图像文本数据的自动识别与文本匹配显得越来越重要。图像语义分类和语义顺序学习作为人工智能领域中的重要任务之一,其主流方法是通过对选定的图像集进行学习，训练分类器模型,并对未知图像进行识别分类决策，它在人工智能领域中的应用越来越受到广泛重视。

传统的图像和文本的匹配研究可以追溯到 20 世纪70年代末期,当时流行的技术是将图像作为数据库中存储的一个对象, 用关键字或自由文本对其进行描述, 查询操作是基于该图像的文本描述进行精确匹配或概率匹配。然而, 传统的图像检索方法具有下述难以克服的缺点:每一幅图像都需要人工进行注释, 因此标注较大的图像数据库需要大量的人工劳动，另外人工注释具有很强的主观性，并且人工注释的少量文字很难充分表达图像的内涵，不同国家不同民族很难用同一种语言对图像进行加注标识, 而且对图像语义理解的差异也很大, 因此不可能形成一种统一的检索方法。由于有限的、固定的人工注释难以满足不同用户的需求。从20 世纪90 年代初期开始, 利用图像的内容, 如颜色、纹理、形状等图像特征检索图像的技术应运而生。

语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义，以及这些含义之间的关系，是数据在某个领域上的解释和逻辑表示，而语义顺序可以简单理解为每个语义都有其固定的顺序和位置。在图像文本之中，一张图片有丰富多彩的信息，而如果单单用一个句子来描述就会漏掉许多信息，这或许也是当前图像与文本匹配任务当中的一个问题。因此，本文提出了学习图像语义概念和顺序，然后再进行图像文本匹配的思路。

1.2 国内外研究现状

基于语义概念和顺序学习的分析技术是图像和文本匹配研究的有效方法之一。国外的图像文本匹配技术发展的较早，迄今为止，已经获得了较多的成果，目前美国卡内基梅隆大学提出了一种研究方法，即对于同一个图像不同的纹理区域或不同图像图像采取不一样的窗口进行立体图像匹配，该匹配算法在纹理稀疏部分可取得非常好的精度，但计算量较大，匹配速度有所下降。国内近几年也陆陆续续加大了这领域的研究，主要采取的也是图像文本匹配算法技术，目前也取得了一定的成绩。

一直以来，国内外对于图像和文本匹配主要采用两种常用研究方法，即一对一匹配法和多对多匹配法。一对一匹配方法通常是分别提取图像和文本的全局特征表示，然后利用结构化或者典型相关分析的目标函数将它们的特征投影到一个共同空间，使得相似的成对图像文本在空间中的距离接近，即相似性高。但是这种匹配方式只是粗略度量的图像文本的全局相似度，并没有具体的考虑图像文本具体是哪些局部内容在语义上是相似的。多对多匹配方法则是尝试从图像文本中分别提取所包含的多个局部实例，然后对于多个成对实例度量其局部相似性并融合得到全局相似性。但是这些方法所提取的实例并不都刻画了语义概念，只有少部分显著的语义实例决定了匹配程度的好坏。

{title}

2. 研究的基本内容与方案

{title}

2.1 基本内容

本论文主要研究了基于语义概念和顺序学习的基本知识，通过多区域、多标签区域化的神经卷积网络进行概念预测，用全局上下文模块以及语句生成来进行顺序学习，并通过算法测试了语义概念和顺序学习方法在实际图像文本匹配过程中的效果。利用该方法提取出的语义概念和上下文的信息，例如空间位置等，通过对语义进行排序，可以进一步提高语义顺序的准确性，跳出原有常规技术在匹配精度和匹配速度上的局限性，提高匹配效率。

2.2 本论文主要研究工作包括：

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码