基于深度学习的图像描述算法及实现文献综述
2020-04-14 17:28:13
随着科学技术的发展与进步,互联网存储水平和计算机运算能力都经历了一个巨大的飞跃,用户通过各种智能设备,能够实时快速地在互联网上共享各类图像资源。当提取到一幅图像时,如何准确又高效地对其进行描述和应用等一系列问题已成为工业界和学术界堕待解决的问题。用户是通过计算机提取的图像中所表达的一系列环境信息、抽象信息、逻辑信息等感知图像。计算机描述图像时不仅仅关注于图像中的物体识别,更要关注图像中各物体之间的相互联系,并且使用逻辑清晰的语言描述图像。因此,本文的主要目的在于利用机器学习等方法,对给定的图像内容以及蕴含的信息以及逻辑关系进行清晰精准的描述。
在当今社会,图像已经逐渐成为信息的主要载体,据统计,在人类接受的各类信息中70%为图像信息。所以,作为传递信息的重要媒介,图像信息是非常重要的。图像的描述与处理对科学技术的发展具有深远的意义。图像描述在基于内容的图像检索、医学图像分析、辅助导盲、新闻自动化、军事安全等方面发挥重大的作用。目前的研究进展,仅限于对图像的场景、人物以及整体内容进行描述与说明,还远远不能称之为图像的理解。真正意义上的图像描述在于用更高级的语言去理解图像更深层次的意义以及逻辑关系,让机器模拟人更好的进行人机交互。因此,进一步的研究发展图像描述技术,对航天业、军事业、金融业以及生活中的方方面面都具有极其重要的意义。
图像描述(Image Caption)问题是一个融合了计算机视觉和自然语言处理的综合性问题,一直以来都备受研究人员的青睐。本节主要介绍图像描述任务(Image Captioning)在国内外基于深度神经网络的研究现状。
计算机视觉领域里,在深度神经网络模型应用到图像描述之前,对视觉数据生成自然语言描述的研究己经进行了一段时间。最早主要是集中在对视频的数据处理上。然后开始出现针对静态图像的数据描述模型,其缺点不仅需要人工设计大量的图像识别器来检测物体,语言的描述也非常生硬。接着出现了将图像以向量形式嵌入到与词向量相同的空间中的方法,代替识别器。最后还有使用神经网络来分别嵌入图像和文本到同一个向量空间的方法。但直到2014年末,端到端的深度神经网络模型被提出之前,这些工作都存在着不能描述没有见过的图像对象的问题,甚至是训练集中极少量出现的存在于样本图像中的对象,除此之前,也一直没有人提出过如何去评价生成的描述语句。
2014年至今,在图像描述任务上公开的数据集包括MS-COCO,Flickr-8k,Pascal和SBU,另外对于校园研究者能够申请使用Flickr-30k数据集。同时,针对描述语句的常用评价指标主要有BLEU, ROUGE-L, METEOR和CIDEr-D等。
百度研究院实习生(加州大学洛杉矶分校学生)毛俊华,和员工徐伟、杨亿和王江等人,最早于2014年10月4日发表在arXiv上的多模型循环神经网络(multimodelRNN,m-RNN)模型,创造性地提出将CNN与RNN结合,从而将计算机视觉与自然语言处理在神经网络模型中结合起来的,这也是百度在这个领域具有代表性的工作。m-RNN模型设计的特点是其在语言模型RNN的每个时序均输入CNN从图像中提取的特征信息。但是这样的设计在之后其他人的研究中被证明不是最佳的选择。
用基于深度神经网络模型解决图像描述任务并引起广泛注意的,是谷歌公司于2014年11月17日发表在arXiv上的神经图像描述生成器(Neural Image CaptionGenerator),它使得描述语句的结果相较于m-RNN模型产生了较大进步,且奠定了目前用于图像描述任务最好的模型框架。在这之前和同期也有许多其他具有代表性的研究工作,诸如百度和微软的研究团队提供的模型。在此之后的研究则大多是不断在文献的基础上,从不同的卷积神经网络编码模型、不同的循环神经网络语言模型、不同的编码输入方式和不同的词嵌入(Word Embedding)等方面考虑,对其进行改进。针对该任务的主要研究团队集中在谷歌、微软、多伦多大学、斯坦福大学、卡内基梅隆大学、加州大学伯克利分校和洛杉矶分校。他们贡献了这个领域绝大多数模型和方法。
国内外现阶段做到的是对图像进行简单的描述,描述性的语句单词量不超过15个单词,甚至语句不通顺或逻辑性错误。相对于实现计算机能够对一幅图像做出详尽的描述,甚至能够以生动形象故事形式理解图像,这条路还任重道远。相信在未来,软件、硬件、以及数据量足够的情况下,伴随着巨大的支持和热情的期盼,深度图像理解变为现实指日可待,但前路并非坦途,还需要国内外科研学者的共同努力。21世纪是一个充满信息的时代,图像作为人类感知世界的视觉基础,是人类获取信息、表达信息和传递信息的重要手段。数字图像处理,即用计算机对图像进行处理,其发展历史并不长但也必将成为未来的一个热门产业。