登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 计算机类 > 软件工程 > 正文

视频图像语义标注方法研究文献综述

 2020-05-04 21:19:26  

1.目的及意义
随着网络技术、多媒体技术和数据库技术的发展以及互联网的不断普及,视频图像数据呈现爆炸式的增长,人们对图形、图像等数据的需求也越来越强烈。图像的检索需要方便用户的使用、体现用户的意图,传统基于周边文本和基于内容的视频图像检索技术本身存在局限性,而视频图像语义标注技术通过给视频图像自动添加能描述其语义内容的文本标签,有望为两者带来突破。目前图像自动标注多采用机器学习方法和统计模型方法进行,并取得了不错的效果。{title}

2. 研究的基本内容与方案

{title}

1.基本内容和目标

如今对日益增多的图像信息进行管理时,图像标注是其中的基础。近年来随着研究的不断深入,产生了一系列的图像检索方法,但由于底层的视觉特征(颜色、形状、纹理等)和高层语义之间存在着语义鸿沟,使得基于内容的图像检索结果很不理想。但是图像的语义标注能够很好的处理这个问题,自动图像语义标注根据已标注好的图像进行训练,然后根据训练的结果创建模型(模型是由高层的语义描述和底层的视觉特征之间产生的),可以使用此模型来处理图像信息,自动处理图像的标注。语义鸿沟可以通过自动标注使其得到较好的缓解,使得图像检索的效率更好、速度更快。本课题主要对目前已有的一些图像标注算法进行对比和分析,重点完成对视频图像的语义标注分析的实现,建立一个简单的自动语义标注系统。

2.拟采用的技术方案及措施

现有的图像语义标注模型可概括的分为三类,判别式图像标注模型、生成式图像标注模型和基于深度学习的混合图像标注模型。1)早期的图像语义标注多为判别式的模型,自动图像的语义标注被定义为传统的有监督分类问题,主要取决于构建视觉特征和预定义标签的关联性,在关联语义标签和视觉特征时主要通过机器学习算法进行建模(常用的机器学习分类算法如线性回归、神经网络、支持向量机等),通过度量视觉向量间的相似性并结合相应的类别标签来预测图像的类别,进而转换为图像的语义标签。近年来多示例多标记的学习方法也被广泛的应用到图像语义标注中,通过将多示例多标签学习分解成多示例学习和多标签学习,并对SVM算法进行改进,提出了MIMLSVM算法。2)生成式图像标注模型的特点是学习获得图像的视觉特征和文本语义标签的联合分布概率,再通过贝叶斯概率模型计算已知的图像各关键语义的后验概率,从而借助后验概率完成对图像的语义标注。关联建模的方法大多是使用生成式模型进行标注,这种方法不仅考虑到了语义的关联性,还分析了视觉特征的联系,开创了图像标注的新模式。3)深度学习方法的突出特点就是具备自主学习高质量视觉特征的能力,相较于传统的特征提取方法,卷积神经网络具有更强的特征表示能力,从而学习到更高级的视觉特征。CNN是一种特殊形式的神经网络,由多个卷积层、池化层和全连接层构成。网络参数由前至后逐层传递,前层的网络所学习的视觉特征通常被视为纹理、颜色等底层视觉特征,视觉特征在不同网络层之间传递,后层的网络所学习的特征通常被认为是由底层的视觉特征组合而成的高层视觉特征。

本课题拟采用基于CNN的自动语义标注模型,标注的过程大致分为生成式特征学习和判别式语义学习。首先基于外部数据集,预训练模型的网络参数,之后再在目标数据集上微调参数。在模型训练的过程中,训练集的图片被调整成统一的尺寸后输入网络训练,在CNN模型中,每一层网络层之后都使用非线性的ReLU函数作为激活函数,并使用随机梯度下降法训练网络。基于训练好的网络,给定一幅图像,输入预训练好的卷积神经网络模型,提取图像的高层视觉特征。在判别式学习过程中,通过SVM分类器对这些特征进行多标签分类(每一个目标类别一个SVM分类器,假设有c个类别,即构建c个子分类器。对第m类的子分类器来说,将该类的所有样本作为正类,其他类的样本作为负类),在进行分类时,采用标注精度度量策略,选择最高置信度的五个词语作为作为测试图像的标注词。

3. 参考文献

[1] 林梓佳. 图像语义标注方法研究. 清华大学,2015.
[2] 钟忺. 视频图像目标检索及语义分析方法研究. 武汉理工大学, 2017.

[3] 魏昕路自动图像语义标注的方法研究与应用, 厦门大学,2008

[4] Jeon J, Lavrenko V, Manmatha R. Automatic image annotation andretrieval using cross-media relevance models. Proceedings of the 26th AnnualInternational ACM SIGIR Conference on Research and Development in InformaionRetrieval, 2003. 119–126.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图