视频语义特征提取技术毕业论文

2021-03-13 22:25:50

摘要

目前互联网技术飞速发展，多媒体数据也得到了极大的传播，我们每天都在面对众多的信息。然而目前的检索技术不能让我们很好的利用起这些信息，很多的检索方式都是依据文本标注的方式进行的，基于内容的视频检索系统也更多是利用低层特征。如何在高层语义上检索视频，跨越语义鸿沟成为研究的难点。

本文分析了目前视频检索技术的现状，基于内容的视频检索现有的成果和存在的问题，研究了镜头分割和关键帧的提取，对于关键帧低层特征的颜色和纹理提取，主要利用颜色直方图，颜色矩和灰度直方图。在低层特征到高层语义映射中分析了KNN算法，朴素贝叶斯算法和高斯核算法，并分析了其优缺点。在文章最后提出了缩小语义鸿沟，可在镜头的分割，增加多样低层特征以及考虑语义频率对结果的影响等问题上研究。

关键词：QBIC；高层语义；低层特征；关键帧；语义标注

Abstract

At present, the development of Internet technology is quick. What is more, multimedia data has also been spread in a large extent, which means that we are facing various kinds of information every day. However, the current video retrieve technology could not let us make good use of this information. A lot of video retrieve technology is based on text annotation, content-based video retrieval systems also using low-level features to retrieve videos. How to retrieve video in high-level semantics and cross the semantic gap becomes the most difficult part of research.
This paper analyzes the existing results and existing problems of content-based video retrieval. The extraction of the camera lens and the extraction of the key frame are studied. For the color and texture extraction of the low-level features of the key frame, the color histogram, the color moment and the gray histogram are mainly used. The KNN algorithm, the naive Bayesian algorithm and the Gaussian kernel algorithm are analyzed in the low-level feature to the high-level semantic mapping, and the advantages and disadvantages are analyzed. At the end of this paper, I propose some ways of narrowing the semantic gap, which can be done by studying on the division of the camera lens, adding various low-level features and considering the influence of semantic frequency on the results.

Keywords: QBIC; high-level semantics; low-level features; key frames; semantic annotation

第1章绪论 1

1.1引言 1

1.2视频检索的背景和发展 1

1.2.1基于内容的视频检索提出背景 2

1.2.2现有的系统 2

1.2.3存在的问题 3

1.2.4基于语义的视频检索研究现状 4

1.3研究的目的和意义 4

1.4课题研究内容 5

第2章视频镜头分割和关键帧的提取 6

2.1镜头分割 6

2.1.1基于像素比较方法 7

2.1.2直方图方法 7

2.1.3镜头分割的难点 7

2.1.4突变渐变自检测改进算法 8

2.2关键帧的提取 10

2.2.1基于镜头边界的方法 10

2.2.2基于视觉内容的方法 10

2.2.3基于运动的方法 11

第3章低层特征的提取 12

3.1颜色特征 12

3.1.1颜色空间 12

3.1.2颜色直方图 14

3.1.3颜色矩 14

3.2纹理特征 15

3.3形状特征 16

第4章低层特征到高层语义建立映射的算法 17

4.1K近邻算法 17

4.2朴素贝叶斯算法 18

4.2.1.分类问题 18

4.2.2.贝叶斯定理 19

4.2.3利用朴素贝叶斯分类进行语义标注 19

4.3高斯核算法 20

4.4对各种算法的比较和分析 21

第5章实验和分析 23

第6章总结与展望 30

参考文献 32

致谢 33

第1章绪论

1.1引言

如今处于信息时代，每天人们都在接受来自各种渠道的信息。而随着现在互联网技术的飞速发展，仅需通过一台连入网络的设备便可以快速的得到人们需要的任何信息。加之目前计算机对文字、数据、图像和声音动作等多媒体信息的处理发展技术先进，使得人机交互不断加强，人类可以通过多种渠道获取并处理信息。我们拥有信息量庞大的视频数据，这些视频数据在心理学、信号处理、生物视觉模拟、AI（Artificial Intelligence）开发以及教育等领域都有涉及[1]。视频分析和检索的技术也随之发展起来，可以使我们更好的利用这些信息。比如网上的新闻广告的传播，我们正网站上观看电影，以及现在基于网络的远程学习课程。

视频播放网站，网络教育和其他的一些多媒体传播业的发展使得视频数据难以想象的增长，视频含有声音、对象的动作和情节等丰富的信息，目前现有的技术在检索视频上并不能满足精确检索某段视频内容的需要，数据量很多但有时我们仍觉得找不到自己真正需要的内容。在这种情况下，基于内容的视频检索（Content-based Video Retrieval, CBRV）技术被提出并成为研究的方向，可以更精确的对视频数据进行分析和管理，依据视频包含的内容来检索，目前已经有一些研究成果[2]。在日常生活中，我们对于视频或者图像的描述都是在高层语义上的，比如“日出”、“海浪”等。而计算机在检索图像和视频时并不能像我们一样去理解一幅图片，一般只能依据对于这幅图片的文本标注内容，或是颜色纹理等低层特征。要让计算机像我们一样从高层语义的概念去判断一幅图片是很难做到的，计算机没有我们生活知识的积累和自我意识对信息的判断。解决的办法就是构造从低层特征到高层语义的映射，就是使得计算机在分析了一段视频的低层特征后可以得知高层的语义是什么，当我们输入海边时就可以根据高层语义来检索。所以跨越高层语义和低层特征的语义鸿沟是今后视频检索研究很有前景也有很困难的课题。

1.2视频检索的背景和发展

随着计算机和多媒体技术的不断发展，我们的生活和工作中遍布多样的多媒体信息。据文献统计，这些图像和视频数据所占的比例在逐年增加，仅仅到2013年就已经达到90%之多[3]。面对比例如此之高的图像和视频内容，人们越来越关注如何才能快速准确的检索到需要的内容。

1.2.1基于内容的视频检索提出背景

最初人们提出基于文本的检索方式，当时要应对的主要是对图像进行检索。基于文本的方式就是对多媒体信息人工进行信息标注，用文字的方式来表明对象包含的信息，比如一场比赛就对它标注为哪年哪一场足球比赛。这样用户在检索时输入某一场足球比赛，就会在数据库中进行文本的匹配来找到已经标注的对象。但有时也会检索出无关信息，比如某个广告内容是针对这场比赛的，而这则广告标注的文本中含有匹配的信息，就会检索到一则广告而不是一场比赛。

基于文本的检索越来越不能满足海量信息检索的需求，而且标注的文本不一定能代表视频的全部内容，用人工标注工作量也很大。因此基于内容的视频检索这一方法被提出，通过提取并分析视频的各种特征（主要是视觉特征）来分析视频可能含有的信息，为视频建立索引。IBM的MARWL、UICC的MARS和Columbia的Visual SEEK等多媒体信息检索系统都属于此类[4]。传统搜索引擎需要增强视频检索过程，以探索丰富的媒体内容。使用基于内容的视频检索技术（CBVR）从视频数据库检索类似的视频，它是一个扩展的基于内容的图像检索（CBIR）系统[5]。从二十世纪90年代开始基于内容的多媒体检索技术被提出，这一技术也开始成为重要的研究方向。视频的信息包含在角色、场景、动作和故事情节中，或是声音文本等之中。视频检索需要全面考虑到这些特征，才能为用户提供真正需要查询到的结果。基于内容的视频检索技术目前已经有不少研究成果，比如著名的QBIC系统用户输入一个样例图像可以检索出相似的结果，还有VideoQ系统等，可以利用不同的低层特征结合情景检索出图片中的对象[6]。利用低层特征可以在一定程度上提高检索的准确，可以减少人工对多媒体信息的标注，也不用单一的依赖文字信息来检索视频。

1.2.2现有的系统

基于内容的视频检索研究内容很多，如对视频进行镜头的分割，提取关键帧的数据模型研究，以及低层特征表示的方法，如何确定高层语义的研究等[7]。目前世界上有一些系统取得了一些成果，如QBIC系统[8]，是典型的CBIR（基于内容的图像检索）系统。基于内容的图像检索(Content-Based Image Retrieval，CBIR) 利用的是不同的图像信息中含有的特征的差别和相似程度，减小了仅仅利用文本标注的信息来匹配的缺点[9]。在使用QBIC系统中，用户要先将自己查询的要求输入进去，系统经过查询将最可能符合要求的图片返回给用户。QBIC系统的数据库是完成这一任务的重要关键点。首先要建造一个数据库，就要将一系列图片或视频的低层特征提取出来并储存，这其中包括一张图片含有的颜色、纹理和形状等信息，比如一张山的图片包含和种颜色以及各颜色的比例等信息，山脉的纹理特征和该图片中山是三角形。

您需要先支付 50元 才能查看全部内容！立即支付

注册

找回密码

视频语义特征提取技术毕业论文

第1章绪论

1.1引言

1.2视频检索的背景和发展

1.2.1基于内容的视频检索提出背景

1.2.2现有的系统

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

视频语义特征提取技术毕业论文

第1章 绪论

1.1引言

1.2视频检索的背景和发展

1.2.1基于内容的视频检索提出背景

1.2.2现有的系统

您可能感兴趣的文章

最新文档

推荐栏目

第1章绪论