视频标注及检索毕业论文
2021-03-13 23:17:43
摘 要
计算机技术快速发展,网络技术不断提升,人们的生活越来越便利,但同时也使网络中的数据量猛增。如何在网络中搜索想要的信息变成了社会关注的问题。如今已经出现了谷歌、雅虎、MSN等搜索引擎来帮助人们解决文本搜索的问题,但对于视频数据的搜索还没有合适的方法。但视频数据同样在呈几何级数递增,大量视频数据沉淀成了网络垃圾。以往通过人工标注来实现视频检索的方法已经不适用于如此庞大的视频数据量,因此需要新的视频检索技术来解决该问题,能够对海量视频进行分析、索引、浏览、检索和分类。
本文主要研究了基于内容的视频标注和视频检索。该方法是对视频中低层特征进行分析,从中获取语义信息,形成索引以供检索。这种方法使用机器学习来对视频进行标注,在一定程度上提高了标注的效率,且有不错的查准率。其中关键部分便是如何对视频的特征进行提取和分析,在这里我选择了基于视觉词袋模型的分类标注法,并以此为基础实现了一个视频检索系统,能对分类好的视频进行检索。
本文的主要工作:
1)将以往传统的视频检索技术与基于内容的视频检索技术进行了比较,并对如今基于内容的视频技术分析其不足之处。
2)对基于内容的视频标注技术中的核心部分,关键帧的提取做了详细说明。列举了在压缩域和非压缩域中提取关键帧的可行方法。
3)使用基于视觉词袋模型的分类标注方法来实现视频检索系统。视觉词袋模型在图像处理中应用广泛,有较好的查全率和查准率。对完成的系统进行了简单的搜索示范,取得了不错的成果。
4)对系统中使用的SIFT算法进行了详细的介绍,分析了其算法的实现步骤,并对每个步骤进行了讲解,对于其如何确定关键点,如何形成特征描述符做出了简单的解释。
关键词:视频检索;视频标注;视觉词袋模型
Abstract
The rapid development of computer technology and network technology, people's lives more and more convenient. But it also makes the amount of data in the network soared. How to search the network in the information you want to become a social concern. Now there have been Google, Yahoo, MSN and other search engines to help people solve the problem of text search, but for the search of video data there is no right way. However, the video data is still increasing in the geometric progression, a large number of video data precipitated into the network garbage. In the past, the artificial method of real-time video retrieval has been outdated to such a large amount of video data. Therefore, a new video retrieval technology is needed to solve the problem, and the massive video can be analyzed, indexed, browsed, retrieved and sorted.
The paper mainly studies the content-based video annotation and video retrieval. This method is to analyze the low-level features in the video, from which to obtain semantic information, the formation of the index for retrieval. This method uses machine learning to mark the video, improve the efficiency of the label on a certain extent, and have a good precision. The key part is how to extract and analyze the characteristics of the video. Here we choose the classification and labeling method based on the Bag of Visual Words Model, and on this basis, we can realize a video retrieval system, which can search the classified video.
The main work of this article:
1) The paper compared the traditional video retrieval technology and content-based video retrieval technology, and analyzed today's content-based video technology, listing its shortcomings.
2) In this paper, the core part of the content-based video annotation technology, the key frame extraction is described in detail. The article also lists possible ways to extract keyframes in compressed and uncompressed domains.
3) The video retrieval system is realized by using the classification and labeling method based on the Bag of Visual Words Model. Bag of Visual Words Model is widely used in image processing, with good recall and precision. On the completion of the system, we did a simple search demonstration, and achieved good results.
4) The SIFT algorithm used in the system is also introduced in detail, and the steps of the algorithm are analyzed. The steps that how to determine the key points and how to form the feature descriptor is explained.
Key Words:Video retrieval;Video annotation;Bag of Visual Words
目录
第1章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状与主要问题 2
1.2.1 国内外视频检索系统的研究现状 2
1.2.2 主要问题 4
1.3 论文主要工作与要点 5
第2章 基于内容的视频标注方法 6
2.1 视频数据的结构 6
2.2基于内容的视频标注方法 7
2.2.1 视频镜头分割 7
2.2.2 关键帧的提取 8
2.2.3 特征提取 9
2.3本章小结 10
第3章 基于视觉词袋模型的视频检索系统 11
3.1 视觉词袋模型 11
3.2 SIFT算法 11
3.2.1尺度空间极值检测 12
3.2.2 关键点定位 13
3.2.3 关键点方向确定 14
3.2.4 关键点描述符 14
3.3 K-Means聚类算法 14
3.4 SVM支持向量机分类器算法 14
3.5 本章小结 15
第4章 实验 16
4.1 视频关键帧分类标注 16
4.2 视频检索 18
4.3 本章小结 19
第5章 总结与展望 20
5.1 本文主要工作总结 20
5.2 未来工作展望 20
参考文献 21
致谢 22
第1章 绪论
1.1 研究背景及意义
计算机的快速发展以及网络技术的不断提升,使得人们生活越来越便利,社会已经不知不觉养成了从网上获取信息的习惯。目前,谷歌、雅虎、MSN等搜索引擎已经能够解决海量文本搜索的问题,但对于视频数据的检索仍然没有有效的方法,主要问题是缺乏有效的手段来建立适合检索的视频索引。与此同时,在大容量的存储设备和数字化设备被广泛使用以及多媒体技术不断提高的大环境下,视频数据如今是呈几何级数递增的趋势。虽然数据快速增长但处理这些数据能力仍旧不足,大量的视频数据沉淀,成了网络垃圾。视频内海量的内容,让人目不暇接,在这种情况下,人们便开始思考,怎样有效地利用这些视频内容。如今该问题已经成为了互联网技术急需解决的问题之一。为了解决该问题,促进新的视频应用的发展,需要开发一些用于这些海量视频数据分析、索引、浏览、检索和语义内容分类的先进技术。
以往要对视频进行检索,大多的方法是先对视频数据使用人工方法来标注上文本,再利用这些标注再生成索引,接着就可以使用关键词的方法来检索想要的视频了。用户想要检索一个视频素材,就一定会有对该视频内容有所了解,通过对内容用文本数据,即关键词来描述,将关键词与之前创建的索引相配对,就可以找到与关键词描述的内容最相似的索引所对应的视频了。总而言之,以往的视频检索系统基本都是基于关键词,采用人工标注的方法对视频库内的视频添加标注,接着再利用这些标注来建立索引,进行查询相关的操作,就如图1-1所示。