基于多模态特征的视频推荐算法的设计与实现毕业论文
2021-11-20 22:35:58
论文总字数:14631字
摘 要
随着互联网的快速发展,网络视频已经成为一种不可或缺的信息资源,在海量的视频资源中,用户无法快速、准确地找到自己感兴趣的视频,因此一个高效的视频推荐系统显得尤为重要。对于传统视频的推荐算法,我们往往采用协同过滤算法或者基于内容的视频推荐算法。协同过滤算法常常会遇到‘冷启动’问题,即新加入的视频,因其与全体用户不存在交互的标签,无法顺利纳入推荐算法中;而基于内容的推荐算法,在视频推荐中,其精度上往往差于协同过滤算法,且受某单一特征的影响。
本文从视频的多模态内容出发,结合用户的评价数据,提出了一种基于多模态信息的视频推荐算法。通过提取视频的文本、音频、视频的特征,以多种角度来描述视频信息,获得视频的特征矩阵,并结合用户点评信息获得的用户的兴趣矩阵进行视频推荐,这将减少单一文本内容如“标题党”以及“冷启动”对视频推荐效果的影响。
关键词: 多模态;协同过滤;混合模式;视频推荐
Abstract
With the rapid development of the Internet, network video has become an important network resource. Among the massive video resources, users cannot quickly and accurately find the video they are interested in. Therefore, an efficient video recommendation system is particularly important.For traditional video recommendation algorithms, we often adopt collaborative filtering algorithm or content-based video recommendation algorithm.Collaborative filtering algorithms often encounter the problem of "cold start", that is, the newly added videos cannot be smoothly incorporated into the recommendation algorithm because there is no interactive label between them and all users.However, content-based recommendation algorithm is often less accurate than collaborative filtering algorithm in video recommendation, and is influenced by a single feature.
In this paper, a video recommendation algorithm based on multi-modal information is proposed based on the multi-modal content of video and the user's evaluation data.By extracting the characteristics of the video text, audio, video, in a variety of point of view to describe the video information, obtain the video feature matrix, and combined with the user review information for video of the user's interest in matrix recommendations, this will reduce the single text content such as "the title party", and "cold start" to recommend video effect.
keywords: multi-modal;collaborative filtering;mixed mode;video recommendation
目录
摘要 I
Abstract II
第1章 绪论 1
1.1 选题背景及意义 1
1.2 研究现状 1
1.3 本文主要研究内容及结构安排 2
第2章 相关技术介绍 3
2.1 文本特征编码技术 3
2.2 MoviePy 4
2.3 MFCC特征提取 4
2.4 关键帧提取 5
2.5 C3D 6
2.6 AutoEncoder自编码器 6
第3章 多模态推荐算法 7
3.1 算法流程综述 7
(1)特征提取 7
(2)特征降维 7
(3)视频推荐 7
3.2 多模态特征提取 7
3.2.1 文本特征的提取 8
3.2.2 音频特征的提取 8
3.2.3 视频特征的提取 8
3.3 特征降维 9
3.3.1音频特征降维 9
3.3.2 视频特征降维 9
3.4 推荐算法实现 10
3.4.1 用户-特征的喜好向量 10
3.4.2 用户喜好特征与电影的特征匹配 11
第4章 算法评估 12
4.1实验设计与测评指标 12
4.1.1 实验背景 12
4.1.2 测评指标 13
4.2 模型参数对多模态推荐算法的影响 13
4.2.1 视频特征维度Dim的选取对推荐效果的影响 14
4.2.2 推荐电影列表长度N对推荐效果的影响 14
4.3 与经典算法对比 15
4.4 推荐效果评估 15
第5章 结论 16
参考文献 17
致谢 19
第1章 绪论
1.1 选题背景及意义
随着互联网蓬勃发展和流量时代的到来,网络资源浩瀚如烟,用户如何在无比庞大的网络资讯中寻找自己需要的资源,是一件非常困难的事情。这时候推荐系统随之孕育而出,它是用来将用户与物品进行关联的自动化工具,能够在复杂的信息环境中感知用户所需,明白用户所想,较为快速而准确地将用户感兴趣的物品推荐给用户[[1]]。
此时网络视频已经成为互联网中重要的信息资源,与此同时,一些视频平台也迅速发展起来,如国外的YouTube和国内的腾讯视频与爱奇艺等。对于视频平台而言,他们希望感知用户的兴趣所在,抓住用户流量;对于视频观看用户,他们希望能够获得自身感兴趣的视频资源。因此,一个高效、准确的视频推荐系统显得格外重要,这对视频推荐算法的各方面要求也随之更高。
1.2 研究现状
目前主流的视频推荐系采用的是基于内容推荐算法( Content-Item-KNN)与基于物品的协同过滤(Item-CF)推荐算法,或者二者的混合形式。
1992年,基于用户的协同过滤算法(User-CF)首次被提出,这是推荐算法中最早的类型,1994年,该算法成功地被明尼苏达大学GroupLens研究组用于GroupLens系统,该系统是最早的自动化推荐系统之一[[2]],使推荐系统能够以自主的方式进行推荐。之后Group Lens 项目组在协同过滤算法的基础上设计出电影推荐系统MovieLens,开创了推荐系统在视频领域应用的先河,该系统使用到的数据集发展到现在,仍是主流视频推荐算法首选的数据集。1997年Hal R.Varian 和Paul Resnick 正式提出了推荐算法(Recommender System,RS)一词,推荐系统开始成为一个重要的研究领域[[3]]。随着推荐系统用户的增长,基于用户的协同过滤算法不能很好地满足推荐需求,1998年著名电商公司亚马逊提出了基于物品的协同过滤算法(Item-CF),并成功地将其应用于电商平台以应对较大规模的数据交互[[4]]。
进入21世纪,推荐算法进入了迅速的发展阶段,2003年美国 Netflix 公司研制了第一款商用电影推荐系统 Cinematc,该系统主要利用用户过去的观看记录预测用户兴趣所在[[5]]。2005 年,推荐算法分类被 Adomavicius 等人提出,主要包括基于内容的推荐算法、协同过滤算法以及兼顾二者的混合推荐算法,并就推荐算法未来的发展提出了自己的预测[[6]]。2006年,Netflix开始举办著名的Netflix Prize推荐系统比赛[7],该比赛极大的促进了工业界和学术界对推荐算法研究的热情。随着机器学习和深度学习的发展,学术界开始讨论如何将深度学习应用于推荐算法中,2017 年Karatzoglou 等人详细地讲解推荐系统中如何集成深度学习,描述了深度学习在内容推荐和协同过滤推荐方法中使用的可行性,使得推荐算法的研究方向转向深度学习领域[[8]]。
基于内容的推荐算法由于其主要针对文本信息进行推荐,内容单一,对于视频等媒体的推荐只能靠视频文本标签,而文本标签与视频内容可能存在不匹配现象,因此该算法在视频推荐精度上存一定的问题。而基于物品的协同过滤推荐算法无法推荐一个没有用户交互记录的新视频,即冷启动问题。此外,由于视频总数和用户总数都很巨大,评分矩阵势必是非常稀疏的,缺乏可以利用的信息,使得推荐效果不尽如人意。
1.3 本文主要研究内容及结构安排
本文考虑从视频本身出发,尝试文本、音频、视频等多个模态提取视频特征[[9]],使用降维技术对多模态信息进行降维,并结合用户评分矩阵,研究得到基于多模态的推荐算法。由于是从多角度信息特征来描述视频信息,这就避免单一文本标签内容带来的不利影响。此外本文尝试得到用户对电影的特征喜向量而不是直接提取用户对视频的点评,这将在一定程度上解决传统推荐算法中遇到的冷启动的问题。
请支付后下载全文,论文总字数:14631字