基于大数据分析的个性化推荐系统文献综述
2020-04-14 17:30:40
随着互联网的发展和普及,互联网中的数据量急剧增长,许多知名网站的访问量巨大,如京东、淘宝、优酷、豆瓣等,人们从信息匮乏时代转向信息过载的时代。在面对海量的互联网信息时,人们不能快速准确找到自己所需的信息,不仅影响了用户的满意度,也给网站带来了负担,因此在大量数据中如何提取对用户有用的数据成为关键。个性化推荐是根据用户的兴趣特点及行为向用户推荐其感兴趣的信息或产品,主要解决如何在海量信息中发现用户感兴趣的信息,是解决信息过载问题的一个重要方案。
推荐系统是1995年在美国人工智能协会上卡耐基梅隆大学的教授Robert Armstrong提出了这个概念,并推出了推荐系统Web Watcher。同时,美国斯坦福大学的Marko Balabanovic等人推出了个性化推荐系统LIRA。随后推荐系统的研究工作开始慢慢壮大。21世纪以来,推荐系统的研究与应用随着电子商务的快速发展而异军突起,最著名的是Amazon网站的推荐系统。2006年,美国的DVD租赁公司Netflix在网上公开设立了一个推荐算法竞赛Netflix Prize。Netflix竞赛有效地推动了学术界和产业界对推荐算法的研究,期间提出了很多有效的算法。推荐系统在2000年左右才引起国内的关注,应逐渐成为计算机领域研究的热点。1999年,清华大学路海明提出基于多代理技术的混合智能个性化推荐服务。2001年,南京大学的潘金贵等人设计实现了的基于用户知识的个性化信息搜集多Agent系统,用于远程开放式教学的个性化学习资源的推荐。随后越来越多关于个性化推荐系统技术的优秀论文丰富起来。在近几年,互联网的发展进步,推荐系统有了广泛应用,比较著名的推荐系统应用有:Amazon和淘宝网的电子商务推荐系统、Netflix和MovieLens的电影推荐系统、Youtube的视频推荐系统、及Facebook和Twitter的好友推荐系统等。
大数据概念最初起源于美国,大约从2009年开始,“大数据”成为互联网信息技术行业的流行词汇。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。IBM提出大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。在大数据时代背景下,传统推荐系统与大数据推荐系统二者之间存在显著差异。传统的推荐系统数据规模小,数据稀疏性、冗余度、噪声薄弱,数据类型主要形式是显示评分数据,数据定期更新一次,推荐结果准确度要求低,推荐的实时性一般。而大数据下的推荐系统数据规模大,数据稀疏性、冗余度、噪声较大,数据类型主要形式是隐式反馈数据,数据更新快,推荐结果精准度高,推荐的实时性要求更高。
好的推荐系统不仅仅能够准确预测用户的行为,而且能够扩展用户的视野,帮助用户发现那些他们可能会感兴趣,但却不那么容易发现的东西。同时,推荐系统还要能够帮助商家将那些被埋没在长尾中的好商品介绍给可能会对它们感兴趣的用户。在日趋激烈的竞争环境下,基于大数据下的个性化推荐系统能够提高网站服务的质量,提高用户的实际体验,给企业创造价值。因此基于大数据下的个性的推荐系统的研究有很重要的实际意义。
{title}2. 研究的基本内容与方案
{title}一个完整的推荐系统通常包括3个组成模块:用户建模模块、推荐对象模块、推荐算法模块。推荐系统首先对用户进行建模,根据用户行为数据和属性数据来分析用户的兴趣和需求,同时也对推荐对象进行建模。接着,基于用户特征和物品特征采用推荐算法得到用户可能感兴趣的对象,然后根据推荐场景对推荐结果进行一定的过滤和调整,最终将推荐结果展示给用户。因此论文研究的基本内容和目标是大数据分析处理原理和方法,重点研究基于大数据分析的个性化推荐方法。通过对推荐系统下的不同算法进行实现、分析及对推荐结果进行评估和比较,观察推荐结果与用户的需求是否相匹配,找出算法中的不足并提出改进措施,提高推荐系统预测的准确度。
利用根据研究的内容,拟采用的方案和措施是采用Hadoop平台来实现系统的设计。Hadoop的框架核心的设计就是分布式文件系统HDFS和用于并行处理大数据集的软件框架MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。论文基于大数据挖掘技术,构建个性化推荐系统的实践,先存储用户的海量行为数据,然后基于Hadoop 框架处理离线数据,进行编程计算,存储和推送结果,对所得到的结果进行比较分析。
3. 参考文献[1] 孟祥武,纪威宇,张玉洁.大数据环境下的推荐系统[J].北京邮电大学学报,2015,38(2):1-15.
[2] 王智圣,李琪,汪静等.基于隐式用户反馈数据流的实时个性化推荐[J].计算机学报,2016,39(1):52-64.
[3] 张戈一,胡博然,常力恒等.基于大数据分析挖掘的地质文献推荐方法研究[J].中国矿业,2017,26(9):92-97.
[4] 尤海浪,钱锋,黄祥为等.基于大数据挖掘构建游戏平台个性化推荐系统的研究与实践[J].电信科学, 2014,30(10):27-32.