基于SPARK云平台的音乐推荐系统设计和实现开题报告
2020-06-06 09:50:50
1. 研究目的与意义(文献综述包含参考文献)
1.spark 云计算平台简介
最近这几年以来,计算机和信息技术迅猛的发展以及普遍的应用,伴随着行业应用系统的规模迅速增大,行业应用所产生的数据呈飞速般增长。动辄达到数百tb甚至数十至数百pb规模的行业已大大超出了现有传统的计算技术和信息系统的处理能力,因此,寻求更加有效的大数据处理技术、方法和手段已成为现实世界的迫切需求。许多开源社区推出了值得关注的大数据分析平台,而spark就是其中最出色的之一。
spark作为下代云计算及大数据的核心技术,是hadoop目前唯一继承者以及替代者,hadoop能做的spark都能很好完成,同时速度比hadoop快100倍以上。而且在hadoop最擅长的离线数据统计分析领域,spark比hadoop也快了不止一个几何级数;spark另外一个无可取代的技术优势是:”one stack to rule them all”,spark采用统一的技术堆栈解决了云计算大数据包括如流处理、机器学习、nosql查询等方面的所有核心问题,配有完善的生态系统,这些技术直接奠定了其云计算大数据领域的霸主地位。
2. 研究的基本内容、问题解决措施及方案
1.本课题要研究或解决的问题
计算机的发展日新月异,在线用户面对杂乱并且数据量爆炸的信息,难免会觉得不知所措,就拿音乐来说,光是一个网易云音乐的歌曲数量就足以让人眼花缭乱,以前想从中选取自己喜爱的歌曲只能依赖于关键词搜索,也就是歌曲名或是歌手名。而现如今的个性化音乐推荐可以根据个人对于音乐流派,歌手,歌曲风格的喜好进行推荐,不用用户繁琐的查询,其大的方便了用户的在线音乐体验,本课题就是针对此个性化推荐进行研究,深入解决用户喜好推荐问题。
2.拟采用的研究手段(途径)
我计划采用协同过滤算法解决个性化推荐问题:协同过滤推荐系统采用统计计算方法搜寻目标用户的相似用户,并依照相似用户对项目的打分来计算目标用户对指定项目的评分,最后选择相似度较高的前若干个评分作为推荐结果,并且反馈给用户。这种算法不仅计算简单快捷且精确度较高,已经被现有的协同过滤推荐系统广泛采用。user-based协同过滤推荐算法核心是通过相似性度量方法计算出最近邻居集合,并将最近邻的评分结果作为推荐预测结果返回给用户。
开发采用vmware_workstation_full_10.0.2 虚拟化平台,在此虚拟机基础上搭建了spark云计算平台(spark1.2.0),jdk version-1.8.0_25。