基于Spark的淘宝回头客预测毕业论文
2021-03-28 23:51:55
摘 要
以互联网为代表的迅猛发展的信息技术,影响到了我们生活的各个层面,随之而来的是数据量的指数级增长,然而传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而产生了专门用于处理大数据的分布式处理技术。在当今业界,Hadoop和Spark作为大数据处理的主流平台,对于大数据的处理具有重大意义。
回头客的行为表现在顾客对某种特定商品存在的持续购买行为,据相关的权威资料分析,老客户所产生的销量是新客户的15倍以上。对店面与品牌,老客户对其商品和服务已领会熟悉,因此相信其商品和服务,忠诚度高。老客户通过口碑宣传来影响其身边的人,这样店面及品牌的知名度就能够得到稳定的增长,然后引起利润的稳定增长。商家能够通过维护回头客之间的友好关系,提高货物销售量,因此,淘宝回头客预测分析的数据对于商家来说具有极其重大的意义。
在本文中首先对于大数据框架Spark相关技术和部分开发环境的搭建及配置进行了简单的介绍,其次,运用了大数据分析的基本理论对于淘宝交易数据进行了处理分析,接着通过数据仓库Hive对于淘宝交易数据进行了相关分析,获取到有关交易数据的具体信息,然后使用支持向量机SVM分类器对于回头客进行预测,得到预测分数,最后通过web相关技术实现分析数据的可视化显示。但是与此同时,我的工作还存在许多不足,所以在今后的学习中还要努力提高。只有通过不断的进行学习,我们才能对大数据拥有更加深刻的认识。
关键词:Spark;大数据;回头客预测;SVM
Abstract
The rapid development of the Internet as the representative of the information technology, affecting the various aspects of our lives, followed by the exponential growth in the amount of data, but the traditional machine hardware and software is not enough to support such a large amount of data storage, management And analytical capabilities, resulting in a distributed processing technology dedicated to handling large data. In today's industry, Hadoop and Spark as the mainstream of large data processing platform, for large data processing is of great significance.
The performance of the repeat customer is reflected in the continuous purchase of the customer in the presence of a particular commodity. According to the relevant authoritative data analysis, the sales generated by the old customer is 15 times more than that of the new customer. On the store and the brand, the old customers of their goods and services have been familiar with, so believe that its goods and services, high loyalty. Old customers through the word of mouth publicity to influence the people around, so that the store and brand awareness will be able to get steady growth, and then lead to steady growth in profits. Businessmen can maintain the friendly relationship between repeat customers, improve the sales of goods, therefore, Taobao repeat customers to analyze the data for the business is of great significance.
In this paper, we first introduce the construction and configuration of Spark related technology and some development environment of large data frame. Secondly, the basic theory of large data analysis is used to analyze the data of Taobao transaction, and then through the data warehouse Hive Taobao transaction data were analyzed, and the specific information about the transaction data was obtained. Then, the support vector machine (SVM) SVM classifier was used to forecast the repeaters, and the predicted scores were obtained. Finally, the visualization of the analyzed data was realized by web related technology. But at the same time, my work still exists a lot of deficiencies, so in the future study should also strive to improve. Only through continuous learning, we can have a greater understanding of large data.
Key words: Spark; large data; repeat customer prediction; SVM
目录
摘 要 I
第1章 绪论 1
1.1 研究背景及意义 1
1.2国内外的研究现状分析 1
1.2.1 Spark研究现状 1
1.2.2回头客预测现状分析 2
1.3 研究内容及目标 2
1.4 本文的章节内容 3
1.5 本章小结 3
第2章相关技术介绍 4
2.1大数据框架——Spark 4
2.2分布式文件系统——HDFS 4
2.2.1 HDFS数据存取策略 5
2.2.2 HDFS的读写过程 5
2.3弹性分布式数据集——RDD 6
2.4数据仓库——Hive 6
2.5支持向量机SVM分类器 7
2.6Web相关技术 7
2.7本章小结 8
第3章开发环境搭建 9
3.1开发平台 9
3.2搭建开发环境 9
3.2.1Spark安装 9
3.2.2Hadoop安装 9
3.2.3Hive安装 10
3.4本章小结 11
第4章设计分析过程 12
4.1将本地数据集上传到Hive 12
4.2Hive数据分析 13
4.3将数据上传到Mysql 13
4.4Spark预测回头客行为 14
4.5进行可视化分析 15
4.6本章小结 20
第5章总结与展望 21
5.1工作总结 21
5.2工作展望 21
参考文献 22
致 谢 23
第1章 绪论
1.1 研究背景及意义
以互联网为代表的信息技术的高速发展,影响到了我们生活的各个层面,随之而来的是数据量的指数级增长,然而传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而产生了专门用于处理大数据的分布式处理技术。在当今业界,Hadoop和Spark作为大数据处理的主流平台,对于大数据的处理具有重大意义。
以往,在Hadoop平台中,MapReduce以其进行批处理的特性能够满足许多企业和组织的处理需求。但是,在信息技术越来越发达的今天,人们需要使用更快速的数据处理技术。各个领域的迅猛发展导致了这种需求,其中包括最近发展的流媒体技术、物联网、实时分析处理等高新技术。他们需要一套更加高效快速的数据处理模型对数据进行处理分析。现在的Spark,能够很好的满足这些需求,因此吸引了业界人士的浓厚兴趣与大力支持。
淘宝的历史交易数据是非常庞大的,通过Spark用于预测回头客能够使我们的工作量大大减轻。因此,基于Spark的淘宝回头客分析与预测具有可操作性。