基于Spark的淘宝回头客预测开题报告
2021-03-24 23:59:19
1. 研究目的与意义(文献综述)
随着互联网为代表的信息技术深度发展,其背后由于历史积累产生了TB、PB甚至EB级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。如今业界大数据处理的主流平台非hadoop和Spark莫属。
在过去,Hadoop中运用MapReduce进行批处理的特性足以满足许多组织的处理需求。然而,随着信息化时代的发展,越来越多组织亟需使用更加快速的数据处理。这些需求来自各个领域的驱动,其中包括最近发展的流媒体技术、物联网、实时分析处理,这些也仅仅只是其中一部分。他们需要一套新的数据处理模型。在今天,能够满足这些需求而引起了业界人士浓厚兴趣与广泛的支持的一项重要的新技术,就是Apache Spark。
股票分析往往依赖于对大量的股票历史数据的分析,如何通过股票的历史数据,对股票进行分析,从中挖掘出有价值的信息,一直是广大投资者所面临的难题。但随着股票市场所积累的金融信息越来越多,传统分析法无法有效的处理大规模的数据,也难以从大量的数据中主动的发现各种潜在的有用信息。因此,完成基于spark的股票数据分析算法,能够使股票分析的效率大大提高。2. 研究的基本内容与方案
一、基本内容与目标
1.了解目前股票数据分析的发展现状;
2.了解hadoop和spark大数据框架;
3. 研究计划与安排
第1~3周 查阅文献;分析题目研究现状,学习基本理论;
第4周 阅读文献、撰写开题报告,英文文献翻译;
第5周 了解大规模数据处理技术现状以及各技术的特点;
4. 参考文献(12篇以上)
[1] 郭淑红. 基于apriori算法的股票分析仿真系统[j].计算机仿真, 2010,06:334-337
[2] 潘宁宁,朱宏泉. 基金持股与交易行为对股价联动的影响分析[j]. 管理科学学报,2015,03:90-103.
[3] 杨震. 基于后效时间长度的股票价格预测[j]. 计算机仿真,2012,02:378-381.