新款手机APP热度预测方法研究开题报告
2022-01-09 22:44:02
全文总字数:1800字
1. 研究目的与意义及国内外研究现状
数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。然而,提取其中有价值的信息已经成为一项巨大的挑战。当前数据量所表现的一些特点,使得无法使用传统的数据分析工具和技术处理它们。而有些情况下,面临的一些问题无法使用现有的数据分析技术解决,所以需要开发新的方法。采用新的数据挖掘技术,可以将传统的数据分析方法和处理大量数据的分析算法相结合,为从已有的旧数据和如今的海量数据中探查和分析新的数据类型以及从中获得极具价值的信息提供了令人振奋的机会。
国内外研究现状
作为一个新兴的研究领域,自从20世纪80年代开始以来,数据挖掘已经取得了显著的发展并且涵盖了广泛的应用。今天,数据挖掘已经应用到了众多的领域。国内外的研究学者们已经为数据分析提供了一些广泛认可的统计学方法,如回归、广义线性模型、方差分析、混合效应模型因素分析、判别分析、生存分析和质量监控。并且研究人员一直在努力建立数据挖掘的理论基础。其中一些观点是基于数据规约、数据压缩、概率统计理论、微观经济学理论和基于模式发现的归纳数据库。目前比较成熟的相关应用例如可视数据挖掘,它数据挖掘与数据可视化,以便从大型数据集中发现隐藏的、有用的知识,包括数据可视化、数据挖掘可视化、数据挖掘过程可视化和交互的可视数据挖掘。目前,数据挖掘技术已经较为成熟,在许多特定的领域都拥有定制的数据挖掘工具,包括金融、零售和电信业、科学与工程、入侵检测与预防,以及推荐系统。不仅如此,数据挖掘也已经进入到了大众的日常生活。但是目前数据挖掘技术的发展在新领域探索方面仍然存在许多问题,如何提高可伸缩性、交互性和基于约束的挖掘方法,数据挖掘与web服务、数据库、数据仓库和云计算系统的集成,挖掘社会和信息网络,分布式和实时的挖掘,可视可听挖掘,数据挖掘中的隐私和安全性等方面都是研究人员们必须努力的方向。
2. 研究的基本内容
通过学习研究机器学习中的决策树、支持向量机以及朴素贝叶斯等分类方法,收集网络上手机APP的大众使用情况,整理形成数据集,并将数据集通过学习建立一个模型用以对新的示例进行分类,主要内容是研究其分类方法的基本思想、数学原理以及应用,并且学习研究自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)以及隐马尔可夫模型对于获得的时间序列上连续的数据进行预测分析,主要需要学习研究其原理以及应用。
3. 实施方案、进度安排及预期效果
实施方案:
1. 通过scrapy网络爬虫爬取数据集,并进行整理称为有效的数据集,存入mysql数据库中,连续收集30天;
2. 学习研究数据挖掘的基本理论以及相关知识,打好基础;
4. 参考文献
[1] 张凯,齐丽娜.基于连续隐马尔可夫模型的协作频谱检测[j].计算机技术与发展,25(06):64-68,2015.
[2] 罗芳,李志亮.基于分类的机器学习方法中的决策树算法[j].宁德师专学报(自然科学版),21(01):40-42,2009.