基于Hadoop的台称计量数据分析毕业论文
2020-07-01 21:11:19
摘 要
大数据分析是指对规模庞大、复杂的数据集进行快速处理的一项技术,通过对提供的数据进行抽取、转换和加载,之后对其进行建模分析,从而可以实现数据分析、预测数据趋势等功能。如今,大数据分析技术已被广泛使用,此项技术也会越来越成熟,成为IT的一个重要产业,有着极高的研究价值和应用价值。
本篇论文中,笔者首先阐述了大数据分析的技术背景以及此次项目开发的实际意义,然后说明了此次项目开发的基础,需要搭建的软硬件环境。本文接着介绍了本次项目开发的实际流程。此次项目开发的目标是运用大数据分析技术来对已给的台秤检定数据进行分析,对数据分析给大数据带来的价值进行初步体验。之后对此运用的开发过程进行详细说明,针对各个预期功能对开发过程进行具体描述。最后提出仍需改善的方向。
随着大数据时代和“互联网 ”时代的来临,在日常生活中产生越来越多的数据,如何将这些数据处理好成为行业研究人员探究的重点,大数据分析技术也应运而生,并且发挥着越来越重要的作用。所以,作为学习计算机相关技术的学生,也要坚持学习,不断深入,来掌握和促进大数据分析技术的发展,并带来极高的社会价值。
关键词:Hadoop平台 Spark 台秤质量分析 大数据分析与运
Abstract
Big data analysis refers to a technique that rapidly processes large-scale and complex data sets. It extracts, converts, and loads data provided, and then performs modeling analysis. Data analysis and forecasting data trends can be realized. Other functions. Nowadays, big data analysis technology has been widely used, and this technology will become more and more mature. It has become an important IT industry and has extremely high research value and application value.
In this paper, the author first elaborated the technical background of big data analysis and the practical significance of the project development, and then explained the foundation of the project development, that is, the hardware and software environment that needs to be built. In addition, this article then introduced the actual process of the project development. The goal of this project development is to use big data analysis technology to analyze the quality of given scale data, and to experience the initial value of data analysis to the value brought by big data. After that, the development process used for this is explained in detail, and the development process is specifically described for each expected function. Finally, it proposes directions for improvement in the future.
With the advent of the age of big data and the era of “Internet Plus”, more and more data are being generated in daily life. How to handle these data well has become the focus of industry researchers, and big data analysis technology has emerged. Play an increasingly important role. Therefore, as a student who learns computer-related technology, it is also necessary to persist in learning and continue to deepen, in order to grasp and promote the development of big data analysis technology, and bring about extremely high social value.
Keywords: Big Data Analysis;Hadoop;Spark;Quality of Table Scale
目 录
摘要 Ⅰ
Abstract Ⅱ
第一章 引言 1
1.1大数据分析技术的背景 1
1.1.1 概述 1
1.1.2大数据分析的研究现状 2
1.1.3大数据分析的研究现状 3
1.2 大数据分析开发目标 3
1.3 本章小结 4
第二章 大数据分析相关技术 5
2.1 Hadoop平台介绍 5
2.1.1 Hadoop平台简介 5
2.1.2 Hadoop的基本框架 5
2.2Hadoop相关技术介绍 7
2.2.1 Apache Spark概述 7
2.2.2 PySpark概述 7
2.3 Python语言介绍 8
2.3.1 Python语言介绍 8
2.3.2数据处理包pandas介绍 9
2.4 本章小结 9
第三章 数据分析 10
3.1 对数据的初步认识和分类 10
3.2台秤数据各项指标意义 11
3.2.1 各项字母含义以及重要名词解释 11
3.2.2 测试项目含义 12
3.2.3 台秤数据的意义及潜在的分析角度 12
3.3 聚类方法 13
3.3.1 Kmeans方法 13
3.3.2 DBSCAN算法 15
3.4 本章小结 16
第四章 结论 18
4.1 实现目标 18
4.2基本流程图 18
4.3 相关环境搭建 18
4.3.1 硬件环境要求 18
4.3.2 软件环境配置 19
4.4 数据读取 19
4.4.1 数据定位 19
4.4.2 数据存储 20
4.4.3 遍历文件 21
4.5 数据清洗 22
4.5.1 归一化处理和精简数据 22
4.5.2 去除异常值和空值 24
4.5.3 拼接公司信息表 24
4.5.4 公司数据横向比较数据 25
4.6电子秤数据分析 26
4.6.1 Kmeans数据分析 26
4.6.2 DBSCAN算法 27
4.6.3 excel数据分析 29
4.7 台秤数据 31
4.7.1 Kmeans数据分析 31
4.7.2 DBSCAN聚类 31
4.7.3 excel数据分析 32
4.8 交互界面 34
4.8.1 数据读取部分 34
4.8.2 算法执行部分 36
4.8.3 总体情况绘图部分 36
4.9 本章小结 37
第五章 总结与展望 38
参考文献 39
致谢 41
第一章 引言
1.1 大数据分析技术的背景
1.1.1 概述
大数据不仅是大量的数据,还是包含从收集到处理大数据所有过程的概念。Gartner是美国著名的信息技术研究和咨询公司,它将大数据定义为具有3V特性(体积、速度和多样性)的信息,用于更好的决策。这里“体积”是指大于100TB(TeraByte)的可处理数据。“速度”是指数据的高速实时处理,而“多样性”是指可处理数据的类型,如结构化数据和非结构化数据。除了3V之外,大数据最近被称为具有5V的特性,其延伸3V以包括真实性和价值。“真实性”是指从整个数据中选择的高质量数据,而“价值”是指大数据分析推导出的有用信息。
相关图片展示: