专业批量文本快速挖掘平台设计毕业论文
2021-03-26 23:02:58
摘 要
20世纪50年代开始,人类跨进了信息化革命的浪潮。伴随着爆炸式增长的各种信息。借助数据库人们能够将数据储存进去,但是数据库在数据处理上的疲软越来越难以满足实际需求。需求是技术之母,对大数据处理的迫切渴望催生了数据挖掘技术的诞生。数据挖掘定义为从大量的数据中通过算法搜索隐含其中信息的过程。该技术在国内正处于发展阶段,但可以预见随着中国经济的繁荣,大多数行业都需要面向大数据的数据挖掘技术。
从实现专业批量挖掘文本的设计要求出发,本文首先说明了几种数据挖掘语言和平台的优劣,经对比,考虑到R在数据挖掘方面的专业性以及对中文的支持相对优良的特性,加上R作为一种函数设计语言代码十分易于理解,最终设计选择了R和R平台。
设计对单个数据文件处理的过程是,先读取后自动从中文文本中抽取出数值型数据(股票今年以来的每日价格价格)。设计核心在于通过R语言实现对股价的预测,该环节实现方法是将股价数据转化为时间序列之后,将其平稳化以建立ARIMA模型,最终完成对时间序列的预测。该模型能够考虑现在值和过去值之间的联系,因此对于数据之间有依存关系的金融数据预测准确率非常高。在此基础上经由R语言特有的apply()族函数,通过循环实现批量读取、分析、输出数据文件的功能。
经实验,本设计比较好地实现了上述功能。用户只需要在R语言的工作路径中添加需要处理的文件,或者将R的工作路径设置为目标文件夹。运行代码后,R语言能够自动遍历文件夹中的所有文件并批量读取,会自动地完成提取、转化时间序列、平稳化、时间序列建模并预测、结果输出的功能。R也支持对预测结果的绘图直观得展示出来。
关键词:数据挖掘;时间序列;ARIMA模型
Abstract
Since the 1950s, mankind has stepped into the tide of information revolution. Accompanied by explosive growth of the various information. With the database people can store the data into, but the database in the data processing weakness is increasingly difficult to meet the actual needs. Demand is the mother of technology, the urgent desire for large data processing gave birth to the birth of data mining technology. Data mining is defined as the process of searching for information that contains information from a large number of data. The technology is in the domestic development stage, but can be expected with the prosperity of China's economy, most industries need for large data mining technology.
This paper first describes the advantages and disadvantages of several kinds of data mining language and platform. By contrast, considering the professionality of R in data mining and the relative superiority of Chinese support, this paper introduces the design of the data mining language and platform. On R as a function of design language code is very easy to understand, the final design of the R and R platform.
The process of designing a single data file is to automatically extract numerical data (the daily price of the stock this year) from the Chinese text. The core of the design is to predict the stock price through the R language. The method is to convert the stock price data into a time series, to smooth it to establish the ARIMA model, and finally to complete the time series prediction. The model can take into account the relationship between current and past values, so the accuracy of financial data for data dependencies between data is very high. On this basis, through the R language specific apply () family function, through the cycle to achieve bulk read, analysis, output data file function.
Experiments, the design is better to achieve the above functions. The user only needs to add the file to be processed in the working path of the R language, or set the working path of R as the destination folder. After running the code, the R language automatically traverses all the files in the folder and reads it in batches, automatically completing the extraction, transforming the time series, smoothing, time series modeling and predicting the output of the results. R also supports the visualization of the predicted results.
Key Words: data mining; Time series;ARIMA model
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 研究目的及意义 1
1.2 国内外研究现状 2
1.3 研究内容 3
第二章 方案论证与系统需求分析 5
2.1 几种基于不同语言的数据挖掘平台 5
2.1.1 语言和平台的选择 6
2.2 时间序列基本原理 7
2.3 系统需求分析 8
第三章 设计实现 10
3.1 总体流程图 10
3.2 批量读取与输出 10
3.3 从文本中提取数据 13
3.4 单支股票预测 14
第四章 结果展示与分析 16
第五章 总结与展望 19
参考文献 20
致 谢 21
第一章 绪论
1.1 研究目的及意义
21世纪以来科技的进步,尤其是信息产业的发展,引领人类进入了一个前所未有的信息化时代。如今每18个月产生的数据量就相当于过去几千年的总和,并且还有增长的趋向。需求是技术之母,储存大数据的需求催生了数据库的诞生。如今的数据库技术从最初单一的文件处理演变为复杂的、功能强大的系统,足以支持大数据的存储,以及简单的查找统计功能。
然而,数据库系统在数据处理上的乏力越来越不能够满足实际需求,人工也难以实现对大数据的分析处理。如何才能将大数据根据实际需求转换成有意义的信息和知识?如何避免数据库成为“数据的坟墓”?由此学者们开始研究一种全新的基于大数据的数据处理技术:数据挖掘与知识发现的理论与技术研究(以下简称数据挖掘)。
数据挖掘将传统的数理统计学与适用于大量数据的复杂算法相结合,自问世以来就吸引了大批专家学者的注意。如今数据挖掘已经开发出了种类繁多的算法与技术,广泛得应用在了各行各业。
例如分子生物学和医学领域中,科学家将人体DNA遗传信息、人类疾病史以及对应的治疗方法、临床实践等复合了各种形式的数据储存在数据库中,借助数据挖掘中的序列模式能够分析异构、分布式基因数库的语义集成;数据挖掘的相似检索技术可以用于识别在多个病人身上同时出现的DNA,从而找出致病基因,帮助生物医学家诊断治疗与记录。