网站数据采集与分析系统设计毕业论文
2022-07-05 22:23:28
论文总字数:21537字
摘 要
面对海量信息世界,越来越多的信息和数据可以从互联网上获得,因此,对大量数据的分析、采集以及深度挖掘都能产生不可估量的商业机会。本设计通过JAVA语言实现了从网站数据采集到数据存储并归类汇总的过程。本文阐述了系统实现中的网页信息解析、数据存储、以及对采集的数据进行初步处理并形成直观的分析图表的一系列问题。
网络数据采集通常与信息处理有关,本次课题通过统计、分析、集中处理的方法来实现目标。其中,在网页信息提取中所采用的技术为“网络爬虫”, 网络爬虫是专门用来检索信息的“机器人”,也是一种信息采集器,能在短时间内不间断地执行某项任务。而将数据存储的地方为数据库,本次设计采用的是MySQL数据库,它具备数据共享、数据独立、数据集中、数据安全、数据一致等功能。
本设计实现的网站数据采集与分析系统能对指定的网站进行数据采集与分析,并在网站内容建设、报社媒体资讯获取、企业竞争情报分析等领域得到广泛的应用。这种信息系统也能大大降低政府部门以及大多数企业在信息建设过程中的人工成本。
关键词:数据采集 数据分析 JAVA 网络爬虫
The network data collection and analysis system design
Abstract
Faced with huge amounts of information in the world and more and more information and data are available on the Internet at the same time, it is also likely to produce immeasurable business opportunities to analysis, collection and depth of mining a large number of data. In this article, the JAVA realized the process of implementation from site data acquisition to data storage and classified summary. This article expounds the system implementation of web information, data storage, and the collected data are preliminary processing and forming intuitive analysis chart of a series of problems.
Network data collection is often associated with computer science, this topic through statistics, online analysis, and focus on methods to achieve the goal. Among them, in which used in web information extraction technology for "web crawler", web crawler is specially used to retrieve information "robot", it is also a kind of information collector, it can continuously in a short period of time to perform a task. The data is stored in a place called the database, this design uses a MySQL database, and it can realize data sharing, data independence, the data set, data security, data consistent, etc.
This website design realization of data acquisition and analysis system can directional data analysis was carried out on the specified website and fetching, and in the content construction, newspaper media information acquisition, analysis of enterprise competitive intelligence in the fields of application is very wide. This information system can also greatly reduce most government departments and enterprises in the information construction in the process of artificial cost. So, faced with huge amounts of information in the world and more and more information and data are available on the Internet at the same time, it is also likely to produce immeasurable business opportunities to analysis, collection and depth of mining a large number of data.
Key Words: Data collection; Data analysis; JAVA; Web spider
目 录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1 引言 1
1.2 研究现状 1
1.3 课题研究意义 2
1.4 本文所做的工作 2
第二章 系统分析 3
2.1 系统需求分析 3
2.2 网站数据采集体系结构 3
2.3 网站数据分析体系结构 4
3.4 各主要模块设计 5
第三章 系统设计环境及开发工具的介绍 6
3.1 编程语言的选择 6
3.1.1 Java的起源和发展 6
3.1.2 选择Java的优势 6
3.2 Eclipse简介 7
3.2.1 Eclipse的起源和发展 7
3.2.2 Eclipse的优势 7
3.3 MySQL简介 8
3.4 Tomcat简介 8
3.4.1 Tomcat的发展背景 8
3.4.2 Tomcat的优势 9
3.5 FusionCharts简介 9
第四章 网络数据采集系统的设计 11
4.1 网络数据采集的实现 11
4.1.1 网络爬虫的开发环境 11
4.1.2 网络爬虫的设计 11
4.2 数据库的连接与设计 17
4.2.1 使用环境 17
4.2.2 数据库连接 17
4.2.3 数据库的设计与实现 18
第五章 网络数据分析系统的设计 20
5.1 网站模块的设计 20
5.1.1 编写语言 20
5.1.2 网页的搭建 20
5.1.3 主页的设置 21
5.2 图表的设计 25
5.3 浏览器的选择 27
第六章 总结与展望 29
6.1 总结 29
6.1.1 体会和感想 29
6.1.2 遇到的问题 29
6.1.3 依然存在的问题 30
6.2 对未来的展望 30
参考文献 31
致谢 33
第一章 绪论
1.1 引言
随着因特网的迅猛发展,网络海量信息不断增长,人们的需求也在不断地提高,网络信息检索已经成为人们每天都要进行的内容,如何从中迅速、准确的找到自己所需的信息是一个非常重要的问题。因而,对信息的采集与分析已经成为人们的一种正常需求。搜索引擎是指自动从Internet上收集信息后,进行一定的归纳整理,然后提供给用户进行搜索查询的系统 [1]。垂直搜索引擎是搜索引擎的一种,它可以将数据存储到数据库中,然后进行进一步的加工改造,最后分词、索引再以搜索的方法来满足用户的各类需求。在整个搜索的过程当中,搜索的信息数据由一开始的非结构化数据转变成为结构化数据,再经过深度加工改造后以结构化和非结构化这2种不同的方式反馈给搜索用户。本次毕业设计通过利用垂直搜索引擎技术的网络爬虫也叫数据采集机器人,将海量信息和数据采集回后,进行分析和加工改造,以此来实现网络数据价值更优异、更专业化的目的,使用户获取新的有价值的信息,使用户在购物的时候更具参考价值。本课题的任务书要求是设计一个网络数据采集程序,即针对某一特定网站的某一类数据进行重点采集,并将采集得来的数据依照一定规则进行筛选和归类并进行简单的处理。
请支付后下载全文,论文总字数:21537字