基于Python爬虫的网络舆情分析系统的设计与实现毕业论文

2021-07-13 00:26:46

摘要

科技的高速发展和互联网的快速普及，使得人类正在进行一项浩大的工程——即实现现有信息，例如电视新闻，报纸，书籍，期刊，文献资料等等内容的信息化，将这些内容都放到网络上去。所有这些加在一起，使得互联网的信息量变得前所未有的巨大，并且一直保持着高速状态增长中。与此同时，人类也面临着一个全新的挑战，那就是如何在浩如烟海的互联网中找出对自己有用的数据呢？搜索引擎应运而生，结束了原始且低效的黄页式互联网，重新定义了互联网这个人类有史以来最大，并将一直最大的数据库的高效入口。

近几年使用Python语言进行的研究在近几年呈现爆发趋势，同时，网络舆情分析的相关研究也处于一个稳定上升的趋势。因此，选择Python语言来进行网络舆情分析不仅是具有高度的实用性，在研究方向上也是非常具有探索性的。

网络爬虫按照特定规则，抓取网络信息，互联网的各个领域都有爬虫的在，其中最主要使用网络爬虫的是搜索引擎，搜索引擎中的网页，图片，文档以及多媒体内容都是通过网络爬虫抓取的。当然搜索引擎还会使用到诸如索引技术等等来合理组织这些内容来提供给使用者。在各个领域，网络爬虫技术正发挥着巨大的作用，是用户进行搜索等操作的主要技术支撑。同时，很多中小型网站也是利用了爬虫的工作原理来进行优化，提高自身网站被搜索引擎推荐的概率。

关键词：爬虫，舆情分析，Python

Abstract

The high-speed development of science and technology and the rapid popularization of the Internet, makes the human is running a huge task - that is, to realize the existing information, such as the television news, newspapers, books, journals, literature and so on the content of informatization, put all the content in the network. All these put together, make the Internet become unprecedented huge amount of information, and the state has maintained high growth. At the same time, human is facing a new challenge, that is how to find out in the vast Internet useful data for yourself? Search engine arises at the historic moment, the end of the original and the inefficiency of the yellow pages of the Internet, the human biggest, redefined the Internet, and has the largest database of efficient entrance.

In recent years, using the Python language study showed a trend of outbreaks in recent years, at the same time, the related research of network public opinion analysis was also a steady upward trend. So, choose the Python language for network public opinion analysis is not only a highly practical, on the research direction is also very exploratory.

Web crawler according to certain rules, grab the network information, the Internet has the crawler in various areas, the main use of web crawler is a search engine, search engine in the web page, pictures, documents, and multimedia content are spiders crawling through the network. Of course also use search engine to index such as technology and so on to organizing the content to provide users. In various fields, the web crawler technology is playing an important role, is the user to search operations such as technical support. At the same time, many small and medium-sized websites and the working principle of the crawler is used to optimize and improve their websites by search engines recommended probability.

Key words: the crawler, public opinion analysis, Python

摘要 I

Abstract II

目录 III

第一章绪论 1

1.1 论文研究背景与意义 1

1.1.1 搜索引擎的现状 1

1.1.2 研究的内容以及意义 1

1.2 网络爬虫研究现状 4

1.2.1 网络爬虫的相关概念 4

1.2.2 网络爬虫的现状 4

1.3 网络舆情分析的研究现状 4

1.3.1 网络舆情分析现状 4

1.3.2 结合爬虫的舆情分析 5

1.4 论文的组织结构 5

第二章开发语言和开发工具简介 6

2.1 开发语言 6

2.1.1 Python 简介 6

2.1.2为什么选择 Python 6

2.2 主要开发工具介绍 6

2.2.1 主要的文本编辑器 —— Sublime Text 3 6

2.2.2 主要的调试工具 —— Chrome浏览器 7

2.2.3 卓越的开发IDE —— Intellij PyCharm 7

2.2.4 网络监视器 —— Fiddler 7

第三章舆情分析系统的需求分析 8

3.1 功能需求分析 8

3.2 网络爬虫子系统需求 8

3.3 舆情分析子系统需求分析 9

3.4 数据展示需求分析 10

3.5 非功能需求 10

第四章系统实现 11

4.1 系统的总体构造 11

4.2 网络爬虫子系统具体实现 13

4.2.1 请求的发送及数据的获取 —— Requests 13

4.2.2 网页内容的解析 —— BeautifulSoup 14

4.2.3 伪装浏览器 —— Selenium 14

4.2.4 数据的格式化以及保存 —— CSV 14

4.2.5 爬虫子系统的具体实现 14

4.3 舆情分析子系统实现 15

4.3.1 自然语言分析 —— NLTK 15

4.3.2 中文分词系统 —— jieba 15

4.3.3 语言情感分析词典 —— 中文情感词汇本体库 16

4.3.4 舆论分析系统的实现 16

4.4 数据展示子系统的实现 17

4.4.1 数值型数据处理库 —— Matplotlib 17

4.4.2 数据处理系统的实现 17

4.5 系统演示 18

第五章总结与展望 21

5.1 工作总结 21

5.2 未来工作展望 21

第一章绪论

1.1 论文研究背景与意义

1.1.1 搜索引擎的现状

信息科技的高速发展和互联网的快速普及，使得人类正在进行一项浩大的工程——即实现现有信息，例如电视新闻，报纸，书籍，期刊，文献资料等等内容的信息化，将这些内容都放到网络上去。所有这些加在一起，使得互联网的信息量变得前所未有的巨大，并且一直保持着高速状态增长中。与此同时，人类也面临着一个全新的挑战，那就是如何在浩如烟海的互联网中找出对自己有用的数据呢？搜索引擎应运而生，结束了原始且低效的黄页式互联网，重新定义了互联网这个人类有史以来最大，并将一直最大的数据库的高效入口。

1.1.2 研究的内容以及意义

随着互联网和移动互联网在这些年的迅猛发张，网络上的内容在这些年迅猛增加。搜索引擎的最基本原理就是通过网络爬虫从互联网中获取大量的页面，然后为这些页面加上一定的标签，最后展现给查找这些内容的人。

但是，虽然搜索引擎的功能非常之强大，能够在很短的时间内找到数以万计的搜索结果页面，现如今的搜索引擎在某些方面仍然有很多功能上的不足。其中一个很重要的不足就是，现在的搜索引擎只能通过用户给定的关键词找出已经存在的数据，并且直接呈现给用户。但是搜索引擎的不足也在逐渐增加。

例如，当一个用户需要知道当今网络上的各个新闻上面的浏览用户对一个新闻的大致态度时，搜索引擎唯一能做到的就是找到这个新闻，并且将这个新闻在各个网站上的链接发送给用户。这当然离用户的需求相距甚远。这就是为什么本论文选择这个课题来作为本次毕业设计。

在过去，电视新闻与报纸是人们获取新闻，了解时事的主要信息来源，但是电视新闻与报纸的单向传播性使得电视台和新闻媒体很难了解新闻事件对于民众的影响及民众对于某些新闻事件的反馈。虽然电视台和出版社也能通过邮件或者相关的新闻采访等等措施实现民意获取，但是终究因为覆盖范围及样本过小很难反应出真正的民意。同时存在这些问题的还包括电影出版等等行业，越来越多的行业开始意识到民意了解的重要性。合适的利用网络爬虫和语义分析等技术对网络上的相关内容进行分析，快速进行相关内容的舆情分析显得非常有必要。

在国内，人民网每年都会发布的年度舆情分析对于了解一年的重大时事非常有效。同时很多同类网站都会发布类似的分析内容都会对快速有效的了解事件的反馈有很大的作用。

在国外，相关技术的应用显得更加普及，比较知名的有美国在线影视公司Netflix通过对网络大量数据的分析，了解观众喜好，制作了收视率和好评度都非常高的电视剧《纸牌屋》。

由此可见，随着越来越多的行业开始重视民众反馈，通过相关技术对网络舆情进行分析相当重要。此次课题的主要目的就是通过Python编写的爬虫程序，对相关新闻的评论进行一定的分析，从而更加全面的获取相关内容的舆论信息，为分析事件做出一个直观的数据参考。

同时从研究的角度来看，Python语言做为一种新兴的编程语言，长期在TIOBE编程语言排行榜上占据很高的位置。

图 1 TIOBE2016编程语言排行榜

其易用性和完备的科研支持库得到了很多使用者的好评。因此此次项目使用python语言进行编写是非常合适的。同时，通过在百度学术上检索关键词Python，网络舆情分析，可以得到以下的趋势图

图 2 百度学术 #Python#研究走势

图 3 百度学术 #网络舆情分析#研究走势

可以看出，近几年使用Python语言进行的研究在近几年呈现爆发趋势，同时，网络舆情分析的相关研究也处于一个稳定上升的趋势。因此，选择Python语言来进行网络舆情分析不仅是具有高度的实用性，在研究方向上也是非常具有探索性的。

1.2 网络爬虫研究现状

1.2.1 网络爬虫的相关概念

网路爬虫是此次毕业设计重要内容之一。网络爬虫有很多别称，它的核心功能就是通过一个初始网页，利用网页之中相互关联的链接一直进行查找，以到达最大化的爬取网站的目的。

1.2.2 网络爬虫的现状

您需要先支付 50元 才能查看全部内容！立即支付

注册

找回密码