基于社交网络的网络舆情研究毕业论文
2020-02-16 22:29:25
摘 要
近年来,随着互联网的快速发展以及移动手持设备的普及,互联网成为了人们了解和获取事件发展信息、发表意见和评论的主要媒介。现在,现实生活中一旦发生社会事件,就会经由网络得到迅速且广泛的传播,得到网民广泛的讨论和转载。针对同一个事件,每一个网民都有不同的看法,这导致他们之间很容易产生矛盾或争执。并且随着事件的不断发酵和扩散,网民群体极化现象的发生几率变高,只有明确网络舆情的发展态势,对其加以正确的引导,才可以避免舆情危机的发生,进而维护社会的稳定,维持社会正常的发展秩序。
本文以微博大数据为研究对象,主要进行了以下工作:
- 舆情事件概要抽取:利用TextRank算法对博文文本内容进行处理和分析,抽取出事件的摘要。
- 舆情事件影响力的度量:在分析事件影响力因素的基础上,依据模糊层次综合评价法综合各因素,对事件的影响力进行计算。
- 舆情事件分析结果可视化:基于Bootstrap搭建前端框架,利用Echarts组件分别对事件概要、传播趋势、舆论聚合进行可视化展示。
关键词:摘要抽取;TextRank;影响力;舆情分析
Abstract
In recent years, with the rapid development of the Internet and the popularity of mobile handheld devices, the Internet has become the main medium for people to understand and obtain event development information, opinions and comments. Now, once a social incident occurs in real life, it will be spread quickly and widely through the Internet, and it will be widely discussed and reprinted by netizens. For the same incident, every netizen has a different view, which leads to conflicts or disputes between them. And with the continuous fermentation and proliferation of events, the probability of polarization of netizens becomes higher. Only by clarifying the development trend of network public opinion and correctly guiding them can we avoid the occurrence of public opinion crisis and maintain social stability. Maintain a normal development order in society.
This article takes Weibo big data as the research object, and mainly carries out the following work:
(1) Summary of public opinion events: The TextRank algorithm is used to process and analyze the text content of the blog post, and extract the summary of the event.
(2) Measurement of the influence of public opinion events: Based on the analysis of the influence factors of the events, the fuzzy level comprehensive evaluation method is used to synthesize various factors to calculate the influence of the events.
(3) Visualization of public opinion analysis results: Based on Bootstrap's front-end framework, Echarts components are used to visualize event summary, propagation trends, and public opinion aggregation.
KeyWords:Extractive summarization; TextRank; Influence; Public opinion analysis
目录
摘要 Ⅰ
Abstract Ⅱ
第1章 绪论 1
1.1 研究目的和意义 1
1.2 研究现状 2
1.3 研究内容与主要工作 2
1.4 本文组织结构 2
第2章 舆情分析系统研究 4
2.1 需求分析 4
2.2 功能模块设计 5
2.3 系统流程 5
2.4 相关技术介绍 6
2.5 本章小结 7
第3章 数据采集与预处理 8
3.1 数据采集 8
3.2 数据预处理 9
3.2.1 数据清洗 9
3.2.2 数据排序 10
3.2.3 数据分类统计 10
3.3 数据存储 10
3.4 本章小结 11
第4章 数据分析与建模 12
4.1 事件摘要抽取 12
4.1.1 基于TextRank的摘要抽取 12
4.1.2 事件摘要的抽取 14
4.2 影响力指数计算 18
4.2.1 影响力指标的确定 18
4.2.2 基于模糊层次综合评价法的影响力计算 18
4.3词云图的设计与实现 22
4.3.1 功能流程 22
4.3.2 功能实现 23
4.4 本章小结 24
第5章 数据可视化 25
5.1 事件概要展示模块 25
5.2 传播趋势模块 26
5.3 舆论聚合模块 29
5.4 本章小结 31
第6章 总结与展望 32
6.1 总结 32
6.2 展望 32
参考文献 34
致 谢 35
第1章 绪论
1.1 研究目的和意义
根据中国互联网络信息中心(CNNIC)发布的第42次《中国互联网络发展状况统计报告》显示,截至2018年12月,我国网民规模达8.29亿[1],联网普及率为59.6%。近年来,随着互联网的快速发展以及移动手持设备的普及,互联网成为了人们了解事件发展态势、发表意见和评论的主要媒介。网民的表达和谈论因网络而变得更加自由。
舆情是社会事件及对其发表的言论的总和,而互联网舆情则是基于网络的前提下,通过常用的即时通讯媒体,如论坛、微博、贴吧等,对日常社会上发生的事件表达独立的观点和态度的一种网络形式。现在,现实生活中一旦发生社会事件,就会经由网络得到迅速且广泛的传播,得到网民广泛的讨论和转载。针对同一个事件,每一个网民都有不同的看法,这导致他们之间很容易产生矛盾或争执。并且随着事件的不断发酵和扩散,网民群体极化现象的发生几率变高,只有对网络舆情加以正确的引导,才可以避免舆情危机的发生,进而维护社会的稳定,维持社会正常的发展秩序。
近年来,随着互联网大数据的出现,“互联网 ”的思想和理念已经渗透进了各个领域。信息平台数字化,人们在网络上能够更快速的获取和产生信息,网络舆情的发生成为了一种普遍现象,对网络舆情的演变进行研究和分析,有利于更有效和及时的监管和引导网络舆情的发展方向。
自互联网进入中国以来,关于网络传播的研究一直在进行中,但就网络舆情的研究还处于刚开始的阶段。目前,中国主要还是基于传播学、社会行为学和舆论学的理论框架进行网络舆情演变的研究工作,研究的重点也主要集中在,通过对比影响较大的网络舆情事件的案例,总结出网络舆情演变的态势、特征、传播模式等。
互联网信息技术发展迅速,人们也拥有了更多的自主发表言论的机会,这是个人人都能充当“主人翁”的时代,网民比以往任何时候都更加的活跃,积极的发表自己对于社会动态或国家时事的看法。但是对于重大的突发危机事件,随着网民对事件的关注和议论,很容易在网络上形成巨大的舆论压力。这不仅关系到社会秩序的稳定,而且也在一定程度上阻碍了相关政府部门对突发事故的应急处理。
作为一个近些年来才开始兴起的研究领域,网络舆情演变的过程和研究,是结合相关理论研究和现实生活的舆情事件,进行不断地拓展和创新的。网络舆情的本质是网民针对一个特定的话题、基于各自不同的想法和观点,聚集在网络上制造社会舆论、促进激发社会舆情的传播发酵过程。通过对舆情事件概要、影响力、传播趋势等方面的分析、研究以及可视化,能够更加清晰明了地了解舆情演变过程中的影响因素,为监控舆情的发生提供支持,以便在第一时间引导和控制舆情的发展。
1.2 研究现状
自动文本摘要技术的研究从20世纪50年代初期就开始了,它是计算机技术和机器翻译融合在一起的结果。1958年IBM公司的Luhn[2]最先发表了对于自动摘要技术的研究成果。依据词性将文章中的词语划分为内容词和功能词,然后统计内容词的词频,当内容词的词频大于设定的阈值时,就认为这个词是文章的主题词。文章中句子的重要性评分高低是由内容词的词频和位置决定的,最后选取重要性评分最高的几个句子组成文章的摘要。
随着研究的逐渐深入,很多自动文本摘要的算法被陆续提出。Mihalcea[3]等在2004年提出了基于图排序的TextRank算法,该算法是在Larry Page提出的PageRank算法基础上改进而来的。官礼和[4]提出了基于新闻文本特征提取摘要的方法,通过融合新闻文本的词频、位置、标题和句法结构,赋予文本中的词语和句子不同的权值,依据权值对句子进行筛选后得到新闻文本的摘要。
在国内外已有的研究中,对网络舆情影响力评价方面的研究都很少,主要集中在对突发事件的影响力评估上,Jeffrey R Lax等[5]人依据网络舆情的演变过程和热度涨跌的维度分析得到舆情热度评价的指标,龙百元[6]提出层次化的影响力评价模型对影响力进行计算,张一文[7]等针对非常规突发事件构建了网络舆情热度评价指标体系,通过指标权重的计算明确各个指标影响力的大小,进而挖掘舆情涨落的影响因素。
1.3 研究内容与主要工作
基于社交网络的网络舆情研究主要对舆情事件的影响力、舆情事件概况、舆情事件的传播趋势以及意见领袖的观点等方面展开研究,并对其结果进行可视化展现。主要工作如下:
(1)数据预处理:读取获取到的舆情数据,然后对数据进行清洗处理,包括处理空值、更改数据格式、删除重复值等,之后对数据进行预处理,包括对数据进行排序、分类或分列,然后根据需要,完成数据提取、筛选、汇总、统计等得到想要展示的数据,最终完成数据的存储。
(2)数据分析:对舆论文本进行分词、词频等方面的分析,以词云图形式展示事件相关词高低频度,基于TextRank算法对舆论文本进行分析和处理,提取事件的关键词及摘要。
(3)数据可视化:对数据的可视化展示,包括事件概述展示、传播趋势展示、舆论聚合展示。
1.4 本文组织结构
全文共有六个章节,分别是:
第一章:绪论,阐述了本文的研究目的和意义,分析了当前国内外研究现状,介绍了本文的研究内容和主要工作,最后对本文的组织结构进行了归纳。第二章:舆情分析系统研究,本章进行了系统需求分析,介绍了系统的总体框架,确定了系统所用的技术框架,并根据需求分析设计了系统的功能模块。
第三章:数据采集与处理,介绍了网络爬虫的具体流程,展示了初始数据的属性及部分数据,讲述了数据预处理及存储过程中使用的关键技术。
第四章:数据分析与建模,介绍了TextRank算法的原理及具体的摘要抽取过程,确定了影响力的指标,讲述了事件影响力的计算过程,设计和构建了事件的词云图。
第五章:数据可视化,介绍了前端的展示及系统可视化,详细描述了各个功能模块中实现的具体的功能,并予以介绍和展示。
第六章:总结与展望,回顾了在舆情分析系统上完成的工作内容,分析了自己在设计和开发过程中的不足,并对以后的研究做出规划和建议。
第2章 舆情分析系统研究
2.1 需求分析
互联网为广大的网民讨论热点话题和舆论形成及传播提供了渠道和平台。另外,互联网除了是一个沟通和交流的平台外,还促使网民在平台的沟通和交流中形成自己的意见,这在实质上提升了民众自我诉求的意识。随着互联网大数据的发展,人们现实生活中的交往关系也逐步上升到网络化的层次,由此也推进了舆论形成、传播及事后反馈等一系列活动的出现。加上民众在线上广泛的讨论而演变成公共舆论,尤其是Web2.0网络带来的用户自产内容的便利,助推了网络舆情的形成。
网络的开放性和虚拟性,决定了网络舆情具有以下几个特点:(1)直接性,通过微博、贴吧等,网民可以即刻发表观点,民意表达更加畅通;(2)突发性,网络舆情的形成往往很迅速,一个热点事件的发生加上情绪化的意见,可以成为点燃一片舆论的导火索;(3)偏差性,由于缺少规则限制和有效的监督,再加上发言者的身份私密性,网络成为一些网民发泄情绪的空间[8]。网络舆情是一把双刃剑,如果有关部门能够及时发现网络舆情事件并及时兑取采取有效的措施和引导,那么舆情就可以朝着利于社会和人民的方向发展,这也促进了我们社会的健康发展。所以针对舆情事件,了解其事件形成及发展时的趋势起伏、事件发展过程中各方面的影响因素、各阶段舆论重心的变化等信息,对舆情的监控和管理,具有一定的实践意义。本文以微博数据为研究对象,对事件概要、影响力、发展趋势等进行可视化分析展现,设计实现一个舆情分析系统。该系统主要基于微博数据,包括时间、博文内容、来源、用户、认证类型等,对舆情事件的概况和发展进行分析,并以饼状图、词云图等形式进行展示,以便直观的了解事件的形成和发展过程,为舆情的防范和引导,防止进一步扩大势头提供有效的帮助。
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: