微博信息分析程序的设计与实现文献综述
2020-04-23 19:56:49
1.1目的及意义
微博作为迅速崛起的新兴社会媒体,在网络言论领域日益引起研究者的关注。面对互联网上海量的数据信息,我们无法想象仅仅通过人工的方式来对互联网言论进行全面监控的难度。截至2017年9月,微博月活跃用户共3.76亿,与2016年同期相比增长27%,其中移动端占比达92%;日活跃用户达到1.65亿,较去年同期增长25%,微博已然明显成为海量网络言论最重要的发声阵地。 言论是舆论情况的直接载体,是指在一定的社会空间内,围绕社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其态度取向产生和持有的社会倾向和态度。 它是较多群众关于社会中各种 现象、问题所表达的信念、态度、意见和情绪等等表现的总和。由于微博的自由和开放、交互、虚拟和隐蔽、以及言论的快速传播,使以往在传统媒体中无法实现的个人表达自由和言论自由得到空前的发展,与传统言论相比,网络言论具有传播快速和实时互动的特点。网络的出现使得地球村的梦想得以实现,一条消息可以在瞬间传遍世界。每一个网民都可以实时地发表自己的观点,共同讨论或辩论,不同观点或立场的网民进行交锋,可以通过互动推动舆情的发展或深化,引起更多人的关注,从而对社会生活的各个方面产生极大的影响。我们在利用网络的力量实现信息快速共享的同时,也应该警惕别有用心者利用微博等平台的造谣传谣。因此,结合网络信息采集技术和文本信息自动处理等技术研发一个网络言论自动监控系统将有利于社会管理者们及时了解网络舆情的状态和趋势,因而可以对发现的热点舆情及时进行干预,引导疏通民众情绪和心理,避免矛盾的进一步恶化而造成更大的社会损失。现有舆情监测系统在采集、检索和分析模块中都是采用基于统计和特征关键词的方法,由于忽略了文本中的语义信息往往会导致分析结果的不精确。本毕业设计主要针对当前微博中用户信息抓取、热点信息挖掘以及态度倾向甚至情绪的分析统计等机制进行设计与实现,对系统的整体框架进行了设计,将系统分成数据获取、数据存储、数据分析几个主要模块,尽可能提升系统的稳定性与可扩展性。
1.2国内外的研究现状分析
随着网络技术的发展和时代的进步,网络舆情的重要性已经毋庸置 疑,有关网络舆情管理与检测的研究也日趋成熟,目前,已有越来越多的机构从事舆情分析。有关网络舆情管理与监测的系统越来越多,微博舆情的分析平台也有出现,不过多数为政府服务,只监控有可能爆发的负面信息和重大事件,更关注于对负面、消极及虚假信息的监管,不对普通用户开放,而有关微博消息的分析软件不但费用昂贵而且只是对信息的已传播轨迹进行呈现和分析,缺乏对微博消息未来走向的一个分析预测,也无对微博 消息传播范围广度的分级。
在当今的社会,政府对网络言论的监管无疑是微博信息分析技术最为重要和最为普遍的应用,并且技术的发展也使政府相关工作的效率和成果有了极大的提升,非常大程度地维持了社会管理的良好有序。此外民间的公司机构,甚至个人,也迫切希望得到一些关乎自身利益的事件的发展情况,如物价的变化、对于一些厂家产品的使用评价等,来帮助自己做出更好的商业决策和生活决定。
{title}2. 研究的基本内容与方案
{title}2.1基本内容
设计以及开发出一款面向政府,企业,及个人的分析软件工具,完成对微博含搜索关键词的微博用户信息及微博信息的获取,同时完成对所抓取博信息的存储。构建微博信息索引库,为高效的微博信息查询和分析提供支持。能够支持微博信息的全文检索,以及检索结果的可视化。
2.2采用的技术方案
在数据获取模块,我将利用网页爬虫技术实现对微博数据的筛选,微博短文本及用户信息的抓取,尤其是针对特定用户和大V用户。在数据存储模块,我们对数据库框架进行了设计,以实现系统运行效率与存储空间之间的平衡。数据分析模块,本课题将利用各种数据分析技术,实现对数据库中信息的深层次分析与解读,从中提炼有价值的信息。主要功能点包括对热点话题的查询,对短文本的检索,进一步地,实现对微博用户关于某一特定话题倾向的分析与预测。网络爬虫:是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足的新URL为止WebCrawler的主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间、HTML文件中的各种链接数目等