微博监控程序的设计与实现毕业论文
2021-04-29 21:31:44
摘 要
微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台。微博对中国社会的影响力日趋增大,因此对微博信息的监控和管理已经成为社会管理的重大课题。本设计的工作目标是构建一个实用的微博监控程序,对微博上的即时信息监控并进行分析后得出分析结果,特定用户群体可以根据需要使用这些分析结果。
微博监控程序的任务主要包括微博信息获取和微博信息分析两部分。论文主要研究了从微博平台上获取信息的方法以及对获取的信息存入数据库进行处理分析的方法。微博信息的获取是借用第三方的中间件gooseeker,gooseeker中的DataScraper是Web页面信息提取工具,最终生成XML格式的信息提取结果文件。微博信息处理则是运用TinyXml库来完成,并在程序处理过程中将结构化数据存入建好的MySQL数据库中,最后在windows平台下的单机应用中实现数据分析查询操作。
本文对微博舆情监测进行了创新性的研究,在前人工作的基础上,本系统可以运用到其他很多平台的监测,对相关研究工作具有一定的参考价值。
关键词:微博;舆情监测;信息处理分析;
Abstract
Microblogging is a broadcast social networking platform that shared brief and instant messaging by concern management. Microblogging has more increased influence on Chinese society day by day, so the microblogging information monitoring and management has become a major issue of social management. The goal of this design is to build a practical microblogging monitoring program and to monitor and analysis the instant messaging on the microblogging to obtain results of analysis. Specific groups of users can use the results of these analyzes as needed.
The task of microblogging monitoring program includes two parts that are access to information and microblogging information analysis. Thesis mainly discussed the method of acquiring information from the microblogging platform and storing these information in the database to process and analysis. Access to microblogging information is borrowed from a third-party middleware – gooseeker. DataScraper in the gooseeker is a extraction tool which can crawl the web page information,this tool will generate a XML format file which contain crawling information about microblogging.The processing of microblogging information is accomplished by using TinyXml library, and the program would store the structured data into a MySQL database which was built before. Finally, data analysis queries will be accomplished in a stand-alone application under the windows platform.
This article conducted innovative research about microblogging monitoring, This system can be applied to monitor many other platforms,and it has a certain reference value to the relevant research work.
Key Words:Microblog;Surveillance of Web Public Opinion; Information Analysis
目录
摘要 I
Abstract II
第1章 绪论 1
1.1微博平台的国内外发展现状 1
1.2微博舆情监测的目的和意义 2
1.3国内微博舆情监测发展现状 2
第2章 微博监控程序的技术概述 4
2.1爬虫中间件的选择 4
2.2 Gooseeker爬虫的工作原理及信息获取 5
2.3 微博信息处理及分析方法概述 6
第3章 微博监控程序的设计和实现 7
3.1系统功能模块概述 7
3.2数据库设计 8
3.3微博信息获取的实现 9
3.3.1 gooseeker爬虫的安装 9
3.3.2 gooseeker爬虫的使用 9
3.4微博信息的解析存储 12
3.5微博信息的分析 22
3.5.1用户信息分析 22
3.5.2 热门微博分析 24
3.5.3 关键词检索 25
第4章 结语 27
4.1工作总结 27
4.2工作展望 27
参考文献 29
致谢 31
第1章 绪论
1.1微博平台的国内外发展现状
2006年,埃文·威廉姆斯创办了一个社交网络及微博客服务的网站Twitter,Twitter是微博的鼻祖,是微博客的典型应用[1]。《时代》周刊曾经在2009年组织过网站排名,在排名前50的网站中,Twitter以令人骄傲的第六名位在前列,甚至超越了谷歌和Facebook在网民心中的地位。以此同时,在美国、英国、加拿大等国的网站排名中均名列前茅[2]。由此可见,微博客作为一种新兴起的网络媒体,能在如此短的时间内获得如此惊人的成绩是不可小觑的。
在国内微博刚刚萌芽的阶段,企业家们因为看到了Twitter在国外发展的迅猛之势和获得的巨大成功,所以纷纷效仿它的原型设计和营销模式,又因为是本土企业提供本土服务,与国内的其他网站能更好地进行交互,所以初期的国内微博企业比Twitter在国内更受欢迎。易观国际CEO于扬将国内微博行业的发展比喻为正处于往上爬坡的阶段。在他看来,互联网化和泛媒体化的趋势开启了第一代博客的应用,而互联网持续的高渗透率以及当下媒体消费者也是媒体生产者的理念,催生了类似微博这种新生平台 [3]。微博真正地在国内如火如荼发展是在2010年,企业家们在经历了初期的探索之后,各大互联网企业纷纷向微博业务伸出了橄榄枝,即有了后来的新浪微博、腾讯微博、搜狐微博和网易微博。
在国内的微博业务中,新浪微博占了80%以上的市场份额,使用过新浪微博并且尝试用过Twitter或者了解Twitter运营模式的用户都会知道,微博虽然是效仿Twitter设计的,但是它与Twitter风格迥异。微博给中国广大的网民提供了一个平台,在这个平台上,网民可以时而置身娱乐的中心,时而深入舆论的战场,对于广大知识分子而言,这个平台无疑给他们提供了一个完美的公共课堂。微博作为一种分享生活点滴和即时交流的平台,它更能表达出此时此刻用户的想法,更能及时地告知关注他的粉丝关于他的最新动态。微博的特点一般认为有如下三个方面:
1.即时性。在信息时代,信息的及时性取决了信息的价值。当事人可以利用微博平台在第一时披露各种事件。
2.简明性。微博内容要求在140字以下。大众更容易接受微博简单明了的内容传播的信息,因此微博比传统长篇大论的博客更具社会传播性。
3.广播性。由于微博信息面向所有用户开放,任何人都可以浏览转发自己所关注的信息。这就容易形成一些敏感信息传播的爆炸性 [4]。
1.2微博舆情监测的目的和意义
我们可以发现微博舆情是一个新的概念,它是相对于传统舆情来说的。因为微博是近几年才流行起来的媒体,它自身的一些特性比如传播信息简短快速,信息发布时间往往与事情真实发生时间几乎同步,类似种种原因使得微博本身成了一个信息和舆论的集散地[5]。微博真正开始大范围被用户所知并日常使用是在智能手机开始普及之后,微博及时性的特征在很大程度上是要借助智能移动终端才能实现的,要及时报导路况信息,在手机上敲几十个或者百来个字肯定是比在计算机上排版好再发布消息要来得快的。正因为微博消息传播迅速,可以在短时间内聚集极大量的关注度,所以一旦有人恶意引导舆论走向,煽动民众传播虚假信息,其引发的社会负面效应是不可小觑的。我们所知道的2011年3月日本地震之后的“抢盐风波”就是不法商家想借助核辐射趁机炒作食盐,后来国家发改委、工信部等部委紧急发文辟谣,才消除了这场舆论危机[6]。
上文说到微博已经成为了一个大的信息和舆论集散地,微博中的热门信息、讨论量和关注量高的信息对社会舆论的走向会产生几乎不可逆转的影响。一条不实的微博信息在传播过程中所产生的恶劣影响远远超过了真实信息或辟谣信息的传播所能弥补的范围。因此,我们不能只乐观地看到微博平台在信息传播方面的优点,更应该居安思危,看到优势背后的隐患,加大对微博虚假信息的监管和筛选,防止错误和盲目的微博舆论影响社会的稳定和谐。
1.3国内微博舆情监测发展现状
社会的各个方面都对如何有效监管微博信息、杜绝虚假信息的传播做出了探索。北京市于2011年12月推出《北京市微博客发展管理若干规定》,规定提出各大微博平台在2012年3月16日全部实行实名制,原则为“后台实名,前台自愿”,这意味着政府在微博信息监管方面迈出了实际的步伐[7]。