网络舆情分析算法研究与实现文献综述
2020-06-23 20:45:04
文 献 综 述 一、选题背景 随着互联网的飞速发展,网络媒体成为继报纸、广播、电视之后的新的信息传播方式。大量的网民在能够接触到网络后,急需一个表达个人观点的平台,网络公共平台便如雨后春笋般的涌现,网民通过各种网络平台发表个人对于某事的观点使得网络平台成为谈论时事,交流某一邻域经验,某一共同爱好的公共舆论平台。在网络平台尤其是微博上传播的热点事件及其评论,则成了网络舆情。这些网络热点有时也对党和政府有关部口产生压力,迫使党和政府及时了解并掌握网络舆情的动向与规律。可以说,互联网各类舆论平台己经成为新闻传播领域中影响范围最广的、最具发展潜力的主流媒体,正在逐渐成为反映社会舆情的主要载体之一。而移动互联网的聰起,使互联网舆情在信息的传播中占有的地位越来越重要。而通常我们所说的网络舆情信息是指对网络舆情进行汇集和分析收集到的信息。网络舆情信息的采集工作,是对其进行研究、分析和应用的基础和前提。网络信息的形式多种多样,各种网络舆情信息的来源也不尽相同且涉及到的信息量极其庞大,传统的舆情采集工作主要采用人工/半人工方法进行,由于需要实时跟踪监控的网站数量多、形式复杂、内容广,目前己难应对,所以有必要依靠信息通讯技术和计算机技术,组建一个高效便捷的舆情收集信息系统来完成这样的工作,并通过技术手段对舆情数据进行分析。 二、研究现状 目前来看,国外在网络舆情分析领域要早于国内,我们知道国外的计算机行业和网络技术起步早和发展快,同时国外对于舆情信息的研究也有其历史和文化的因素,二者也是大多机构和众多专业分析人士的着重的关键因素。国外对于互联网舆情的研究,主要是通过twitter开放的数据接口,实现对twitter用户的行为,爱好,个人财产状况的评估和分析,从而精确推送一些相关的信息。此外,欧美等国也出台了怎样控制、规范互联网舆论信息,有效管理和引导网络舆情的相关的法律法规。不少国家在法律约束和行政制度层面提出和采取了一-些限制措施。目前国外与网络舆情监控相关的采集和监控系统中,最有名的当属美国的话题检测与跟踪(TDT)系统,该系统针对互联网上日益严重的信息爆炸问题,可以对网络媒体的信息流进行自动识别话题,并持续跟踪已知话题。它诞生的初哀只是为了研究出一些能够发现和跟踪来自数据流中重要信息和内容的算法。但由于1996年,DARPA、卡内基梅隆大学、Dragon系统公司化及马萨诸塞大学的研究者开始提出有关话题识别与跟踪研究的内容,并着手开发用于解决问题的初步技术,使得TDT中的识别与跟踪技术开始涉及话题这方面的挖掘,从而有了"质"的飞跃。 公司Aotonomy之前一直专注于企业搜索,其业务进入中国后,针对国内的需要,开发出来自己的一套"互联网舆情监控系统"。家公司擅长于文本分析,尤其是对英语文本的分析,但是,对中文文本的分析就略显不足。另外,舆情监控在国内属于敏感话题,再加上其产品价格和境外厂商的身份,使其基本不会出现在政府的投标会议中,其公众舆论监控系统在国内的发展前景并不乐观。 最近今年,随着国家有关部口的重视和技术的进步,网络舆情也逐步成为国内众多高校和研究机构的研究热点。目前国内对网络舆情的研究主要向两个方向在进行。一个方向是网络舆情的特性研究,在杜会工程学的框架内,对网络舆情的形成、属性、传播特性进行分析,比如利用动力学模型分析网络舆情的传播过程。另一个方向是在技术层次上,利用一些目前已经较为成熟的计算机技术,研究对网络舆情的采集、分析和监控等。比如在中文信息处理领域,使用多维向量语法空间、中文法分词等技术,对舆情信息的主题进行自动化识别,又如,在数据挖掘领域,利用自动聚类、智能检索等方式对网页的统计特征进行分析,进而实现分析舆情信息的目的。在这一方面,国内的网络舆情研究正处于发展阶段,刘毅发表了国内在网络舆情研究理论方面的第一本专著《网络舆情研究概论》。此外在研究机构方面,中国传媒大学网络舆情研究所是国内比较知名的IRI网络口碑研究咨询机构,承担了几个国家重点研究课题,其中国家社科基金重点子课题"网络舆情指数体系"的研究,构建了国内第一个最权威的网络舆情指数体系。网络舆情系统方面,北大方正技术研究院的智思舆情预警辅助决策支持系统,针对互联网海量舆情自动实时动态的采集、监测、分析,国内产品还有Au2tonomy网络舆情聚成系统和TRS互联网舆情信息监控系统等,这些系统在网络舆情的采集和监控应用方面,己经具有一定的水平。 三、课题设计内容 论文通过微博API或者网络爬虫来实现网络信息的采集,通过API或者网络爬虫得到网络中的结构化数据,分析人员通过程序对要采集的舆情信息进行分析处理和过滤处理。 分析人员将数据存储在hadoop中,通过hadoop来实现数据的存储。 分析人员对于文本情感类可以运用向量空间模型,主要包括了朴素贝叶斯法,支持向量机,最大熵模型。对于特征扩展与集成学习的句子级情感分类方法,可以通过概率主题模型,主要包括了LDA模型,JST模型,词向量表示模型。对于情感词典与机器学习的无监督情感分类,可以使用半监督学习方法如自训练,直推式支持向量机,谱图直推器。
五、参考文献 [1] 程建. 基于网络爬虫的网络分析系统的分析和实现[D]. 东北大学, 2014. 1-73 [2] 张璞.Web评论文本情感分类方法研究[D].重庆大学, 2015. 1-124 [3] 李变.基于Github社交网络中用户影响力评估算法的研究[D].西安电子科技大学,2015. 1-73 [4] 刘洋.基于Hadoop云计算平台的K_Means聚类算法研究[D].哈尔滨理工大学, 2017. 1-60 [5] 林红静.基于K_means的微博短文本聚类算法研究[D].海南大学, 2016. 1-62 [6]侯圣峦,刘磊,曹存根. 基于语义文法的网络舆情精准分析方法研究[J]. 计算机科学,2014.10 [7]李勇,张克亮,李伟刚. 基于微博的网络舆情分析系统设计[J].计算机技术与自动化,2013.6 [8]王兰成,刘晓亮. 舆情事件网页内容的词汇关联分析算法实现研究[J]. 信息工程大学学报,2014.2 [9]李 勇,刘战东. 面向网络舆情分析系统的本体应用[J],2014.1 [10]肖旻, 陈行. 基于Python语言编程特点及应用之探讨[J]. 电脑知识与技术, 2014(34):8177-8178. [11]陈琳, 任芳. 基于Python的新浪微博数据爬虫程序设计[J]. 信息系统工程, 2016(9):97-99. [12]姜开达, 章思宇, 孙强. 基于Hadoop的校园网站日志系统的设计与实现[J]. 华东师范大学学报(自然科学版), 2015, 2015(s1):126-131.
[13]刘奇飞. 基于兴趣的微博用户关系分析原型系统研究[J]. 信息网络安全, 2016(9):240-245. [14]宋逸群, 王玉海, 聂梅,等. 大数据透视下的京津冀协同发展民生热点问题探究[J]. 领导之友, 2017(5):61-68. [15]章毅, 郭泉, 王建勇. 大数据分析的神经网络方法[J]. 四川大学学报(工程科学版), 2017, 49(1):9-18. [16]温俊伟. 面向Twitter的分析系统研究[J]. 信息网络安全, 2016(9):234-239. [17]姜开达, 章思宇, 孙强. 基于Hadoop的校园网站日志系统的设计与实现[J]. 华东师范大学学报(自然科学版), 2015, 2015(s1):126-131. [18]何丽娴, 甘淑, 陈应跃. 基于Python语言的空间数据处理[J]. 价值工程, 2014(36):207-209. [19]Jeyapriya A, Kanimozhi Selvi C S. Extracting aspects and mining opinions in product reviews using supervised learning algorithm[C]// International Conference on Electronics and Communication Systems. IEEE, 2015:548-552.
|