基于k-means算法的微博舆情分析及应用开题报告
2022-01-14 21:41:33
全文总字数:2184字
1. 研究目的与意义及国内外研究现状
微博是一个集用户信息分享,用户信息传递以及信息接收的广播式的短实时信息传递的网络平台。简而言之,微博就是大家通过个人电脑,手机等终端平台登录微博,发布文字,图片,视频等信息,实现信息的即时分享,传播互动。该平台大大提高了信息的传递速度,自2009年新浪微博诞生至今,微博注册人数达到了4.5亿人数,每日的微博发帖量达到了惊人的1亿条。如此庞大的数据量自然成为研究社会舆情的绝佳场所。从如此庞大的数据当中筛选,甄别出有用的信息已成为了必然的需求。从微博中找出当下的热点话题有利于规范网络行为,净化网络环境,对构建一个和谐稳定的社会有着不可代替的作用,更为重要的是,在这些信息中可以提取到诸多商业信息,同时也对社会研究起到了十分重要的作用。
本系统的侧重点在于微博舆情的分析,目的在于获取用户身边的热点事件
国内外研究现状
舆情分析以数据挖掘为基础,而数据的挖掘是以话题检测与跟踪的相关理论基础为依据发展起来的。这项技术的提出是在世界进入互联网时代,信息的生成呈现爆炸趋势增长,信息的传播速度快,更新频率高促使了人们来对信息进行过滤,对已知信息进行跟踪处理,舆情分析由此诞生。自1996年,该领域进行了多次大规模的评测,许多科学家也先后提出了各种算法来帮助信息的挖掘提取。该领域也成为了信息识别,信息采集的测试平台,成为当前信息领域的研究热点。
2. 研究的基本内容
基于k-means算法的微博舆情分析及应用系统中主要使用微博api从微博中获取数据,利用网络爬虫的相关技术,以及搜索引擎的相关原理建立倒排索引,对分词系统当中的数据能够更加方便的检索出来,有利于后面对数据的整合操作。
本系统使用了中文字符匹配,使用了开源的中文分词器,将微博数据切分成单独的单词或者词组,过滤掉无用的词汇,例如“你,我,他,在,的”,过滤掉无用的广告微博。
本系统的热点分析策略是使用k-means算法对微博数据进行聚类处理,获得其中相似度,出现频率最高的数据,并设定一个临界值,达到临界值的数据直接输出以供分析。
3. 实施方案、进度安排及预期效果
2019年1月6日前完成任务书,认真填写,内容详实。任务书各栏签名齐全,时间顺序合理。
2019年1月14日前撰写开题报告。开题报告的内容和撰写要符合规范,达到开题要求。
假期间,开展毕业设计相关的需求分析、概要设计等工作,开展毕业设计的详细设计(模块、数据库)和部分功能实现工作。
4. 参考文献
贾自艳,何清,张俊海等. 一种基于动态进化模型的事件探测和追踪算法[j].计算机研究与 发展.2004,41(7):1273-1280
洪宇,张宇,范基礼等.基于话题分治匹配的新事件检测[j].计算机学报.2008.4:688-695
骆卫华,于满泉,许洪波,王斌,程学旗. 基于多策略优化的分治多层次聚类算法的话题 发现研究[j]. 中文信息学报. 2006,20(1): 29-36