热点新闻跟踪与抓取系统设计开题报告
2021-12-17 22:03:40
全文总字数:1684字
1. 研究目的与意义及国内外研究现状
本课题通过学习相关爬虫技术,选定一个新闻网站,设计一个系统,从新闻网站提取热点新闻主题,并自动跟踪和抓取该主题的后续报道与评论,以便用于舆情分析。
新闻舆情的研究与监控始终是相关管理部分的重要任务。基于internet的舆情展现出发展快、爆发迅速等不同于传统舆情的特征。近年来基于web、微信、微博等新媒体所爆发的新闻事件也越来越多,因此业界对舆情信息的提取和分析都提出了大量的需求。但是新闻舆情的主题广泛,演化迅速,对数据采集和分析都提出了一定的挑战。
研究本课题不仅能更准确地获取热点新闻,还能针对热点事件的后续进行准确跟踪。这样就能获得最准确的、最及时的信息以便用于舆情分析。国内外研究现状
国内学者对爬虫算法和网络信息的获取做出了很大贡献。
2. 研究的基本内容
研究探索特定新闻页面的结构与数据提交方式,以便通过爬虫程序获取新闻页面的数据。
在学习相关爬虫技术的前提下针对新闻网页的结构和数据提交方式设计爬虫程序,用来提取页面数据。网络爬虫的设计要合理从而能快速准确地爬取重要有用信息。
网络爬虫是一种按照一定的规则,自动的抓取因特网信息的程序或者脚本。它从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
3. 实施方案、进度安排及预期效果
实行方案:
通过查阅文献,结合大学所学习到的专业知识,研究特定新闻页面的结构与数据提交方式,对数据进行提取,分析,跟踪,完成热点新闻跟踪与抓取系统的实现。
实行进度:
4. 参考文献
[1]潘庆芝. 特定新闻门户网站的信息获取[d].吉林大学,2015.
[2]刘林浩. 网络热点新闻事件挖掘和跟踪分析方法的研究与实现[d].中南大学,2010.
[3]廖浩伟. 基于网页结构聚类的web信息提取技术研究[d].西南交通大学,2013.