基于概念格的气象灾害本体设计及其在主题爬虫中的应用开题报告
2022-01-09 22:54:27
全文总字数:2388字
1. 研究目的与意义及国内外研究现状
网络爬虫是用户从互联网中获取资源的有效工具,近些年随着网络的不断普及,网络信息资源呈爆炸式增长,传统的搜索引擎需要对互联网上的信息进行广泛的收集和分析处理,需要处理的网络信息也越来越多,同时也就不可避免的为用户提供了或多或少的无关信息。互联网上含有超过16亿的网站,而这些被索引的网站包含至少217亿的页面,在中国互联网信息中心cnnic第40次报告中指出,截止至2017年6月中国的搜索引擎用户达到了6.09亿,可见搜索已经成为互联网用户的基本行为。如何提高搜索引擎的索引规模,更新速度,精准率,本课题具有重大意义。
本课题的研究目的建立气象灾害本体,在此基础上采用禁忌搜索或者tf-idf方法实现主题爬虫。
国内外研究现状
近些年,研究者们为了使主题爬虫尽可能高效高质的获取主题相关页面,提出了多种定制的爬行策略和算法。
2. 研究的基本内容
本课题研究的是在互联网海量数据背景下,如何快速、精准的获取气象领域的数据,主要内容包括:
1) 建立气象灾害本体
2) 研究禁忌算法和tf-idf算法,对该算法进行深入了解运用。
3. 实施方案、进度安排及预期效果
实行方案:
搜集资料,查阅文献,在对主题爬虫有一定了解以后,研究禁忌算法和tf-idf算法,在对这些算法有一定理解的基础上,将这些方法用于模型求解,最后编程实现该系统。
进度:
4. 参考文献
[1]关卫国,骆永成.基于概念背景图的主体爬虫设计与实现 《计算机工程与设计》 2016年10月,第37卷,第10期
[2]马雷雷,李宏伟,连世伟,梁汝鹏,陈虎.一种基于本体语义的灾害主题爬虫策略lta.计算机工程,2016,42 (11):50 56.
[3]cyajun du , qiangqiang pen, zhaoqiong gao. a topic-specific crawling strategy based on semantics similarity: data knowledge engineering 88 (2013) 75–93.