一种融合本体和Wang-Landau抽样的主题爬虫方法及其系统实现开题报告
2022-01-09 22:36:41
全文总字数:4596字
1. 研究目的与意义及国内外研究现状
随着计算机和互联网的普及,人们对网络的熟悉程度普遍增加,可以通过网络获取的信息数量也不计其数。21世纪初[1],互联网上的web页面数量就已经达到了40-100亿左右,目前其数量则更是以指数级别增长。作为信息检索工具,搜索引擎早已成为用户访问万维网的有效工具。然而即便是像百度和谷歌这样以镜像整个“world wide web”的搜索引擎,其索引的页面也只约占互联网网页数目的40%左右[2]。可见,如何提高网络爬虫的“可扩展性”,满足领域用户需求已然成为一个热点话题。主题爬虫作为”垂直搜索引擎“的核心部分,以其可对主题网页数据进行及时更新和更细致挖掘的优点而倍受青睐。相对于通用搜索引擎,基于主题爬虫(聚焦爬虫)的“垂直搜索引擎”由于其主题突出性,以及对页面分类混乱问题的解决能力也是其受到广泛关注的原因[3]。
与此同时,主题爬虫又是属于多领域交叉演技课题,所涉及的领域包括信息检索,自然语言处理,web挖掘和机器学习等方面。这使得主题爬虫的研究既是热点又成为了难点。主题爬虫通过将主题相关网页分块,建立层次模型,根据网页相关度排序,并将链接加入到 url队列,为以后检索提供网页文本库。它需要解决主题确立、相关度计算以及搜索策略三个关键问题。准确的相关度计算方法和搜索策略可以显著提高爬虫的抓取质量和效率,节省系统资源。
通用网络爬虫是以尽可能多的采集页面信息为目标,这需要大量的存储空间和网络带宽为支持,显然不能满足特定用户的需求。在此背景之下,本文选择主题爬虫作为研究内容,加入本体和wang-landau抽样算法,实现对主题相关页面的有效抓取,目的是为了提高页面的查准率和查全率,并且对其进行系统实现,为有特定领域信息需求的用户创造更好的体验。
2. 研究的基本内容
本课题预期实现基于本体和的wang-landau抽样算法的主题爬虫系统实现与测试。
具体研究内容如下:
1)融入智能爬行算法wang-landau抽样方法作为爬行策略,以尽可能多的获取相关页面
3. 实施方案、进度安排及预期效果
本课题的实施方案:
(1)前期调研
① 学习主题爬虫的基础知识。
4. 参考文献
[1]murray b h,brian h,sizing the internet[r/ol]http: //www. cyveillance. com / web / downloads / sizing_the_internet.pdf,2000-07-10.
[2] l.introna and h. nissenbaum. defining the web: the politics ofsearch engines [j].computer,2000,33(1):54–62.
[3] 王上,于海,王钲旋.deep web垂直搜索引擎设计与实现[j],计算机研究与发展,2009,46;359-365