主题网络爬虫的研究与实现文献综述

2020-04-30 16:11:19

1．目的及意义

1.1 研究目的及意义

随着当前＂互联网＂概念的兴起，各个行业都在积极的拥抱＂互联网思维＂，从而促进了互联网的迅速发展，web信息量也呈爆炸式增长，网络对每个人的影响越来越大。然而正因为当今网络信息的种类繁多、覆盖面广，还充斥着大量内容相近或低质量的网页信息，导致人们很难在复杂的web信息中快速准确地找到想要的资源，搜索引擎正是在这样的需求下而产生的，并在网络信息搜索中起到了至关重要的作用，它可根据用户的输入内容在浩翰的信息海洋中寻找人们想要获得的相关信息。现在主流的捜索引擎有google、百度、搜狗等，虽然他们能返回大量的网页信息，但是在结果中通常也会包含大量的“不准确”内容，为用户増加了额外的负担。除此之外，通用搜索引擎还存在着覆盖率低、更新不及时等缺点，针对以上问题，用户急需一种智能的专业化搜索引擎，能够帮助用户在web这个巨大的信息空间中快速准确的查找特定信息。

垂直搜索引擎是针对某一特定主题的专业搜索引擎，它能在特定的捜索范围内取得比传统搜索引擎更好的查询效果，是传统搜索引擎的细化和延伸，所以更适合在某一特定领域或某一特定人群中使用，可以较好的为使用者提供个性化、专业化的查询服务，是针对传统搜索引擎查询准确度低、信息兀余且覆盖率低等缺点提出的全新搜索模式。垂直搜索引擎能够根据用户需求返回专业化的定向信息，其返回内容均针对某一特定领域，对与领域主题不相关的内容有较强的屏蔽功能，能够去除大量的无效信息，并且有搜索周期短、更新及时等优点。相对通用搜索引擎返回信息的海量无序化，垂直搜索引擎专业、全面、深入的性能特点使其成为当下的研究热点之一。

主题爬虫是垂直搜索引擎的核心，其功能是在人工设定的主题下在网络中最大程度的爬取与主题相关的网页信息，尽量避免爬取无关网页。通用的网络爬虫单纯的遍历互联网信息，爬取所有能获得的链接，只注重了爬取的数量而忽略了所爬取网页的质量，造成资源的浪费。然而主题爬虫在爬取过程中对所爬取的网页内容进行主题相关性判断，对相关性高的链接优先爬取，丢弃不相关网页，在爬取的过程中保持了正确的爬行方向，极大的节省了硬件和网络资源，提高了爬行效率。由此可见，如何准确快速的计算待爬取网页的重要性是主题爬虫的核必问题。当前主题爬虫还应用在数宇图书馆、面向农业信息等广泛的领域。

1.2 国内外研究现状

主题爬虫的任务是根据预设定主题，在web上尽量多的获取与主题相关的数据资源。因此爬行策略的优劣将直接决定搜索引擎的服务质量，这也是国内外的许多学者都对其进行大量研究的原因。爬虫可以按照算法与策略的不同分为多个类别，目前主要的主题爬虫策略分为三类：基于内容评价的主题爬虫策略、基于链接结构的主题爬虫策略、基于分类器预测的方法策略。

{title}

2. 研究的基本内容与方案

{title}

爬虫的实现方法很多，Java、C、Python等语句都可以完成网络爬虫的实现，经过对比与考虑，此次设计使用Python语句进行编写，Python有良好的可扩展性和可嵌入性，并且便于移植，有极佳的可读性，也更适合初学者学习。将逐步解决三个问题，1.爬哪里，确定要抓取的页面。2.爬什么，分析上述页面，确定从页面中爬取的数据。3.怎么爬，可使用 Python 强大丰富的标准库及第三方库来完成。这是爬虫的核心部分。

该爬虫系统主要由三个模块：页面抓取模块、页面分析模块、数据存储模块，三个模块之间相互协作，共同完成网页数据的抓取。爬虫实现流程图如图一所示。

图一：爬虫实现流程图

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码