网络数据采集与分析程序的设计文献综述
2020-04-18 19:41:03
文献综述 1. 前言 随着网络的不断发展,人类社会进入了信息的时代。
人们每天都会被海量的信息所包围,据相关组织的统计,全球一天之内更新的数据量可以供一个人日夜不停地阅读几十年,可想而知当今世界信息化的发展速度是如何的恐怖。
一个人不可能同时掌握世界上所有产生的信息,那么如何有效地获取信息,以及如何筛选、处理有用的信息就显得尤为重要。
人最宝贵的就是时间,毫无头绪地、毫无目的地获取数据,迷失在信息地海洋之中无疑是对生命的一种浪费与亵渎。
2. 研究现状 自从1993年Matthew Gray的Wanderer出现以来,爬虫技术经过20多年的发展,技术日趋成熟与多样。
为了满足不同任务的需求,人们开发出了不同类型的众多的爬虫系统。
主要可以分为以下几种: 一、通用网络爬虫 通用网络爬虫也被称为全站爬虫,顾名思义,它通过一系列预设的初始链接开始,获取页面上的所有链接,根据预设规则,不断访问下载页面并获取链接。
通用网络爬虫一般有两种爬取策略。
一种是深度优先策略,即顺着一个链接支路一直访问知道没有深层的链接可以访问。
而后返回访问另一条支路。
剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付