登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 计算机科学与技术 > 正文

基于Scrapy框架的爬虫以及数据可视化开题报告

 2020-06-03 21:54:50  

1. 研究目的与意义(文献综述包含参考文献)

1. 爬虫概述
互联网资源卷帙浩繁,而我们又经常需要获取结构化的数据以供检索分析使用,爬虫的概念便应运而生。网络蜘蛛(web spider)也叫网络爬虫(web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在foaf软件概念中)网络疾走(web scutter),是一种”自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供后续使用,从而使用户可以方便的获取需要的数据。
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(general purpose web crawler)、聚焦网络爬虫(focused web crawler)、增量式网络爬虫(incremental web crawler)、深层网络爬虫(deep web crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
2. 爬虫分类
1) 通用网络爬虫
通用网络爬虫又称全网爬虫(scalable web crawler),爬行对象从一些种子 url扩充到整个web,主要为门户站点搜索引擎和大型 web 服务提供商采集数据。 由于商业原因,它们的技术细节很少公布出来。这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。 虽然存在一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。通用网络爬虫的结构大致可以分为页面爬行模块 、页面分析模块、链接过滤模块、页面数据库、url 队列、初始 url 集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。

2) 聚焦网络爬虫
聚焦网络爬虫(focused crawler),又称主题网络爬虫(topical crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。 和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。
聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。
该爬虫对主题的定义既不是采用关键词也不是加权矢量,而是一组具有相同主题的网页。 它包含两个重要模块:一个是分类器,用来计算所爬行的页面与主题的相关度,确定是否与主题相关;另一个是净化器,用来识别通过较少链接连接到大量相关页面的中心页面。

3) 增量式网络爬虫
增量式网络爬虫(incremental web crawler)是 指 对 已 下 载 网 页 采 取 增 量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。 和周期性爬行和刷新页面的网络爬虫相比,增量式爬虫只会在需要的时候爬行新产生或发生更新的页面 ,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构[包含爬行模块、排序模块、更新模块、本地页面集、待爬行 url 集以及本地页面url 集。
增量式爬虫有两个目标:保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为缓解对大量网页变化历史维护导致的性能瓶颈,它根据网页变化时间局部性规律,在短时期内直接爬行多次变化的网页 ,为尽快获取新网页,它利用索引型网页跟踪新出现网页。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容、问题解决措施及方案

1.研究的问题
本课题主要研究的是快速的爬取数据以及验证爬取数据的有效性。

当数据(待爬取页面)变多的时候,爬虫的爬取速度将变为一个十分重要的指标,同时爬虫应可以快速的调整爬取策略。

当数据量变多的时候,人工一一验证数据是否正确有效将变得不现实,因此如何验证所爬取的数据是否有效将是设计的重点。

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图