基于Scrapy的影评分布式爬取及电影推荐系统文献综述
2020-04-18 20:47:29
一、选题依据 1.课题背景 随着互联网的快速发展,其信息量和相关服务也随之快速增长。
如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战。
目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生。
通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从豆瓣等网站抓取的电影影评信息存入MongoDB中,便于对数据进行进一步的处理和分析。
结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定。
2.选题目的和意义 互联网中的信息量随着互联网的迅速发展而越来越多,在2008年Google公司宣布他们检索到的网页已经超过了1万亿,然而其检索到的网页仅仅是互联网上的一部分而已,如何从大量的信息中挖掘出有用的信息就成了当今的热门问题,搜索引擎也正是在这种需求下而诞生的技术。
搜索引擎是通过网络爬虫从互联网中挖掘大量需求信息,然后网络爬虫将这些信息存储在数据库中,以便将来根据用户需求对其进行处理,它用到人工智能、信息检索、计算机网络、数据库、分布式处理、数据挖掘、机器学习和自然语言处理等多领域的理论技术,具有很强的综合性和挑战性。
目前国内外在网络爬虫领域已经有了很多研究,例如,爬行策略、海量数据存储、海量数据索引、网页评级等。
但是较为成熟的大型网络爬虫只能为用户提供不可定制的搜索服务,且很多网络爬虫的技术都被列为商业机密,不对外开放。
在开源爬虫方面,例如,Larbin、Nutch、heritrix等已经是比较成熟的网络爬虫项目,但是它们大多为单一网络爬虫,并且存在着性能不稳定、用户亲和性较低、对中文支持不足和配置复杂等问题。