基于Scrapy框架的爬虫系统的设计与实现文献综述
2020-04-14 19:48:17
1.1目的及意义
随着互联网的快速发展和广泛的普及,互联网数据信息的爆炸将我们带入了大数据时代,特别是近年来,互联网推动制造业的发展,各种云制造,智能制造等也开始迅猛发展。制造业从各种维度将工业数据进行处理上传,变为可供消费者选择的定制化服务,同时消费者的决策也会及时反馈给制造业,反过来帮助制造业的产品线升级。制造业与消费者间形成一个以数据信息为载体的闭环,提高了资源利用率,同时也帮助了制造业的升级。
但是互联网上出现各种制造信息,散落在各处,或是和其他无用信息混在一起,截至2018年12月,我国网页数量为2816亿个,较2017年底增长8.2%[1],目前通过一些大型搜索引擎,只能搜索出模糊的信息,需要花费大量的时间去辨别、整理。因此,本课题设计一种基于Scrapy框架的分布式小型爬虫系统,对数据信息进行初步的筛选和整理,以实现对制造信息的高效收集。
1.2 国内外研究现状
爬虫技术发展至今,已经十分成熟,同时也产生了很多开源的爬虫框架,如Nutch、Heritrix、Larbin、Scrapy,这些开源框架的实现语言与功能各不相同。Scrapy是基于python语言开发的爬虫框架,由于它的轻量化设计和简单易用,而广泛受到开发者的欢迎[2]。
国内学者针对Srapy框架扩展性强的特点,对其进行优化设计,研究出了一系列高性能的爬虫。
在爬虫架构优化与创新方面,樊海英通过研究PhantomJS与Scrapy框架的结合原理,解决了Scrapy框架爬取动态数据的问题[3],从而能成功爬取一些采用数据异步加载的网站信息。樊宇豪在Scrapy框架的基础上结合Redis数据库设计并实现了一个分布式网络爬虫系统[4],使用者通过简单的配置即能快速的抓取到其想要的数据并且能够快速的访问爬虫节点。张树涛等人针对现有分布式爬虫系统中的节点负载不均衡问题,提出一种分布式爬虫系统负载均衡策略[5]。
李远龙从采集数据的处理角度出发,设计开发了一种招聘信息检索系统,将在多个招聘信息网站爬取的有效信息进行数据整合,为应聘者提供了有效的指导作用[6]。丁忠祥等人设计了一种面向搜索影视信息和其评论的网络爬虫程序,制作了一个围绕影视信息及其评论的分析的工具[7]。
2018年,曾武序等人提出了一种基于Python和BP神经网络的股票预测方法,该方法在三层BP神经网络中根据批量梯度下降法调整隐含层结点个数,以获取相对更优的连接权值和阈值,从而对股票的涨跌做出预测,为投资者的投资行为提供参考[8]。北京交通大学的周靖洋设计了一种基于NLP与分布式爬虫框架阅读类APP[9],该APP后台基于NLP与分布式爬虫框架,使用分布式爬虫技术来满足内容的丰富及时效性,使用NLP对内容的分析,再结合线上字典来获得准确的翻译来保证翻译内容的准确性,解决了外文阅读APP使用者的痛点。国防科学与技术大学的李逸鸣从网络安全出发,在深入研究一般主题网络爬虫模型和网络中敏感信息分布特点的基础上,提出了面向特定主题的网页敏感内容提取技术模型[10],为针对敏感信息检索的主题网络爬虫技术实现建立了基本框架。