基于Scrapy框架的网络爬虫实现与数据抓取分析开题报告
2022-01-09 21:24:17
全文总字数:2428字
1. 研究目的与意义及国内外研究现状
在如今数据爆炸、智能手机的应用日益广泛的互联网时代,数据的碎片化、多样化、流媒体特征更加明显,正以前所未有的速度颠覆着我们的日常生活。也就是说,社会化媒体上的信息对我们每一个人都有重大影响,社会化媒体是我们间接了解现实客观世界和主观世界的一面窗户,我们每时每刻都在受到它的影响。新浪微博,一个基于用户关系信息分享、传播以及获取的社交网络平台,拥有许多有价值的数据。通过新浪微博的数据信息,一方面我们可以足不出户知天下而了解世界所发生的点点滴滴、对特定领域的知识进行分析而了解该领域的发展进程和现状,另一方面我们可以通过分析新浪微博的大量数据和关系链来展现爬虫和数据分析的魅力。
因此,对新浪微博上的数据进行采集和分析,对于我们的工作生活和知识研究有一定的实际价值。国内外研究现状
爬虫,又名“网络蜘蛛”,是通过网页的链接地址来寻找网页。从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种策略把互联网上所有的网页都抓取完为止的技术。而Scrapy是一个爬取网站数据、提取结构性数据而编写的应用框架。Scrapy应用Twisted异步网络库来处理网络通讯,使得在处理数据时显得特别灵活,其包含了各种中间件接口,如:下载器中间件、调度中间件等。由于Scrapy的易用性和灵活性,使得越来越多的开发者来使用Scrapy框架获取数据。在国内一篇名为《基于Scrapy框架的网络爬虫实现和数据抓取分析》论文中,以新浪微博为例进行数据采集,深刻分析了爬虫的原理以及涉及的技术点。
在国外,由于Scrapy框架被国外开源爱好者维护,因此使用较为广泛。在该课题类似的研究上,一篇名为《Scrapy-Based Crawling and User-Behavior Characteristics Analysis OnTaobao》论文阐述了数据的获取和数据的分析,分析了如何从网页上获取相应的数据、如何对数据进行处理等问题的解决方案,在数据分析上,对已有数据进行分析(如:分析淘宝卖家和买家的关系等)的方式使用了相关的数学推理和证明,使得论文更加严谨。这些,无疑对本课题的研究起到了积极作用。2. 研究的基本内容
1)python语言、scrapy框架等python第三方模块以及其他编程语言的使用和适用场景。
2)对相关数据进行数据采集、数据清洗、数据可视化分析等操作。
3)程序的系统架构设计、功能性分析、稳定性调优等环节。
3. 实施方案、进度安排及预期效果
实行方案:程序主要使用python语言和linux操作系统centos 7进行开发,使用requests和scrapy第三方库模拟登录新浪微博和数据信息采集,对已获得数据进行数据清洗并进行保存和维护,使用matplotlib等数值计算模块对杂芜无序的结构化数据和非结构化数据进行可视化分析,展现数据之美。
在程序的易用性上,使用shell语言进行自动化部署和相关环境配置,同时对程序的稳定性进行调优。
进度:2018年1月 5 日至2018年1月14日 开题报告撰写 2018年1月16日至2018年1月25日 查阅资料并进行功能性分析2018年1月26日至2018年2月10日 程序rc版本发布2018年2月11日至2018年3月15日 实现程序各个功能2018年3月16日至2018年3月31日 程序稳定性调优和自动化部署2018年4月 1 日至2018年4月30日 毕业论文撰写预期效果:实现模拟登录新浪微博进而对相关数据进行采集,对已有数据选择后进行保存和维护,对最终结构化数据和非结构化数据进行数据可视化分析、描述性分析,进而得出有实际价值的结论。
4. 参考文献
[1]陶兴海.《基于scrapy框架的分布式网络爬虫实现》. 电子技术与软件工程. 2017.no.11. 1.
[2]孙小越 王超.《基于scrapy框架电商数据分析平台》. 电脑知识与技术2017.no.28. 276-278.
[3]jing wang,yuchun guo.《scrapy-based crawling and user-behavior characteristics analysis ontaobao》.ieee xplore digital library.10-12 oct.2012. 44-52.