基于python的网络爬虫的研究与实现开题报告
2021-12-18 21:12:30
全文总字数:726字
1. 研究目的与意义及国内外研究现状
随着互联网的普及与发展,互联网上的信息内容日益丰繁复杂,各大网站的信息熵越来越多,信息获取成本下降的同时信息筛选成本越来越高。爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分,可以说,搜索引擎优化很大程度上就是对爬虫软件进行优化。爬虫为索搜引擎从互联网上下载网页,通过优化网络爬虫,我们便可以实现信息的定向抓取。
国内外研究现状
面对混乱的互联网信息,国内外都出现了上述问题,目前的解决方案大都是RSS订阅,然而遗憾的是,很多网站并没有这项功能。对于新兴的聚焦爬虫以及智能爬虫来说,国内研究尚不算深入,国外已经存在大量研究成果。近几年,国内关于网络搜索引擎的研究从无到有,直到渐成热点,研究现象的专题聚集特征较为明显。
2. 研究的基本内容
本课题主要研究基于python的简单的爬虫软件的开发。主要包括,第一,基本的爬虫工作原理;第二,基本的http抓取工具,Scrapy;第三,使用分布式爬虫进行大规模的网页抓取;第四,后续处理,诸如网页析取,网页存储等等。
3. 实施方案、进度安排及预期效果
2016年3月至4月 拟定论文开题报告,资料与数据收集、整理与分析;
2016年4月至5月完成论文初稿并请导师修改,完成论文二稿并请导师修改,完成软件的调试等工作;
2016年5月至6月 论文定稿与答辩。
4. 参考文献
[1]司维,曾军崴,谭颖华.Python基础教程(第二版)[M].人民邮电出版社
[2]罗刚,王振东.自己动手写网络爬虫[M].北京:清华大学出版社