登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 电子信息类 > 通信工程 > 正文

基于python的网络爬虫的研究与实现开题报告

 2021-12-18 21:12:30  

全文总字数:726字

1. 研究目的与意义及国内外研究现状

随着互联网的普及与发展,互联网上的信息内容日益丰繁复杂,各大网站的信息熵越来越多,信息获取成本下降的同时信息筛选成本越来越高。爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分,可以说,搜索引擎优化很大程度上就是对爬虫软件进行优化。爬虫为索搜引擎从互联网上下载网页,通过优化网络爬虫,我们便可以实现信息的定向抓取。

国内外研究现状

面对混乱的互联网信息,国内外都出现了上述问题,目前的解决方案大都是RSS订阅,然而遗憾的是,很多网站并没有这项功能。对于新兴的聚焦爬虫以及智能爬虫来说,国内研究尚不算深入,国外已经存在大量研究成果。近几年,国内关于网络搜索引擎的研究从无到有,直到渐成热点,研究现象的专题聚集特征较为明显。

2. 研究的基本内容

本课题主要研究基于python的简单的爬虫软件的开发。主要包括,第一,基本的爬虫工作原理;第二,基本的http抓取工具,Scrapy;第三,使用分布式爬虫进行大规模的网页抓取;第四,后续处理,诸如网页析取,网页存储等等。

3. 实施方案、进度安排及预期效果

2016年3月至4月 拟定论文开题报告,资料与数据收集、整理与分析;

2016年4月至5月完成论文初稿并请导师修改,完成论文二稿并请导师修改,完成软件的调试等工作;

2016年5月至6月 论文定稿与答辩。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]司维,曾军崴,谭颖华.Python基础教程(第二版)[M].人民邮电出版社

[2]罗刚,王振东.自己动手写网络爬虫[M].北京:清华大学出版社

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图