登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 电子信息类 > 信息工程 > 正文

基于爬虫技术的农产品信息收集及分析开题报告

 2022-01-09 21:52:28  

全文总字数:1486字

1. 研究目的与意义及国内外研究现状

本课题的主要目的是设计面向主题的网络爬虫程序,同时需要满足的是具有一定的性能,要考虑到网络爬虫的各种需求。

网络爬虫主体网站的特性。对url惊醒构造。网络爬虫使用scrapy实现多线程,让爬虫具备更强大的抓取能力和灵活性。网络爬虫要实现特定主题的爬取,还要完成信息提取任务,对于抓取回来的网页提取出来:新闻、电子图书、行业信息等,研究网络爬虫的原理并实现相关功能。《基于爬虫技术的农产品信息收集及分析系统》的选题背景是源于农村淘宝在苏北农村的普及现象,网络越来越贴近每个人的生活,农民们也是一样,可以去通过网络了解各种农作物。然而对于如何通过各种网页去使用检索却存在障碍。《基于爬虫技术的农产品信息收集及分析系统》对于这一现状,专门面向农产品信息的收集及分析,会简易很多。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;为何要使用多线程,以及如何实现多线程;系统实现过程中的数据存储;网页信息解析等。通过实现这一爬虫程序,可以搜集某一站点的URLs,并将搜集到的URLs存入数据库。

3. 实施方案、进度安排及预期效果

  1. 周日对整周毕设的作出详细相应的规划。
  2. 周一至周四完成相应的计划及记录有问题的点。
  3. 周五与老师修正毕设内容及相应的计划,并与老师请教讨论毕设过程所遇到的问题,以及相应的解决方案。
  4. 周六周日查询研读相关文献及书籍。
  5. 计划6—8周基本完成,可实现相关功能的网络爬虫。

4. 参考文献

[1]萨师煊,王珊.《数据库系统概论(第四版)》.高等教育出版社,2002.

[2] 黄梯云,李一军.《管理信息系统(第4版)》.高等教育出版社,2005.

[3] 卫军,夏慧军,孟腊春.《extjs web应用程序开发指南》. 机械工业出版社 ,2011.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图