基于多线程网络爬虫技术的气象雷达数据采集系统开题报告
2021-12-17 22:01:22
全文总字数:1599字
1. 研究目的与意义及国内外研究现状
随着计算机和网络技术的日渐成熟,并广泛的被应用到各个领域,网络上的信息呈爆炸式的增长,并由此产生了大量的数据,这使得人们在网上找到自己所需要的信息越来越困难,本文介绍的是用于搜集网页, 提高查全率的最重要的工具—网络爬虫(Web Crawler)的设计与实现。网络爬虫的主要作用是搜集互联网的网页,也可以用它来定期搜集某个网站的内容,跟踪判断网站的发展,或者做站内搜索引擎。从网络爬虫的工作原理来看,“网络爬虫”是一个比较形象的名字,它是在互联网内,通过网页链接,从当前网页爬到下一个网页来进行网页内容搜集的工具。它所需完成的是:在一个网页上,获取网页的标题和网页中的摘要;将搜集到的网页标题,链接,网页的摘要放入数据库中;根据当前网页的内容,搜集网页中的链接信息,并根据链接顺序搜索相应链接网页的内容。国内外研究现状
因为搜索引擎的商业化应用带来了巨大的商业价值,所以作为搜索引擎核心部分的网络爬虫技术,也理所当然地成为了国内外研究的热点。对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经相当成熟,并催生了像百度和谷歌这样的网络巨擘,而其他公司也纷纷推出自己的搜索引擎。
现今,网络爬虫主要分为通用爬虫和聚焦爬虫。通用搜索引擎的目标是尽可能大的网络覆盖率,通用搜索引擎大多提供基于关键字的检索。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标有选择地访问万维网上的网页与相关的链接,获取所需要的信息,与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定的主题相关的网页,为面向主题的用户查询准备数据资源。同时,支持基于语义的查询。
2. 研究的基本内容
利用多线程和网络爬虫技术、sql数据库技术,正则表达式实现实时地从中国气象局气象探测中心网站上下载天气雷达的信息,实现全国雷达拼图,区域雷达拼图,雷达单站图的本地化。
3. 实施方案、进度安排及预期效果
本课题(基于多线程网络爬虫的气象雷达数据采集系统)为了使网络爬虫具有更高效的抓取能力,用了多线程技术,同时为了避免无限制的等待,应该对网络爬虫连接网络以及读取时间的最大值进行设定,配合使用正则表达式实现爬取所需数据。
进度安排:2015年11月~12月:资料收集,完成任务书和开题报告,完成系统分析与概要设计;
2016年1月~2月(开学前):完成系统功能模块划分和数据库设计
4. 参考文献
[1]李勇,韩亮.主题搜素引擎中网络爬虫的搜素策略研究[j].计算机工程与科学,2008,(10):33-41.
[2]汪涛.樊孝忠.主题爬虫的设计与实现[j].计算机应用,2004,(s1):110-121.
[3]郭辉.多线程的效率[j].计算机应用.2008,28(s2):141-143.