京东手机销售数据统计系统开题报告
2021-12-24 15:22:39
全文总字数:1460字
1. 研究目的与意义及国内外研究现状
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。由于通用搜索引擎存在着一些局限性,如不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎返回的结果包含大量用户不关心的网页,等等。因此,定向抓取相关网络资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关链接,获取苏需要的信息。本文以聚焦爬虫为应用背景,设计开发一个京东手机销售数据统计系统,编写爬虫程序抓取京东某款手机的名称、价格、用户评价、用户会员等级等数据,对抓取到的数据进行解析存入数据库中,并且对数据进行可视化处理,最终在网页中以图表形式进行数据统计展示,完成对信息的定向聚焦爬取。
国内外研究现状
鉴于聚焦爬虫的理论意义和实际应用价值,国内外在此领域有相当多的研究,并且已经提出相当多的抓取策略,而其中绝大多数都是由国外提出的,国内尚处于初步阶段。目前,主要采取的抓取策略有基于内容评价的策略、基于链接结构的策略、基于“综合价值”评价的策略、基于未来目标价值评价的策略、基于“动态价值”评价的策略,每种策略都有各自的优缺点,但是由于网络信息增长速度过快,爬虫效率还有很大的提升空间。
2. 研究的基本内容
本课题主要实现一个京东手机销售数据统计系统,通过编写爬虫程序,定向地抓取京东某款手机的名称、价格、用户评价、用户信息等数据,对抓取到的数据进行解析存入数据库中,并且对数据进行可视化处理。
具体到实现上,在visual studio2013上用C#语言编写爬虫代码,用rabbitmq和json对抓取的数据进行解析和序列化处理,然后将数据存入MYSQL数据库中,最后利用echarts做出抓取数据的图标并在amaze ui 上进行展示,实现数据的可视化。
3. 实施方案、进度安排及预期效果
实施方案:通过查阅相关资料和动手实践,深入了解聚焦爬虫基本概念和原理以及各种开发工具的使用方法。先把相关概念、基本原理和使用方法了解透彻,再通过visual studio2013编写程序实现数据的抓取、解析入库以及数据展示。
进度安排:
4. 参考文献
1、印鉴,陈忆群,张钢.搜索引擎技术研究与发展[j].计算机工程,2005,31(14):54-56.
2、刘刚,于力超.搜索引擎中网络蜘蛛的设计与实现[j].电脑与信息技术,2007,15(4):36-39.
ester m ,gorb m,kriegel h.focused web crawling:a generic framework for specifying the user interest and for adaptive crawling strategies[c].proc of the international conference on veyr large database ,2001.