基于网络爬虫搜索引擎的设计与实现文献综述
2020-06-23 20:43:57
文 献 综 述
一.系统开发的背景及意义
互联网被普及前,人们查阅资料首先想到的便是拥有大量书籍的图书馆,而在当时很多人都会选择一种更方便、快捷、全面、准确的方式#8212;#8212;互联网。如果说互联网是一个知识宝库,那么搜索引擎就是打开知识宝库的一把钥匙。搜索引擎是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术,用于帮助互联网用户查询信息的搜索工具。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。目前搜索引擎已经成为倍受网络用户关注的焦点,也成为计算机工业界和学术界争相研究、开发的对象。目前较流行的搜索引擎已有Google, Yahoo, Info seek, baidu等。 出于商业机密的考虑, 目前各个搜索引擎使用的Crawler 系统的技术内幕一般都不公开, 现有的文献也仅限于概要性介绍。随着Web信息资源呈指数级增长及Web信息资源动态变化,传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要,它们正面临着巨大的挑战。以何种策略访问Web,提高搜索效率,成为近年来专业搜索引擎网络爬虫研究的主要问题之一。目前虽然有很多种搜索引擎,但各种搜索引擎基本上由三个组成部分:在互联网上采集信息的网页采集系统,和对采集到的信息进行索引并建立索引库的索引处理系统,以及完成用户提交查询请求的网页检索器。
网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们每天都要进行的内容.如何使搜索引擎能时刻满足人们的需求。最初的检索功能通过索引站的方式实现,而有了网络机器人。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。
本次毕业设计的意图是开发出一款基于网络爬虫的搜索引擎。应用目标为搜集网络信息,便于查询使用。在如今的大数据时代,网络信息庞大而又复杂,用户很难直接从中获得需要的信息。基于网络爬虫的搜索引擎就是将这些信息收集并整理,当用户发起搜索请求时,该系统可将用户最需要的信息反馈给用户。
二.课题涉及技术
1.JAVA语言
JAVA是一门面向对象编程语言,不仅吸收了C 语言的各种优点,还摒弃了C
里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。
JAVA语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员