局域网搜索引擎的设计与实现文献综述
2020-04-12 16:22:25
一、搜索引擎现状及局域网搜索引擎研发背景
随着互联网的飞速发展和迅猛普及,网络上的信息量也在以一种不可思议的速度爆炸式增长,这就加大了人们从烟波浩渺的网络中找到自己所需要的信息的难度,而搜索引擎的出现极大地方便了人们从网络上获取信息。但是大型通用搜索引擎有它的局限性,基于现在人们对信息的精细化、专业化、非商业化等各方面的强烈需求,大量专业的垂直搜索引擎横空出世。而另外一方面,在一些通用搜索引擎无法覆盖的区域#8212;#8212;如企业的内部网络#8212;#8212;也迫切的需要一个能在自身网络内部运行的封闭式的、便于部署的中轻量级搜索引擎,即局域网搜索引擎。
相对于商业化的搜索引擎,对于局域网搜索引擎来说,公平的排序在提升搜索和工作效率方面显得尤为重要。我们将局域网上的信息通过一个类似网络爬虫的程序搜集起来,并建立索引存储在数据库中,用户查询的时候便在数据库中检索与用户查询条件相匹配的记录,最终将匹配的那些记录,按一定的排列顺序显示给用户,这将大大的提高局域网内的工作效率。
二、搜索引擎的工作原理分类及特点的分析
搜索引擎的工作原理为:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。从互联网上抓取网页利用能够从互联网上自动收集网页的Spider 系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这一过程,并将爬过的所有网页收集回来。建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎按其工作方式可分为三种,全文搜索引擎,目录搜索引擎和元搜索引擎。
1、全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。