登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 计算机科学与技术 > 正文

基于网络爬虫搜索引擎的设计与实现开题报告

 2020-06-23 20:51:56  

1. 研究目的与意义(文献综述包含参考文献)

文 献 综 述

一.系统开发的背景及意义

互联网被普及前,人们查阅资料首先想到的便是拥有大量书籍的图书馆,而在当时很多人都会选择一种更方便、快捷、全面、准确的方式#8212;#8212;互联网。如果说互联网是一个知识宝库,那么搜索引擎就是打开知识宝库的一把钥匙。搜索引擎是随着web信息的迅速增加,从1995年开始逐渐发展起来的技术,用于帮助互联网用户查询信息的搜索工具。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。目前搜索引擎已经成为倍受网络用户关注的焦点,也成为计算机工业界和学术界争相研究、开发的对象。目前较流行的搜索引擎已有google, yahoo, info seek, baidu等。 出于商业机密的考虑, 目前各个搜索引擎使用的crawler 系统的技术内幕一般都不公开, 现有的文献也仅限于概要性介绍。随着web信息资源呈指数级增长及web信息资源动态变化,传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要,它们正面临着巨大的挑战。以何种策略访问web,提高搜索效率,成为近年来专业搜索引擎网络爬虫研究的主要问题之一。目前虽然有很多种搜索引擎,但各种搜索引擎基本上由三个组成部分:在互联网上采集信息的网页采集系统,和对采集到的信息进行索引并建立索引库的索引处理系统,以及完成用户提交查询请求的网页检索器。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容、问题解决措施及方案

2.本课题要研究或解决的问题和拟采用的研究手段(途径):

第一阶段:巩固JAVA基础和MySQL数据库的使用,深入了解HTTP协议。熟悉常

用爬虫框架 Nutch等的使用和MyEclipse开发工具。学习HttpClient和Jsoup相关操作。规划模块布局以及整体页面设计,对所设计的内容有个大致的规划,找准设计的方向,搭建开发所需的环境。

第二阶段:编写需求分析,进行设计、编码、测试。

网络爬虫的基本工作流程如下:

1.首先选取一部分精心挑选的种子URL;

2.将这些URL放入待抓取URL队列;

3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列;

4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

本系统包括三大模块:爬虫模块、数据库模块和搜索模块,即前台、后台和数据库。每一个模块有各自的分工,最后三大模块集合在一起构成一个完整的网络爬虫系统。各个子模块的详细功能如下:

1. 第一个模块为爬虫模块。爬虫模块的主要任务是负责寻找网页,并将网页内的URL和关键字提取出来。此模块又详细分为两大模块:服务器模块和正则引擎模块,这两个模块分别负责上述的两个功能。 服务器模块向某个种子URL发送请求,或得其页面内容;正则引擎模块将服务器获取的页面用正则表达式对其进行分析,截取其中的URL和关键字,然后再将URL传递给服务器模块。系统按照这样的方式不断的抓取网页并进行分析,最后将结果存进数据库。

2. 搜索模块第二个模块是搜索模块,用户在搜索界面输入关键字,然后系统在数据库中搜索对应的关键字,最后将结果返回给用户。此模块又分为搜索界面和结果界面。搜索界面是首页,用户在此界面中输入想要搜索的关键词,这些关键词将被此页面记录下来传递到数据中进行搜素。结果页面是数据库结果的接受者,当数据库完成搜素后会将结果传递给次页面,然后结果页面会将结果呈现给用户。

3. 数据库模块在整个系统中起到存储和桥梁作用。爬虫模块将搜索的结果整理完成后存入数据库,搜索模块从数据库中获取需要的信息并呈现给用户。

实现方案:

1. 开发平台:采用MyEclipse开发工具、JAVA语言进行开发,数据库使用MySOL。

2. 系统框架:用Nutch框架、HttpClient和Jsoup技术实现爬虫的搜素功能。

3. 前台页面:用Dreamware开发搜索界面和显示结果界面。

第三阶段:功能测试,文档书写

1. 单一功能测试,对于搜索系统的每个模块进行。

2. 系统功能测试,进行优化处理提高的可性。

3. 认真总结,查找漏洞完善系统撰写论文并成毕业答辩。

程序运行环境要求:

1. 开发工具: MyEclipse 2015 CI 、Adobe Dreamware CS5

2. 数据库: MySQL Community server

3. 系统开发语言: Java

4. 运行环境: Windows7 x64 、Windows7

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图