基于网络爬虫的搜索引擎设计与实现开题报告

2020-02-10 22:44:08

1. 研究目的与意义（文献综述）

现在人类社会处在一个信息量爆炸的时代，有人说21世纪是大数据的时代，我想也是。据统计，现在的互联网已经存在超过140亿个网页，其中也包含了大量重复和无效的网页。自从搜索引擎诞生以来，人们可以很方便地从互联网上获取各种各样的数据，比较知名的搜索引擎有google,firefox等。而这些搜索引擎的核心技术正是网络爬虫。网络爬虫是一个从网页自动获取信息的程序。随着互联网技术的发展，网络爬虫得到了很大的发展，目前诞生了很多主流的技术。但与此同时各种“反爬”技术也层出不穷，就这样在不断的“爬”和“反爬”之中爬虫技术变的越来越完善。

然而对于有些用户来说，他们并不需要互联网上海量的信息，他们只希望获取一些特定的内容。比如淘宝网某个商品的买家评论，知乎某个问题的回答，微博某个用户的个人信息等。如果用传统的搜索引擎，用户需要登陆账号，搜索内容，筛选信息，不仅过程繁琐而且信息的呈现并不直接。而所以我希望设计一个“傻瓜式”的程序，用户可以一键获取这些信息。这样的好处不止是方便快捷，还避免了一些比如网页广告，网页病毒的问题。

毕设设计是对大学生4年学习生涯的总结，对每个大学生来说既是挑战，也是一次锻炼自身的机会。做该毕设的意义主要有：1.增强我对互联网运行过程的理解。因为爬虫技术涉及到了很多知识，比如http协议的运行过程、计算机网络等。2.锻炼我的自学能力。在这个期间我系统的学习了网络爬虫的大部分知识以及python语言，还学会了利用知网等数据库搜索资料。3。锻炼了我的沟通能力。我与导师和其他同学热情的讨论问题，在争辩中取得了进步。4.拓展了我的项目开发能力。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

基本内容：利用网络爬虫爬取新浪微博的用户。主要有4个功能：1.获取用户的个人信息。包括昵称、性别、微博认证、微博等级、关注数、粉丝数、微博数量、生日、所在地、个性域名、简介、注册时间。2.用户个人粉丝数变化、粉丝所在地、年龄分布等的可视化图表3.查找该用户的博文。查找方式分为按时间段查找和按关键字查找，内容包括包括发博时间、发博设备、博文内容（包括文字和图片）、转发数、评论数、点赞数。4.实现对以上信息的导出。

目标：做出一个完整的gui系统，该系统主要的功能如上。全部功能实现可视化操作，方便普通用户的使用。系统的界面应该简洁、稳定性应该尽可能的高，没有明显的bug。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

2019/1/19—2019/2/28：确定选题，查阅文献，外文翻译和撰写开题报告；

2019/3/1—2019/4/30：系统架构、程序设计与开发、系统测试与完善；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1]Ghuli, P.,Shettar, R.. A novel approach to implement a shop bot on distributed web crawler[P]. Advance Computing Conference (IACC), 2014 IEEE International,2014.

[2]Hai-tao Yu,Jian-yi Guo,Zheng-tao Yu,Yan-tuan Xian,Xin Yan. A novel method for extracting entity data from Deep Web precisely[P]. Control and Decision Conference (2014 CCDC), The 26th Chinese,2014.

[3]安子建. 基于Scrapy框架的网络爬虫实现与数据抓取分析[D].吉林大学,2017.

[4]于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(02):231-237.

[5]郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249.

[6]魏冬梅,何忠秀,唐建梅.基于Python的Web信息获取方法研究[J].软件导刊,2018,17(01):41-43.

[7]刘杰,葛晓玢,闻顺杰.基于Python的网络爬虫系统的设计与实现[J].信息与电脑(理论版),2018(12):92-93 96.

[8]彭智鑫.基于Python的深度网络爬虫的设计与实现[J].信息记录材料,2018,19(08):140-141.

[9]陈乐.基于Python的网络爬虫技术[J].电子世界,2018(16):163 165.

[10]唐琳,董依萌,何天宇.基于Python的网络爬虫技术的关键性问题探索[J].电子世界,2018(14):32-33.

[11]孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术,2010,6(15):4112-4115.

[12]姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(08):17-19.

[13]戚利娜,刘建东.基于Python的简单网络爬虫的实现[J].电脑编程技巧与维护,2017(08):72-73.

[14]施威,夏斌.基于Scrapy的商品评价获取系统设计[J].微型机与应用,2017,36(19):12-15.

[15]孙建立. 基于Python网络爬虫的实现及内容分析研究[A]. 中国计算机用户协会网络应用分会.中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集[C].中国计算机用户协会网络应用分会:北京联合大学北京市信息服务工程重点实验室,2017:4.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码