基于Web爬虫的个性化推荐系统设计与实现开题报告
2022-01-09 21:39:03
全文总字数:2699字
1. 研究目的与意义及国内外研究现状
在近些年来,互联网行业和大数据产业飞速发展,网络中所包含的数据量和信息量飞速增长,如何从海量的网络数据中高效获取所需信息,并为数据挖掘,大数据应用及推荐算法等方面的研究提供可用数据集,是一种较为关键且重要的工程。与此同时,通用爬虫和搜索引擎具有一定的局限性,不同领域、不同背景的用户往往具有不同的检索目的和需求,为此,设计一个高效灵活的爬虫具有重要意义和基础作用。
网络爬虫是一个自动提取网页的程序,针对不同的业务需求会有不同的数据爬取策略,搜索引擎也是基于广泛的网络爬虫算法去下载网页的。本选题的目的就是去掌握常见的网络爬虫策略和相关的调度算法,通过针对网络中指定网站的数据信息爬取与准确定位,更深刻了解网络爬虫的相关原理,能够有效利用动态切换ip地址,模拟登陆网站,动态加载网页,使用无头浏览器模拟浏览器行为等爬虫手段解决遇到的反爬虫机制,并通过学习相关的网络爬虫调度算法对网络爬虫系统进行优化,形成能够发挥实际科研作用的数据源。在此基础上,适当掌握相关的数据挖掘算法,对数据源进行处理与展示。
本选题在高效获取数据源和数据源处理和展示两大方面入手,相较传统的通用爬虫,更侧重于充分利用分布式爬取,精准定位有效数据信息,有效过滤非本体元素,并对相关数据挖掘算法进行了解和运用。这在当今大数据时代具有重要的意义和研究价值。与此同时,本选题在实际应用方面也能够发挥一定的作用,通过对定向爬虫的掌握,能够为不同研究需求定制相应的服务,满足不同领域的研究需求。
2. 研究的基本内容
本选题预期实现一套高效的基于web的网络爬虫及展示系统,主要内容包括:
(1)熟悉网络爬虫涉及的基础知识并运用。
具体为:网络协议,网页的dom结构,常见反爬虫机制,数据元素定位,分布式爬虫处理,网络爬虫策略及优化等。
3. 实施方案、进度安排及预期效果
本选题的实施方案和进度安排如下:
(1)2018年1月
针对网络爬虫的基础知识,python相关语法,分布式爬虫框架scrapy及web框架django进行系统研究和学习,并能够高效实现网络爬虫功能。(2)2018年2月至2018年3月
4. 参考文献
[1]孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[j].计算机技术与发展,2014,24(03):6-10.
[2]宋海洋,刘晓然,钱海俊.一种新的主题网络爬虫爬行策略[j].计算机应用与软件,2011,28(11):264-267 293.