基于Web爬虫的个性化推荐系统设计与实现开题报告

2022-01-09 21:39:03

全文总字数：2699字

1. 研究目的与意义及国内外研究现状

在近些年来，互联网行业和大数据产业飞速发展，网络中所包含的数据量和信息量飞速增长，如何从海量的网络数据中高效获取所需信息，并为数据挖掘，大数据应用及推荐算法等方面的研究提供可用数据集，是一种较为关键且重要的工程。与此同时，通用爬虫和搜索引擎具有一定的局限性，不同领域、不同背景的用户往往具有不同的检索目的和需求，为此，设计一个高效灵活的爬虫具有重要意义和基础作用。

网络爬虫是一个自动提取网页的程序，针对不同的业务需求会有不同的数据爬取策略，搜索引擎也是基于广泛的网络爬虫算法去下载网页的。本选题的目的就是去掌握常见的网络爬虫策略和相关的调度算法，通过针对网络中指定网站的数据信息爬取与准确定位，更深刻了解网络爬虫的相关原理，能够有效利用动态切换ip地址，模拟登陆网站，动态加载网页，使用无头浏览器模拟浏览器行为等爬虫手段解决遇到的反爬虫机制，并通过学习相关的网络爬虫调度算法对网络爬虫系统进行优化，形成能够发挥实际科研作用的数据源。在此基础上，适当掌握相关的数据挖掘算法，对数据源进行处理与展示。

本选题在高效获取数据源和数据源处理和展示两大方面入手，相较传统的通用爬虫，更侧重于充分利用分布式爬取，精准定位有效数据信息，有效过滤非本体元素，并对相关数据挖掘算法进行了解和运用。这在当今大数据时代具有重要的意义和研究价值。与此同时，本选题在实际应用方面也能够发挥一定的作用，通过对定向爬虫的掌握，能够为不同研究需求定制相应的服务，满足不同领域的研究需求。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

本选题预期实现一套高效的基于web的网络爬虫及展示系统，主要内容包括：

（1）熟悉网络爬虫涉及的基础知识并运用。

具体为：网络协议，网页的dom结构，常见反爬虫机制，数据元素定位，分布式爬虫处理，网络爬虫策略及优化等。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

本选题的实施方案和进度安排如下：

（1）2018年1月

针对网络爬虫的基础知识，python相关语法，分布式爬虫框架scrapy及web框架django进行系统研究和学习，并能够高效实现网络爬虫功能。（2）2018年2月至2018年3月

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1]孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[j].计算机技术与发展,2014,24(03):6-10.

[2]宋海洋,刘晓然,钱海俊.一种新的主题网络爬虫爬行策略[j].计算机应用与软件,2011,28(11):264-267 293.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码