登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 电子信息工程 > 正文

基于python的网络旅游数据收集与分析系统设计毕业论文

 2021-12-29 21:38:11  

论文总字数:16864字

摘 要

随着人们物质文化水平提升,旅游逐渐成为人们日常放松的重要选择。出游前的功课必不可少。但Google、百度等全文搜索引擎关于旅游的信息杂乱,所搜集的数据不够准确,导致人们在浩瀚的数据中制定出一个出游方案往往需要耗费大量的时间精力。因此,制作一个方便用户查找旅游数据的系统显得格外重要。针对该问题,本文设计了一个面向旅游业,收集与分析旅游数据的垂直搜索引擎系统,系统能满足用户对于旅游业更加精确的检索要求,大大节约出行前为搜索有效的旅游信息而浪费的时间。

本文设计的系统主要包含数据采集、数据索引、和用户检索三个模块:第一个模块是数据采集模块,该模块通过Scrapy框架的网络爬虫针对多个旅游平台进行数据的采集;第二个模块是数据索引模块,该模块借助ElasticSearch进行中文分词和反向索引;第三个模块是用户查询模块,该模块以借助Django框架实现web开发,方便用户通过网页对旅游信息进行检索。

关键词: 网络爬虫 旅游数据可视化 旅游网页开发 旅游垂直搜索引擎

Design of network tourism data collection and analysis system based on python

Abstract

With the improvement of peopleamp;apos;s material and cultural level, traveling has gradually become an important choice for people to relax in their daily life. Homework before a trip is essential. However, Google, baidu and other full-text search engines have mixed information about tourism, and the collected data are not accurate enough. As a result, it often takes a lot of time and energy for people to make a travel plan out of the vast amount of data. Therefore, it is very important to make a system that is convenient for users to search tourism data and make tourism plans. In view of this problem, this paper designs a vertical search engine system for the tourism industry, which collects and analyzes tourism information and recommends suitable travel plans for users. The system can meet usersamp;apos; requirements for more accurate retrieval of the tourism industry and greatly save the time wasted in the search of tourism data before travel.

The system designed in this paper mainly consists of three modules: data collection, data index, and user retrieval. The first module is data collection module, which adopts Scrapy framework web crawler to collect data for multiple tourism platforms. The second module is the data index module, which USES ElasticSearch for Chinese word segmentation and reverse indexing. The third module is the user query module, which realizes web development with the help of Django framework to facilitate users to retrieve tourism information through web pages.

KeyWords: Web crawler tourism data visualization  tourism web development tourism vertical search engine

目录

摘要 Ⅰ

Abstract Ⅱ

第一章 绪论 1

1.1 选题背景和意义 1

1.2 国内外研究现状 1

1.3 本文研究内容 2

第二章 相关技术介绍 3

2.1 垂直搜索引擎 3

2.2网络爬虫 4

2.2.1 网络爬虫的工作原理 4

2.2.3 Scrapy开源框架在爬虫开发中的应用 5

2.3.2 网络爬虫抓取策略 7

2.3 ElasticSearch 7

2.4 Django 8

第三章 系统的设计与实现 10

3.1 系统总体设计 10

3.1.1 系统总体功能结构 10

3.1.2 系统技术实现架构 11

3.2 数据采集模块的设计与实现 12

3.3 数据索引模块的设计与实现 14

3.4 用户检索模块的设计与实现 15

第四章 系统的测试 16

4.1 数据收集模块的测试 16

4.2 数据索引模块的测试 17

4.3 用户检索模块的测试 18

第五章 总结与展望 24

参考文献 25

致谢 28

第一章 绪论

选题背景和意义

二十一世纪初全球进入信息化时代,在如今这个数据就是最珍贵资源的大数据时代,人们逐渐地意识到了数据不可替代性。同时信息的获取和利用在这个时代也加速了人类社会形态的演变,极大地改变了人们原本的生活习惯,人们越来越多地从网络中获取自己所需的数据。但数过量的数据使得人们很多时候获取的数据往往并不是自己所需要的,如何高效快速地获取所需数据成为数据时代的热门问题。为解决这个问题,越来越多地搜索引擎如谷歌、百度等涌现出来,成为用户浏览信息的首要途径。但现在大型网站如百度、谷歌、搜狗等全文搜索引擎对于繁杂数据的分类和筛选仍不够准确,对搜索结果的分析不够智能,导致搜索类别凌乱。其次,这些大型搜索引擎的数据更新速度过慢,不能为用户提供实时信息。

网络资源的发展也改变了人们对于旅游方式的选择。人们从以前仅靠当地旅游产品来选择出行的方案,转变为现在可以依靠更多网络资源对旅行方案的进行筛选。但传统的全文搜索引擎不能满足客户对数据精准度的需求,所检索出来的数据仍然需要游客花时间整合。若用户输入目的地想了该城市的景点等可供行程安排的信息,该类全文搜索引擎将检索出大量重复和无效的数据,导致使用者仍需对数据进行二次检索来筛选有效信息。面对全文搜索引擎的不足,设计一个方便用户查找旅游数据的系统显得格外重要。

国内外研究现状

国内关于旅游信息收集分析的搜索引擎技术主要体现在携程网、去哪儿网、马蜂窝网和途牛网,自从1999年携程网在上海成立以来,去哪儿网、途牛、马蜂窝等旅游类网站纷纷涌现,我国旅游类网站发展迅速,众多精细多样的旅游信息网站为人们提供了方便的信息获取方式。

请支付后下载全文,论文总字数:16864字

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图