登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 物联网工程 > 正文

基于社交网络的用户群体分析研究与可视化毕业论文

 2021-11-09 21:13:51  

摘 要

随着互联网的不断发展以及互联网对各个领域的不断渗透,社交平台的用户越来越多,随之带来的信息膨胀化和碎片化,改变了人们获取信息的方法以及阅读习惯,大家越来越追求耗费最少的时间去获取最多、最有价值的信息,通过在线问答社区从同行、相关领域专家处获取信息成为了当下最流行的一种信息交流方式。因此对问答社区中的用户进行研究,有助于社区运营者对用户的精准定位,针对不同的用户群体,提供不同的服务,并可以根据其与消费有关的行为特征,促进知识付费活动的开展

本文以知乎为研究对象,针对不同行为特征的用户进行划分,并应用可视化技术对用户进行分析,主要研究了如下的工作:

(1)设计了基于Scrapy框架的多线程爬虫,采用广度优先的策略,以一个种子用户开始爬取用户基本信息,使用MongoDB来存储爬虫数据,一共收集到了近十万的用户数据量。

(2)根据知乎用户的行为特征,利用K-means算法对用户进行聚类,根据每个聚簇数据特征做出解释,对用户进行群体分析,挖掘付费知识的潜在消费者和潜在提供者。

(3)利用知乎用户的基本信息,从数据分析的角度,基于区域、高校、行业、关注者数等属性特征对知乎用户行为展开分析。

(4)利用可视化技术对用户群体以及其基本信息、社交关系进行直观展示。

关键词:社交网络;知乎用户;群体分析;聚类;网络爬虫

Abstract

With the continuous development of the Internet and the continuous penetration of the Internet into various fields, there are more and more users on social platforms, and the accompanying information expansion and fragmentation have changed the way people get information and reading habits. The more you pursue the least time to get the most and most valuable information, obtaining information from peers and related field experts through the online Q amp; A community has become the most popular way of information exchange. Therefore, research on users in the Q amp; A community can help community operators to accurately locate users, provide different services for different user groups, and promote the development of knowledge payment activities according to their consumption-related behavioral characteristics

This article takes Zhihu as the research object, divides users with different behavior characteristics, and applies visualization technology to analyze users. The main work is as follows:

(1) Designed a multi-threaded crawler based on the Scrapy framework, using a breadth-first strategy, starting with a seed user to crawl basic user information, using MongoDB to store crawler data, a total of nearly 100,000 user data was collected.

(2) According to the behavioral characteristics of users, use the K-means algorithm to cluster users, explain according to the characteristics of each clustered data, perform group analysis on users, and tap potential consumers and potential providers of paid knowledge .

(3) Using basic information about the user, from the perspective of data analysis, analyze the behavior of the user based on the attributes of the region, universities, industries, and the number of followers.

(4) Use visualization technology to visually display the user group, its basic information, and social relationships.

Key Words:Social network; Zhihu Users; Group analysis; Clustering; Web Crawler

目 录

第1章 绪论 1

1.1 研究目的及意义 1

1.2 国内外研究现状 1

1.3 研究内容以及主要工作 2

1.4 论文组织结构 2

第2章 知乎数据采集与数据集构建 3

2.1 Scrapy框架结构 3

2.2 数据采集 4

2.2.1 知乎站点及页面解析 4

2.2.2 数据爬取过程 6

2.2.3 反爬机制应对 7

2.2.4 数据存储 7

2.3 数据预处理 8

2.3.1 数据清洗 8

2.3.2 数据变换 9

2.4 本章小结 9

第3章 基于行为特征的知乎用户分析 10

3.1 特征选取 10

3.2 实验设计与实现 10

3.2.1 聚类算法分类 10

3.2.2 K-means聚类算法 11

3.2.3 实验过程 12

3.3 实验结果分析与解释 15

3.3.1 聚类评估标准 15

3.3.2 聚类结果分析 16

3.4 付费知识潜在消费者与潜在提供者 17

3.5 本章小结 18

第4章 知乎用户分析系统设计与实现 19

4.1 用户分析系统技术概述 19

4.1.1 前端技术 19

4.1.2 后台技术 20

4.2 用户分析系统设计 21

4.2.1 系统总体设计 21

4.2.2 功能模块设计 22

4.3 用户分析系统实现 24

4.3.1 总览分析模块 24

4.3.2 用户群体分析模块 25

4.3.3 用户影响力分析模块 27

4.3.4 人际拓扑关系模块 29

4.4 本章小结 29

第5章 总结与展望 30

5.1 主要结论 30

5.2 研究展望 30

致 谢 32

参考文献 33

附 录 34

绪论

研究目的及意义

近年来,随着Web技术与移动互联网的迅速发展,社交网络慢慢成为人们获取信息、发表观点意见的重要通道。

而知乎作为新兴的中文问答社区,从2011年创立至今不到十年,就已经吸引了大量的关注。按照知乎公布的运营数据,截至2018年8月底,注册用户数已突破2亿,新增超过8000万[1]。如此壮大的用户规模,每天都会给社交平台带来巨大的数据信息,这就造成了“信息过载”问题。“信息过载”虽然会给用户带来丰富的数据量,但是也给人们准确及时地获取所需信息带来一定的困难和阻碍。数据量越大,用户获取信息所需要的时间越长,流程越复杂,效率也会更低。如果能有效的采集到知乎用户的数据,从中提取出用户个体行为、用户群体特征以及用户之间交互行为,从而就可以进行进一步的分析与建模。

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图