社交网络数据社区发现算法的设计与实现文献综述
2020-04-15 15:31:55
1.1 研究背景及意义
在当今世界网络的快速传播和发展的大环境下,国内诸如微博、知乎,国外Yelp、Foursqure等社交媒体和网站的出现极大地激发了人们在网络方面的探索热情,科技研究人员们纷纷涌入这个浪潮来发现网络之美。对于网络的应用者们来说,生活中的各个方面也都与之息息相关。社交、学术、信息、医疗等领域都以网络的形式存在并相互关联。人们不断地利用虚拟的网络来进行真实的社交,使得社交网络分析成为挖掘真实社会关系的重要手段。社区发现算法是近年来的热点研究方向,它将网络模块化、层次化分解,使其结构更加清晰,研究也更具有针对性,还能与用户画像相结合,对于不同的个人或群体可利用最适合的算法来达到目的,近而可以更加准确地应用在系统推荐、信息传播和检索和其他众多领域。
1.2 国内外研究现状
早在2002年Girvan和Newman提出GN算法开始,越来越多的学者经过不断探索发现了FN算法、快速凝聚FN算法、标签传播算法、Louvain算法等。近几年,随着复杂网络的演变与发展,部分学者开始研究异构信息网络中的聚类问题。2013年Yizhou Sun等人提出了一种根据用户导向进行元路径选取从而完成目标聚类的方法。2014年石川等人发表了基于矩阵分解技术的异构信息网络下聚类分析方法。Perozzi等人也在2014年提出了一种在线学习社交网络表示的方法,将网络中的节点映射到隐藏的连续空间中,并表明该方法可有效解决网络多标签分类的方法。2015年 Jian Tang等人提出了一种名为“LINE”的网络映射方法,可将大型网络映射到低维空间中,并适合处理任何类型的网络。2016年Aditya等提出了一种可扩展的网络特征学习方法,为节点特征学习提供了通用框架。 2017年NiJAYA等人提出网络中子图的分布式表示方法,并表明子网络映射比节点映射方法在处理问题时效果更好。2018年李佩茜在文章中提出了一种在多种群进化策略下的社区发现算法,既能提高算法准确度又能降低时间复杂度并明显优于很多经典算法。这些研究和发现都表明,社区发现算法还有很大空间值得探索,也具有非常深远的研究价值和应用前景。
{title}2. 研究的基本内容与方案
{title}2.1 基本内容以及目标
本文主要目的是通过聚类实现不同社区发现算法的设计和比较分析,得到实际社交网络展示结果并发现最好的算法,使其与用户画像结合使用得到更准确的社交网络信息。基本内容如下:
(1)学习社区发现算法理论知识和python语言等技术知识;
(2)选取一个社交网络对其原始数据预处理,通过将用户标签数据聚类分析得到不同算法下的处理结果;
(3)对文章中涉及的相关参数和术语明确设定;