基于标签传播机器学习的网络社区结构发现的分析与设计文献综述
2020-04-14 21:38:53
如今,网络现象如今已融入到社会生活的方方面面,复杂网络[1]也日渐成为研究学者密切关注的研究方向。复杂网络作为现今备受的重要研究领域,可以有助于人们可以更好地理解、分析与研究复杂系统相关结构与特性[2]。
从复杂网络上进行社区发现具有很多的现实意义与价值,进而对人们的生活产生很大的积极影响,已广泛应用于网络舆情监控、个性化推荐、广告投放等方面[3]。微博、知乎、Facebook等在线社交应用中[4],从海量网络交流信息中识别具有相似主题的信息,通过发现用户集中讨论的群体主题来把握网络中的热点主题,同时跟踪发现用户对于热点主题的观点倾向,把握话题的发展动向;在淘宝、京东等在线零售商中,寻找处于同一社区的潜在客户,对具有相近的消费喜好及消费水平的顾客群体,推荐相应类别的商品,建立高效的推荐系统,提高零售商的商业机会,从而提高销售量;在交通运输领域,社区划分检测出发生交通事故比例较高的路段,从而保障整个交通运输网络的畅通运行与安全;在文献信息检索方面,通过社区发现将属于同一领域的论文聚集起来,从而使得研究学者们更准确、有效地查询到相关资料。复杂网络的社区结构发现已成为当前研究复杂网络的热点趋势,如何从复杂网络中发掘出潜在的社区结构是非常值得科研人员关注的问题,对深入研究复杂网络结构与功能特征具有重要的价值与意义,并且有助于发现网络数据背后所蕴藏的规律或关联信息[5]。
随着众多研究学者的不懈努力,复杂网络中的社区发现算法研究已取得快速的发展与进步[6]。如今,复杂网络领域中具有代表性的社区发现算法主要包含基于图分割算法、基于层次聚类算法以及基于划分优化算法等[7]。
国外研究者Kernighan 等人(1970)提出了著名图形分割算法 Kernighan-Lin 算法[8]。Girvan(2002)在发现层次聚类算法[9]中引入边介数等相关概念,为分裂层次聚类法的提出奠定了基础。Newman 等人[10]根据边介算法的基本思想提出GN 算法,将网络中重要的边依次删除,直至得到较为良好的社区划分。Wang T 等人[11]利用被测节点对的共同邻居节点信息衡量局部相似度,同时结合被测节点对的度聚集系数信息,采用层次聚类的思想,进而提出一种基于相似度社区发现算法,该算法可以较准确地将属于同一社区中的紧密相连的高度数节点与大量低度数节点聚集到一起。 模块度优化算法[12],其思想是将模块度 Q 最值引入到了社区发现的问题中。借鉴于该思想的算法还有经典 Newman 算法,把所有节点视为一个个单独的社区,将所有节点看作不同的社区,对模块度最优化的社区进行两两组合选取。Clauset通过对计算模块度增量过程进行优化,其提出时间复杂度接近线性新算法,提高对较大范围网络内节点进行处理时的速度。
2007年,由 Raghavan 等人[13]提出的标签传播思想的算法,可以更快速的得较好的社区发现结果,适用于较大规模的网络,该算法以时间复杂度的优势屹立于众多社区发现算法的集合中。Li 等人[14]提出一种基于节点间相似度的标签传播算法,该算法在节点标签更新过程中,选取邻居集中与之相似度最大的节点对应的标签进行更新,从而提高社区发现效果。Zhang 等人[15]基于节点重要性来衡量节点的标签影响力,进而提出标签传播算法(LPA_NI);刘世超等人[16]在对 LPA 算法研究的基础上,将节点自身属性特点与所处环境对其产生的影响相结合,计算出相对的传播概率,针对网络的重叠性对社区发现进行不断地实验,最终的得到了十分理想化的结果。
总体来说,国内外学者在重叠与非重叠社区两部分内容的研究中,所获得的成果颇为丰厚。国内在此领域的研究方向集中在链接的分析算法、标签传播,动态发现等方向。国内外对社区发现的研究,积极拓展了图理论的研究范围,并对于促进社区发现的应用与实践提供了宝贵的前提条件。随着现实生活中网络的规模不断壮大,至使其本身结构随着规模的递增而变得难以探求,需要不断地对真实网络的社区结构进行探究例如,如何更好的探索时间度更低更有效率的算法,层出不穷的应用研究有待更好的展开。
{title}
2. 研究的基本内容与方案
{title}1研究总体内容、目标:
a. 复杂网络的学习