基于机器学习的网络节点影响力分析与设计文献综述

2020-04-14 21:39:02

1．目的及意义

自然界和人类社会中广泛存在着复杂系统，而复杂网络是描述这些系统的重要手段。而且在现实世界中，诸多复杂系统以网络形式呈现。因此，复杂网络已经成为当今复杂系统或复杂性科学研究中最受关注和最具挑战性的科学前沿课题之一[1]。生物系统中的蛋白质相互作用网、基因调控网、病毒传播网络，科技系统中的互联网、电力系统[2]，社会系统中的社交平台[3-4]、电子邮件网、通信网、交通网等，都是典型的复杂网络。这些网络由节点和边构成，其中节点代表实体，边代表实体间的关联[5]。近年来，节点重要性排序研究受到越来越广泛的关注，不仅因为其重大的理论研究意义，更因为其广泛的实际应用价值[6]。此外，对于节点重要性的排序研究有利于设计网络，使人工的复杂网络(如电网、通讯基础设施等)能够具有更强的性能和鲁棒性。例如文献[7]中的工作就通过对节点影响力的分析优化设计有效的传播策略。

一个成熟的排序算法一般要包括如下特性[8]：中心化指标应该是对称的，即，若对网络的节点重新编号，中心化指标应该不变；无论将一个节点看成整个图的节点，还是将其看成一个连通分支的节点，所得到的中心化指标的值应该一致；孤立节点的中心化指标应该最小；在具有链式结构的网络中，节点的中心化指标应该从边缘向中心递增，即越靠近中心，节点的中心化程度应该越高；在所有的具有n个节点的连通网络中，链式结构网络的顶端节点的中心化指标应该最小，而星型结构网络的中心节点的中心化指标应该最大；移去某个节点的某条边，至少不会增加该节点的中心化指标。

在学术界对网络节点影响力分析算法的不断研究中，许多重要的方法被提出。其中最早且最基本的就是度中心性[9]，度中心性(Degree Centrality， Centrality直译为中心性，一些文献中亦称指标，下文均以中心性相称)是研究无标度网络拓扑结构的基本参数，用于描述在静态网络中节点所产生的直接影响力，其值为与该节点直接相连的节点数。文献[10]对度分布指数与其拓扑结构、形成原因及传播动力学之间的关系进行了系统的研究。在度分布指数的基础上，紧密度中心性(Closeness Centrality，又称接近中心性) [11]、特征向量中心性(eigenvector centrality) [9]、介数中心性(Betweenness Centrality)、k-壳分解法(k-shell decomposition) [12]、半局部中心性[13]、流介数中心性(flow betweennesscentrality) [14]、累计提名(cumulative nomination)算法[15]、节点收缩法[16]、H-度中心性[17]等。其中最值得说明的是，H-度中心性是一种含权的排序方法，它考虑了网络中每个链接性质和能力的不同。类似的研究见于[18]。详细的总结可见于2014年的文献[19]。但是这些指标各有优缺点，很多指标在一些方面的性能很好，但却不可避免的牺牲了一些其他方面的性能。为解决此问题，研究者基于多属性决策原理提出了多属性模型[20]，类似的研究还可见于[21-22]。文献[23]将半局部中心性扩展到加权复杂网络，文献[24]在k-壳分解法的基础上提出了核心中心性，文献[25]进一步提出了一种基于k-壳分解法迭代因子的评估方法，文献[26]在各种中心性方法的基础上研究了节点的扩散能力，文献[27]基于Dempster-Shafer理论提出了新的中和指标方法，文献[28]将识别最有影响力节点的问题映射到随机网络中的最佳渗透。很多网络具有社团结构，传统的排序算法在社区结构下有一定的局限性[29]，因此在这个视角下的节点影响力也具有研究价值，相关文献见于[30-31]。

近年，机器学习(Machine Learning)开始用于复杂网络的节点分析，但相关工作仍然非常少。一个例子是在[32]中，作者提出了node2vec算法框架以学习网络中节点的连续特征表示，而在[33]中，作者通过Net-Net自动机器学习来实现计算预测，以克服大规模复杂网络难以确认所有节点和链接的问题。

机器学习是近年的研究热点[34]。由于该领域的繁荣，我们很难在较短的篇幅中概括机器学习各个发展方向。针对复杂网络节点影响力分析与设计，机器学习有望提供一个较之传统方法更准确且更具有普适性的方法。图形神经网络(GNN)近年来越来越受欢迎[35]，是一个很有潜力的方向。自动机器学习(AutoML)[36-37]旨在将机器学习中的重要步骤自动化，如功能，建模，优化和评估。多标签学习是一个重要的发展方向[38]。一些研究人员[39]通过寻找帕累托最优解的目的，将多任务学习作为多目标优化。

此外，在本篇开题报告中，我认为值得花费专门的一章篇幅简要总结一下这种正处于爆发期的机器学习方法--深度学习(Deep Learning)。近年来，深度学习取得了巨大的成功。作为机器学习的一个引人注目的研究点，深度学习逐渐成为数字信号处理的重要技术，主要可以分为多层感知器( multilayer perception， MLP)[40], 卷积神经网络( convolutional neural network， CNN)[41], 循环神经网络( recurrent neural networks，RNN)[42]。有关深度学习及其近期历史的介绍，请参阅[43]。最新的发展还包括长短时记忆网络( long short-term memory，LSTM)，生成式对抗神经网络(GenerativeAdversarial Networks， GANs) [44]。在基础深度学习领域，批量标准化（BatchNorm）作为一种广泛采用的技术引起了极大的关注[45]，这种技术可以实现更快，更稳定的训练。 CNN近年来取得了巨大的成功，特别是在计算机视觉领域，但研究人员仍在推进研究前沿，在 [46] 中的工作提出了加权信道丢失（WCD）以降低CNN的计算成本。 [47] 提出了DIFFPOOL，可以以端到端的方式与各种GNN架构相结合。值得注意的进展还包括周志华等人提出的深度深林[48]。

总的来说，复杂网络节点影响力的研究在复杂性科学中占有重要地位，它是人类理解网络、对网络进行建模和设计的重要突破口。只要知道何种排序算法更为科学、精准，就可以基于此设计性能更强的复杂网络，例如更稳定的电力系统。近年来，由于计算机硬件的发展，机器学习的性能提升很快，机器学习算法也获得了很大的发展。在交叉学科领域，机器学习的应用几乎可以说取得了举世瞩目的成果，很多科学家使用机器学习研究化学、DNA、物理系统，取得了很好的结果。因此，本开题报告提出了这项研究，基于机器学习方法探索更优的复杂网络节点影响力模型，在第二部分中，我将给出基本的研究内容和方案，之后罗列了一个简单的时间表，文末附有本文所涉及的所有参考文献。

{title}

2. 研究的基本内容与方案

{title}

2.1.研究的基本内容：

1).复杂网络节点影响力分析

复杂网络节点影响力分析是通过选取合适的中心性指标，或其他方法，判断节点对整个网络的影响力。复杂网络虽然结构复杂，但前人已经在这个领域提出了很多认识复杂网络的方法，使我们现在的研究变得有章可循。主要需要解决的问题包括但不限于：对于含权网络如何进行分析？网络连接的权重应该如何分配？对于特别大的复杂网络，甚至无法观测整个网络结构的复杂网络，如何进行分析？如何让算法能够适应社区结构？

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码