社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

                                                       基于信息熵和局部相关性的多标签传播重叠社区发现算法

摘要:是一种对COPRA算法进一步改善的算法。本文提出一种基于信息熵和局部相关性的多标签传播重叠社区发现算法。该算法在标签传播阶段,采用异步更新策略,利用信息熵产生更新序列指导标签更新,解决社区划分结果不稳定问题。同时在标签选择阶段,根据节点与自我网络中其他节点的相关程度选择标签,提高所发现社区的质量。

 

引言

COPRA算法能够适应当前大规模社会网络的社区发现工作[2],但是由于标签传播算法的随机性,导致多次运行结果会有较大程度的差异,且社区划分质量不高,甚至出现错误的社区划分。因此,本文针对现有基于标签传播思想的重叠社区发现算法存在的问题进行改进,提高社区划分精度和生成社区的质量。

 

基于信息熵和局部相关性的多标签传播重叠社区发现算法(COPRA-EP

 

2.1  COPRA-EP的算法描述

社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

 

社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

 

2.2  COPRA-EP的预备知识及定义

(1)   即为式(1)

                                社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法        

其中,L{v,N(v)}表示节点v及其邻居节点拥有的标签集合;N(v)表示节点v的邻居节点;p(l)表示标签l在集合中出现的概率

注意:节点v的熵值[3]越小,该节点越可能处于社区内部;反之亦然。本文采用社区背部节点先于社区边缘节点进行更新的策略[4]。(可以避免由于随机更新序列带来的结果不稳定性以及错误的社区划分,也加快了迭代的收敛速度)

 

(2)其中基于自我网络随机游走[5]获取节点v与其邻居节点相关性的LPR算法,其算法

描述如下:

社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

最终的PR值表示为起始节点访问其他节点的概率,即起始节点与其他节点之间的局部相关性。计算公式如下:

                                    社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

其中,PR(vu,v)表示节点vu与节点v的局部相关性;

          vu表示此次游走的起始点,v表示游走过程中停留的节点;

          D(v‘)表示节点v’的度数;

          α是继续随机游走的概率(一般取值为0.85)

(3)

                         社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

 

 

实验

3.1 在基于LFR基准的网络上

                                 社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

       表1 两种人工网络图的参数设置

 

 

结果如下:

                                                          社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

                                                                 图1 算法在LFR-5000上的NMI比较

                                                        社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

                                                                2 算法在LFR-20000上的NMI比较

 

由图1、图2可知,除了在挖掘混合参数mu值为0.2的LFR-20000的社区结构时,BMLPA算法[6]的准确度由于COPRA-EP之外,在其它数据集上,COPRE-EP算法在准确度上的表现均优于其他三个算法。

                                                           社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

                                                                图3 算法在LFR-5000上的Qov比较

                                                               社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

                                                                      图4 算法在LFR-20000上的Qov比较

 

由图3、图4可知,当mu值较低时,不同社区之间的连边就少。导致社区边缘节点和社区内部节点的标签差异被弱化,不能很好的区分他们,所以算法中用到的更新序列并不能达到理想中的效果;随着mu值得增大,COPRA-EP算法的挖掘出来的社区质量均优于其他算法。

 

3.2 在真实数据集上

                                       社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

                                                                     表2 数据集基本信息

 

                                        社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

                                                               表3 算法在真实数据集上的NMI比较

从表3中得知,在挖掘Karate和football数据集上,本文提出的COPRO-EP算法核BMLPA算法在准确性上相同,并且优于其他算法;而本文算法在挖掘Amazon的社区结构时的准确度优于其他算法。

                                         社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

                                                                 表4 算法在真实数据集上的Qov比较

 

 

从表4中,可以看出本文算法得到的社区结构模块度值较高,表现较好。

算法时间复杂度分析

              在一个具有m条边,n个节点的社会网络中,节点的平均度数记为d

              COPRA算法的时间复杂度为社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

             因此COPRA-EP各阶段时间复杂度如下:

                                  与COPRA算法相同部分:社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

                                  计算所有节点熵值:社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

                                  根据熵值产生更新序列:O(n)

                                  计算所有节点的PR值:O(nd2社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

  • 所以COPRA-EP算法总的时间复杂度约为:O(γmlogγmn)社区发现研究报告——基于信息熵和局部相关性的多标签传播重叠社区发现算法

 

 

参考文献

 

[1]张昌理,王一蕾,吴英杰,苏斌勇,王晓东. 基于信息熵和局部相关性的多标签传播重叠社区发现算法[J]. 小型微型计算机系统,2016,37(08):1645-1650. [2017-09-28].

[2] Gregory S. Finding overlapping communities in networks by label propagation[J]. New Journal of Physics,2010,12( 10) : 103018.

[3] Zhao Y,Li S,Chen X. Community detection using label propagation in entropic order[C]. Computer and Information Technology ( CIT) ,2012 IEEE 12th International Conference on,IEEE,2012: 18-24.

[4] Leung I X Y,Hui P,Lio P,et al. Towards real-time community detection in large networks[J]. Physical Review E,2009,79 ( 6) : 66-107.

[5] Haveliwala T H. Topic-sensitive pagerank[C]. Proceedings of the 11th International Conference on World Wide Web,ACM,2002: 517-526.

[6] Wu Z H,Lin Y F,Gregory S,et al. Balanced multi-label propagation for overlapping community detection in social networks[J]. Journal of Computer Science and Technology,2012,27 ( 3) : 468- 479.