更全的杂志信息网

基于有偏向的重启随机游走链路预测算法

更新时间:2016-07-05

0 引言

近年来,随着复杂网络在各领域的渗透,许多相关工作对复杂网络的拓扑结构、网络演化进行研究,以期能全面理解复杂网络的本质特征[1]。其中链路预测作为研究网络演化的一个分支,受到越来越多学者的关注。链路预测是根据静态或动态的网络数据来预测网络中两个不相连的节点之间产生连边的可能性,并观察给定的方法对新链路出现的预测效果。链路预测方法在大多数领域中都有相关应用,如生物系统中,探索蛋白质之间的相互作用[2];在线社交网络中,推荐可能认识的朋友[3];航空网络中,推断影响网络演化的重要因素[4]等。

当前,基于网络结构相似性的链路预测因其方法简单且实际操作性强而引起大量研究。利用节点间相似性的方法假设:在网络中,根据节点之间的拓扑特征,两个节点之间的相似性越大,它们之间存在连边的可能性就越大[5]。而且主要依赖于网络结构,像节点的度、聚集系数[6]、节点之间的路径[7]、社团结构[8]等。根据所用结构信息的不同,基于网络结构的相似性预测算法可以分为如下三类:基于局部信息的相似性指标、基于路径的相似性指标、基于随机游走过程的相似性指标。基于局部信息的相似性指标是指只通过节点局部信息,像节点的度、最近邻居,计算得到的相似性指标。这类指标的优势在于计算复杂度低,适用大规模的网络。基于路径的相似性指标是利用要预测的两个节点之间的路径信息,像节点之间路径数量,路径中间节点的信息,计算得到的相似性指标。这类指标既有基于全局信息的路径指标,也有基于局部信息的路径指标,当考虑多阶路径信息的贡献时,计算复杂度相对较高。基于随机游走的相似性指标是基于随机游走过程定义的,包括平均通勤时间指标(ACT)[9]、有重启的随机游走指标(RWR)[10]、SimRank指标(SimR)[11]等。这类指标大多数是基于全局信息的指标,且这些指标不仅仅在链路预测中应用,在推荐系统[12]、排名[13]、社团划分[14]等也有应用。

随机游走作为研究网络结构和特性的一种方法,在基于网络结构的相似性方法中得到广泛关注。网络中的随机游走是指粒子从初始节点出发,以一定的概率随机游走到它的邻居节点,然后再以一定的概率随机游走到邻居节点的邻居节点,这样一直游走下去,直到达到平稳状态。基于随机游走的特性,Li Rong-Hua等人[15]认为在真实网络中,网络中的节点不仅倾向于连接度小的节点,而且也倾向于连接中心节点,提出一种最大熵随机游走的链路预测算法,其中最大熵随机游走包括了网络节点的中心性。刘思等人[16]考虑到网络结构上不同邻居节点间的相似性对转移概率的作用,利用网络表示学习算法的DeepWalk学习网络节点的潜在结构特征,提出一种基于网络表示学习与随机游走的链路预测算法。Jin Woojeong等人[17]发现有重启的随机游走对所有节点使用相同的重启概率,限制了随机游走的表现性,且重启概率需要人为选择,于是提出一种有监督和拓展重新启动的随机游走用于排序和链路预测,使得每个节点都对应一个重启概率。

在大多数的随机游走过程中,粒子由当前节点游走到下个节点的转移概率都是相等的。但由网络的度度相关性[18]可以看出,节点之间的连接不是随机产生的,粒子在游走过程中会受到节点度值的影响。且现实网络结构复杂多样,粒子在游走过程中不一定是等概率的移动,而是会以某种偏向进行游走。基于上述问题,本文提出一种有偏向的重启随机游走方法用于链路预测,使粒子在游走的过程中偏向于移动到与初始节点相似的节点上,进而提高预测精度。本文主要工作如下:第一部分介绍链路预测的基本概念、经典指标及评价指标;第二部分定义一种新的链路预测算法,即有偏向的重启随机游走算法;第三部分介绍数据集及相关参数,然后进行实验,并对结果进行分析;第四部分总结全文及进一步工作。

1 基本概念

1.1 问题描述

定义G=(V,E)为一个无权无向的连通网络,其中V=(v1,v2,…,vN)为网络的节点集,节点总数为|V|=NE=(e1,e2,…,eM)为网络的连边集,连边总数为|E|=M。网络中自连边和重连边是不允许的。连通的网络G可以用邻接矩阵A来表示,A是一个非零对称的N×N的矩阵,其中节点i和节点j之间有连边则aij=1,否则aij=0。Γ(i)表示节点i的邻居节点集合,ki为节点i的度值,即对于网路G中每一对未连边的节点vivj,通过给定的预测方法计算出相似分数值Sij,将所有未连边的节点对按照相似分数值从高到低排列,分数越高表示两节点越有可能连边。

图1为一个简单的无权无向网络。根据上面的描述,可以看出网络的节点集为V=(v1,v2,v3,v4,v5,v6),连边集为E=(e1,e2,e3,e4,e5,e6,e7)。若网络用邻接矩阵A表示,则为

图1 一个简单无权无向网络示例

Fig.1 A simple network example of unweight and undirection

且各节点的度值为k1=k2=k3=3,k4=k6=2,k5=1。那么链路预测就是根据目前网络的连边信息,运用给定的预测方法计算出网络中尚未产生连边的节点对v1v4v1v6v2v5v2v6v3v4等产生连边的可能性。

以某烟厂为例,其空压站房年耗电量1020万kWh,约为36 720 000MJ。空压机产热量为:36720000MJ×0.85=31212000MJ。空压机全年可回收热量为:3121200MJ×0.95=2965140MJ。以进水温度20℃,出水温度50℃为例,空压机一年可产热水235 000 t热水。

1.2 典型的链路预测算法

基于相似性的链路预测算法是根据网络的拓扑结构所定义,且常被作为基准算法与所提出的新算法作对比。基于相似性的指标一般可以分为基于局部信息和全局信息两类。其中基于局部信息的预测算法有共同邻居指标(CN指标)、Salton指标、Jaccard指标、大度节点有利指标(HPI指标)、大度节点不利指标(HDI指标)、Adamic-Adar指标(AA指标)、资源分配指标(RA指标)等等。基于全局信息的预测算法,一般考虑网络的所有路径或者节点之间的所有结构,其中包括Katz指标、LHN-II指标、平均通勤时间(ACT指标)、余弦相似性(Cos+指标)、有重启的随机游走(RWR指标)、SimRank指标等等[5]。从上述类别中,分别选取以下6种经典的链路预测算法作为基准算法。

8) Return S

共同邻居指标是最基础的相似性指标,对于未连边的两个节点xy的相似性定义为它们共同邻居节点的个数。用式(1)表示为

目前,Python 不仅具有功能强大的标准库,支持Python 的第三方库已达数以万计,丰富的第三方库则是Python 不断发展的保证。在Python 环境下,引入第三方面库jieba 和WordCloud 等可以方便时对文本进行分词和制作词云。

Sxy=|Γ(x)∩Γ(y)|

(1)

其中,Γ(x)为节点x的邻居节点集合,显然,这里的Sxy就等于两节点之间长度为2的路径数目。

2)资源分配(RA)

㉕爱新觉罗·弘历:《寄畅园杂咏》,裴大中、倪咸生修,秦缃业等纂:《光绪无锡金匮县志》,《中国地方志集成·江苏府县志辑》第24册,第27页。

资源分配指标考虑网络中没有直接相连的两个节点xy,从节点x可以传递一些资源到节点y,在这个过程中,它们的共同邻居成为传递的媒介,且每个媒介都将资源平均分配传给它的邻居,则节点xy的相似度定义为

(2)

6) End While;

3)Katz指标

Katz指标考虑了网络的所有路径,其定义为

(3)

将定义1中每个节点的度偏向转移概率用于有重启随机游走中,改变节点之间的等概率转移矩阵,进而得到有偏向的重启随机游走指标(Biased random walk with restart,简称BRWR指标)。某一粒子初始时刻在节点x处,则t+1时刻该粒子到达网络各个节点的概率向量为

4)平均通勤时间(ACT)

定义平均首达时间m(x,y)为一个随机游走粒子从节点x到节点y平均需要走的步数,那么节点x和节点y的平均通勤时间定义为n(x,y)=m(x,y)+m(y,x),其数值解可通过求该网络拉普拉斯矩阵L的伪逆L+获得,即则基于ACT的相似性为

(4)

其中,表示矩阵L+中第x行第y列的位置所对应的元素,两个节点的平均通勤时间越小,那么两个节点越接近。

根据数控插补技术原理,插补的任务就是求出一个查补周期TS内,刀具沿加工轨迹曲线起点和终点进行数据插值,使轮廓清晰完整。三次B样条曲线的各坐标变量可由参数u获得,因此,设定每个周期TS内,有相等参数微小增量Δu,并由公式计算得到插补位置。具体可以通过以下步骤如下:(1)维持Δu的恒速,计算出每个插补周期内的进给量。(2)通过合理的选择Δu,来保证插补精度和实际进给率的加工需求。

5)有重启的随机游走(RWR)

今年入秋后,有的地区羊肉价格甚至已经上涨到65元/公斤左右,而2015年初羊肉价格最低时只有每公斤40元。安徽百大周谷堆农产品市场分析师王萍介绍说,近期羊肉价格涨幅明显。

(3)事先进行二衬混凝土作业。本工程施工区域地质条件普遍较差,基于提升施工安全性的目的,在开挖时应兼并进行永久混凝土衬砌施工,工程对二衬混凝土施工提出了较高的要求,其施工区域距掌子面应保持在100m的间距,并使用钢模台车进行施工,但应为下部施工区域腾出充足的空间,以便车辆的顺利通行。

πx(t+1)=c·PTπx(t)+(1-c)qx

(5)

其中,qx为初始状态,它是一个N维列向量且仅有第x个元素为1,其他元素都为0。式(5)的稳态解为πx=(1-c)(I-cPT)-1qx,其中元素πxy为从节点x出发的粒子最终有多少概率达到节点y,则RWR相似性定义为

Sxy=πxy+πyx

(6)

6)SimRank指标(SimR)

碳钢热浸镀样品截面金相照片(图1)显示:镀层组织大体由两层组成,表面层为铝或铝合金层,界面过渡层为铁铝化合物层[4]。镀层与钢基体之间形成了冶金结合铝合金层,界面过渡层为铁铝化合物层。镀层与钢基体之间形成了冶金结合[5]。从图2,钢浸镀铝5 min的能谱分析中可知,浸镀5 min后在钢和铝的基体中,都检测到铁铝化合物,扫描照片中也可清晰见到铁铝化合物过渡层,表明界面形成冶金结合,与金相照片相符。

SimRank指标的基本假设是如果两节点所连接的节点相似,那么这两个节点就相似。用式(7)表示为

假设随机游走粒子在每走一步时都以一定概率返回初始位置。设粒子返回概率为1-cP为网络的马尔科夫概率转移矩阵,其元素为Pxy=1/kx表示节点x处的粒子下一步走到相邻节点y的概率。某一粒子初始时刻在节点x处,则t+1时刻该粒子到达网络各个节点的概率向量为

(7)

其中,假定Sxx=1,C∈[0,1]为相似性传递时的衰减参数。

1.3 评价指标

为了测试算法的准确性,一般将已知的连边E分为两部分:训练集ET和测试集EP。训练集ET作为实验时可观察到的网络信息,用于计算节点的相似性得分。测试集EP作为实验时要预测的网络信息,用于对比实验预测的结果。这里,E=ETEP,且ETEP=Ø,令UN(N-1)/2个节点对组成的全集,那么将属于U但不属于E的边称为不存在的边,属于U但不属于ET的边为未知边。

文中使用链路预测中评价准确性认可度高的指标——AUC指标。AUC指标是从整体上衡量指标的精确度,它是指在测试集中随机选择一条边的分数值比随机选择的一条不存在的边的分数值高的概率[19]。实验时,每次随机从测试集中选取一条边,再从不存在的边中随机选择一条,如果测试集中的边分数值大于不存在的边的分数值,那么就加1分,如果两个分数值相等就加0.5分。这样独立比较n次,如果有n′次测试集中的边分数值大于不存在的边分数,有n″次两分数值相等,那么AUC指标的定义为

(8)

显然,如果所有分数都是随机产生的,AUC=0.5。

2 基于有偏向的重启随机游走链路预测

定义2 有偏向的重启随机游走指标

2.1 有偏向的重启随机游走

有偏向随机游走是指随机游走粒子由当前节点x以偏向转移概率wxy游走到其邻居节点y,然后再从节点y以偏向转移概率wyz游走到节点y的其中一个邻居节点z,重复这个过程,直至到达平稳状态。重启随机游走是指粒子在每一步游走的时候都以概率α移动到下一个节点,或者以概率1-α跳回初始节点,这个过程类似于网页排序算法PageRank。有偏向的重启随机游走是将这两个过程进行融合,即当游走粒子从网络中的某一个节点出发,每一步面临两个选择,以概率α移动到相邻节点,或以概率1-α返回初始节点。当以概率α移动到相邻节点的时候,此时会以偏向概率w选择其中一个邻居节点作为下一步移动到的节点,然后重复以上过程,直至达到平稳状态。有偏向的重启随机游走既避免了有偏向随机游走在未达到平稳状态时游走粒子发生终止现象,即游走粒子进入死角,又解决了有重启的随机游走过程中节点之间等概率转移的问题。

2.删——删去重复作业,变多练为精炼。课堂40分钟,既要进行新课的教学,又要完成课堂作业,时间很紧,这就要求课堂作业“少”而“精”。删去书本与作业本中同类型的题型,选择具有针对性、典型性的,能举一反三、触类旁通的题目,力求小题量获得最好的训练效果。

定义1 度偏向转移概率

加强电力工程输电线路施工管理有利于施工中各环节和各部门的主动配合和积极协作,要在制度上和管理上确保施工的协调有序进行,在实质上缩短电力工程输电线路施工的期限,提高电力工程输电线路建设的工作效率。

根据马尔科夫链过程[21]可知,下一时刻节点的游走只与当前节点的状态有关。基于度有偏向随机游走过程中,当前节点移动到下一节点时,与当前节点的邻居节点度值成比例,即kβ,其中β是度偏向调节参数,从β值的大小可以看出游走粒子在网络中是偏向于度大的节点游走还是度小的节点游走以及偏向的程度。

网络中基于度有偏向随机游走的转移概率定义[20]

(9)

其中,wxy为从节点x转移到节点y的概率,用于对的归一化;β为度偏向调节参数,当β>0时游走粒子偏向于游走到度值大的节点,当β<0时游走粒子偏向于游走到度值小的节点,当β=0时,是无偏向随机游走。

Tel:86-451-86298321 E-mail:bingbingsong2008@126.com

借鉴相关的有偏向随机游走过程[20],改变粒子在节点之间的转移概率,使其在游走过程中具有一定的度偏向性,再利用有重启的随机游走过程,对网络中未连边的节点对进行相似性计算,找到每个网络最佳的度偏向调节系数值,以达到提高预测精度的目的。

其中,α>0为控制路径权重的可调参数,表示连接节点xy的路径中长度为l的路径数,A为网络的邻接矩阵。

πx(t+1)=α·WTπx(t)+(1-α)qx

(10)

其中,W为式(9)的度偏向转移概率矩阵,1-α为重启概率,qx表示初始状态,它是一个N维列向量且仅有第x个元素为1,其他元素都为0。当t→∞时,由马尔科夫链的平稳状态[21]可知即使再经过一步状态转移,其状态概率仍保持不变,即Π=WTΠ,因此得到式(10)稳态解为

πx=(1-α)(I-αWT)-1qx

(11)

那么BRWR相似性指标为

(12)

其中,元素πxy为从节点x出发的粒子最终有多少概率达到节点y

2.2 算法流程

本算法首先通过设定β的一个取值范围,将范围内各个不同的β值代入算法中,经过循环计算,观察β取值对预测结果的影响(具体情况参见3.2),找到最佳度偏向调节参数βopt,再将βopt值代入BRWR算法中,得到节点之间的相似性得分。在最佳的βopt值下,BRWR算法主要流程如下:

算法 BRWR

输入 网络的邻接矩阵A=[aij],重启概率1-α,最佳度偏向调节参数βopt

输出 节点的相似性得分矩阵S=[sij]。

1)初始化偏向转移矩阵W←0N×N,节点相似性得分矩阵SIN×N

2)利用式(9)计算网络中各节点间的偏向转移概率并更新归一化的偏向转移矩阵W

3) For i = 1 to N do

4) While S不收敛do

5) πx=(1-α)(I-αWT)-1qx; //计算节点x与其余各节点的相似性值

其中,kz为节点z的度值。

7) End for;

为助力中国制造接轨工业4.0,浩亭于2018年10月22日~24日联合德国电气电子行业协会(ZVEI)与佛山机器人学院、佛山中德工业服务区和互联网博览会等合作伙伴共同组织了参观访问团,并邀请了中日行业媒体代表及德国和亚洲的客户参观其珠海工厂,以加强交流与合作探讨。在井然有序的车间,可以看到,浩亭以精益制造的看板管理系统强化对品质的过程监控,还有实施反馈的监测系统和全面细致的检测系统也同样在无时不刻地为浩亭输出高品质产品做出坚定的技术保障。

1)共同邻居(CN)

2.3 算法收敛性

定理1 BRWR算法是收敛的。

证明:1)因为矩阵W中元素wxy满足并且0<α<1,所以矩阵W是随机矩阵[21]。根据随机矩阵性质可知,转移矩阵W是不可约的。

耻是一种情感体验,是人与生俱来的,正如孟子说的:“羞恶之心,人皆有之。”耻感,即感到自己可耻,是一种指向自我的痛苦、难堪、耻辱的体验,亦是因善在心中而对恶的恐惧。耻感产生于人对自我本性的完美追求和人在现实中自身德性的残缺之间的冲突与斗争。耻的本性在于人对自我品性偏离正道的认识,在于人对自我的升华。因此,《孟子·告子上》中说:“羞恶之心,义也。”《中庸》中说:“义者,宜也。”这也就是说人有了耻心,其行为才能恰到好处,才能不去做不该做的事情。保持耻感就是守护心灵,人只有知耻才能使灵魂安宁,使人格完善,才能获得幸福的生活。

2)当随机游走过程遍历到某一节点后,因为随机游走过程中存在重启概率,所以再次遍历到这个节点时,所需的步数是不确定的,故整个随机游走过程是非周期的。

按照公司“转方式、调结构”的总体要求,2018年依托“四个基地”建设为重点,调整种植业结构,形成以水田为主,西瓜、甜菜、大棚二次利用等特高效作物合理种植的设施农业生产格局。加大特色养殖力度,确定了“短、平、快”特色养殖思路,大力发展规模养殖业,通过典型示范作用进一步提升职工养殖积极性,全场大鹅年出栏突破20万只,肉羊出栏突破3万只,水产养殖5万斤。同时继续围绕与地方共建工业园区为抓手,辽金源日用陶瓷企业重点研究应用新工艺、新技术、新材料,开发新产品,主推日用陶瓷、工艺美术陶瓷、家居摆件和陶瓷伴手礼等产品,着力建设东北地区规模最大的日用工艺陶瓷生产基地和创意研发交流中心。

3)当图中任意一个节点被遍历后,都可能在一定步数内再次遍历这个节点,且再次遍历之前经过的步数是不完全相同的。

由以上3点,可得出BRWR算法是各态历经的[22],故此算法是收敛的。

2.4 复杂度分析

定理2 BRWR算法的时间复杂度为O(N3)。

证明:因为在t→∞时,BRWR算法会达到稳态,此时借助稳态解πx=(1-α)(I-αWT)-1qx,可以看出要求出矩阵I-αWT的逆,那么一般求一个N×N矩阵的逆或伪逆的时间复杂度为O(N3)[23],故此算法的时间复杂度为O(N3)。

3 实验结果与分析

本文将实验分为两大部分,一是利用AUC评价指标,观察β值的变化对预测结果的影响,进而确定最佳βopt的值;二是在最佳βopt值下,BRWR指标与6个经典链路预测指标作对比,观察BRWR指标的预测效果。实验借助Matlab 2014作为实验工具,平均进行30次独立实验,实验时随机划分训练集和测试集,其中训练集所占比例为90%。

3.1 数据集及相关参数

为了测试提出算法的有效性,采用6个具有代表性的真实网络数据集[24],忽略网络连边的权重与方向,数据集包括:美国航空网络(USAir)、爵士乐手网络(Jazz)、线虫新陈代谢网络(Metabolic)、佛罗里达生态系统食物链网络(FWFW)、线虫神经网络(C.elegans)、美国政治博客网络(P-Blogs)。数据集的网络结构特征如表1,其中N为节点数,M为连边数,〈K〉为平均度,〈C〉为平均聚集系数,R为匹配系数。

表1 各数据集的网络结构特征

Tab.1 The structure features of each dataset

网络NM〈K〉〈C〉RUSAir3322 12612.8070.749-0.208Jazz1982 74227.1000.7490.02Metabolic4532 0258.9400.647-0.226FWFW1282 07532.4220.335-0.112C.elegans2972 14814.4650.308-0.163P-Blogs1 2221 902127.3550.320-0.221

3.2 不同β值下BRWR指标的AUC值变化

针对6个实际网络数据,首先分析了不同网络中度偏向调节参数β对BRWR指标预测结果的影响,这里固定α=0.85,β步长取0.01,测试集与训练集的比例为1:9。图2显示了不同β值下所有网络的AUC值变化曲线。相比β=0(即无偏向随机游走),指标都有不同程度地提高其预测精度,且在合适的参数下均可以取得最大预测精度,说明基于度有偏向的随机游走过程对链路预测有影响。在取得最大精度值后AUC值变化曲线都会呈现不同程度的下降,其中USAir、Jazz、Metabolic、C.elegans网络在取得最大精度值后曲线下降较快,在一定程度上说明粒子在这些网络中游走时,偏向游走到度大节点的程度越大,预测的准确度越低。

图2 不同β值下BRWR指标的预测结果

Fig. 2 The prediction result of BRWR index on six real networks with different values of β

BRWR指标的AUC最大值均高于β=0时的预测值,这表明有偏向性的随机游走确实能够提高链路预测的预测精度。同样,相比β=1时,即类似于优先连接[25],最大的AUC值也明显更高,侧面表达出粒子在这些网路中不偏向于游走到度大的节点。而且在这6个网络中,从每个网络的最优β值可以看出,β值在(-1,0)之间,表明粒子偏向于游走到度小的节点,正如Adamic-Adar指标[26]的思想,度小的共同邻居节点的贡献大于度大的共同邻居节点。这里β<0也相当于对网络中度大节点进行惩罚。实际应用中可在一定范围内调节β值,可以提高预测精度。

3.3 与其他典型相似性指标对比

为了进一步说明有偏向随机游走过程的可行性及BRWR指标的有效性,以下将与经典的相似性指标进行对比性分析,各个相似性指标的AUC结果对比如表2所示。可以看出,6个实际网络中,相比CN、RA、Katz、ACT、SimR、RWR指标,BRWR指标对预测精度都有一定程度的提高。CN、RA指标属于局部相似性指标,由于RA指标在共同邻居节点的基础上为每个节点赋予一个权重值,所以在局部相似性指标中RA指标的预测精确相对好。Katz、ACT、SimR、RWR指标属于全局指标,其中Katz指标是考虑节点之间的所有路径,ACT、SimR、RWR指标都是基于随机游走过程,且RWR指标在这些全局指标中表现最好。若以RWR指标为基准,由表2观察到BRWR指标相较RWR指标,其预测精确度平均提升了2.24%,且C.elegans网络的AUC值提高了3.97%。由定理2可知BRWR指标的时间复杂度为O(N3),和RWR指标的时间复杂度一样,那么在时间复杂度相同的情况下,可以看出BRWR指标的预测准确度比RWR指标更好,说明有偏向性的重启随机游走对链路预测是有效和可行的。

表2 不同指标下AUC值对比

Tab. 2 Comparison of AUC for different indices

网络CNRAKatzACTSimRRWRBRWRUSAir0.951 20.971 70.950 20.902 20.797 60.961 60.985 0Jazz0.958 40.970 60.942 90.792 80.896 50.936 20.960 5Metabolic0.919 80.959 80.926 70.835 60.813 40.953 40.965 0FWFW0.620 10.609 60.674 60.724 30.415 40.748 20.770 0C.elegans0.848 90.871 90.855 60.741 00.766 50.880 20.920 0P-Blogs0.921 90.923 80.933 00.892 70.896 50.943 20.957 0

4 结论

本文在有重启的随机游走算法的基础上,考虑了网络节点度值对转移概率的影响,提出一种基于有偏向的重启随机游走链路预测算法。首先利用有偏向性的随机游走过程得到节点之间的度偏向转移概率,然后将度偏向转移概率融合到有重启的随机游走过程中,最后通过对AUC值的多次计算找到最佳的度偏向调节参数,从而得到最优的AUC值。实验结果表明,有偏向性的游走能够提高连边的预测精度,且相比其他经典算法,有偏向的重启随机游走链路预测算法的预测效果更加准确。在下一步的研究中,可以尝试一种同时调节度偏向调节参数和重启概率的随机游走在链路预测问题上的应用,在各个网络中找出最佳的度偏向调节参数和重启概率,使预测精度有进一步的提升。且链路预测中对网络随机游走过程有影响的因素不止节点度值,那么在能提高预测精度的前提下,可进一步探究出还有哪些因素影响随机游走过程。

参考文献:

[1]Costa L F, Rodrigues F A, Travieso G, et al. Characterization of complex networks: a survey of measurements[J]. Advnces in Physics. 2007,56(1):167-242.

[2]Cannistraci C V, Alanis-Lobato G, Ravasi T. From link-prediction in brain connectomes and protein interactomes to the local-community-paradigm in complex networks[J]. Sci Rep, 2013, 3(4):1613.

[3]Ma C, Zhou T, Zhang H F. Playing the role of weak clique property in link prediction:a friend recommendation model[J]. Sci Rep, 2016, 6:30098.

[4]刘宏鲲, 吕琳媛, 周涛. 利用链路预测推断网络演化机制[J]. 中国科学:物理学, 力学, 天文学, 2011, 41(7):816-823.

Liu Hongkun, Lü Linyuan, Zhou Tao. Uncovering the network evolution mechanism by link prediction [J]. Sci Sin Phys Mech Astron, 2011, 41: 816-823.

[5]Lü L Y, Zhou T. Link Prediction in complex networks:a survey[J]. Physica A:Statistical Mechanics and Its Applications, 2011, 390(6):1150-1170.

[6]Wu Z, Lin Y, Wang J, et al. Link prediction with node clustering coefficient[J]. Physica A Statistical Mechanics & Its Applications, 2016, 452:1-8.

[7]Yang Y, Zhang J, Zhu X, et al. Link prediction via significant influence[J]. Physica A Statistical Mechanics & Its Applications, 2018, 492:1523-1530.

[8]Peng Z, Wang F, Xiang W, et al. The reconstruction of complex networks with community structure[J]. Sci Rep, 2015, 5:17287.

[9]Klein D J,Randic M.Resistance distance[J].Journal of Mathematical Chemistry,1993,12(1):81-95.

[10]Brin S,Page L.The anatomy of a large-scale hypertextual web search engine[J].Computer network and ISDN Systems,1998,30(1):107-117.

[11]Jeh G, Widom J. SimRank: a measure of structural-context similarity[C]∥Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA:ACM, 2002:538-543.

[12]Park H, Jung J, Kang U. A comparative study of matrix factorization and random walk with restart in recommender systems [C]∥IEEE, International Conference on Big Data. Boston, USA: IEEE, 2017:756-765.

[13]Jung J, Jin W, Sael L, et al. Personalized ranking in signed networks using signed random walk with restart[C]∥IEEE, International Conference on Data Mining. Barcelona, Spain: IEEE, 2017:973-978.

[14]Zhu Z A, Lattanzi S, Mirrokni V. A local algorithm for finding well-connected clusters[J].ICML, 2013:396-404.

[15]Li R H, Yu J X, Liu J. Link prediction: the power of maximal entropy random walk[C]∥ACM International Conference on Information and Knowledge Management. Glasgow, United Kingdom: ACM, 2011:1147-1156.

[16]刘思, 刘海, 陈启买, 等. 基于网络表示学习与随机游走的链路预测算法[J]. 计算机应用, 2017, 37(8):2234-2239.

Liu Si, Liu Hai, Chen Qimai, et al. Link prediction algorithm based on network representation learning and random walk[J]. Journal of Computer Applications, 2017, 37(8):2234-2239.

[17]Jin W, Jung J, Kang U. Supervised and extended restart in random walks for ranking and link prediction in networks[DB/OL]. [2018-08-03]. https://arxiv.org/pdf/1710.06609v1.pdf.

[18]Vázquez A, Moreno Y. Resilience to damage of graphs with degree correlations[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2003, 67(1):015101.

[19]Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8):861-874.

[20]Fronczak A, Fronczak P. Biased random walks in complex networks: the role of local navigation rules[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics, 2009, 80(1):016107.

[21]徐全智. 随机过程及应用[M]. 北京:高等教育出版社, 2013.

[22]郑伟, 王朝坤, 刘璋, 等. 一种基于随机游走模型的多标签分类算法[J]. 计算机学报, 2010, 33(8):1418-1426.

Zheng Wei, Wang Chaokun, Liu Zhang, et al. A multi-label classification algorithm based on random walk model[J]. Chinese Journal of Computers, 2010, 33(8):1418-1426.

[23]Liu W, Lu L. Link prediction based on local random walk[J]. Physics, 2010, 89(5):58007-58012.

[24]Network data[EB/OL]. [2018-08-03].http://www-personal.umich.edu/~mejn/netdata.

[25]Barabási A L, Alber R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439):509-512.

[26]Adamic L A, Adar E. Friends and neighbors on the web[J]. Social Networks, 2003, 25(3):211-230.

吕亚楠,韩华,贾承丰,瞿倩倩
《复杂系统与复杂性科学》2018年第04期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号