更全的杂志信息网

基于交互链路的相似用户推荐算法

更新时间:2009-03-28

用户推荐功能是微博平台为用户提供的最重要的服务之一,它通过为用户推荐具有共同兴趣或可能认识的人,扩充用户的社会关系,使其接收更多感兴趣的信息。随着微博用户数量与日俱增,如何从上亿用户中准确地为某用户寻找其感兴趣的相似用户也成为急需解决的问题。

文献[1]提出了融合用户微博相似度、交互相关性、关注相似度以及粉丝相似度的相似用户发现模型,在算法中引入时间片的概念,使得微博用户相似度的计算更为合理,但该模型未考虑用户间的间接交互关系。文献[2]以社会标签系统为应用背景,提出了基于用户相似度网络的好友推荐算法,该算法较新颖地将“共同好友”引入用户相似度的计算中,但未充分利用用户的基本属性信息,也未曾考虑用户间的交互行为。文献[3]提出了基于用户属性相似性和用户交互性的关系强度评估算法,该算法将现有的两类用户推荐方案的思想进行融合,但同样未涉及用户之间的间接交互。以上方法共同的不足之处在于:(1)仅从用户所关注的人或用户的粉丝中发现相似用户,未考虑与某用户有交互但未关注该用户的人,从而难以为用户推荐更多其真正感兴趣的人;(2)只注重用户间的直接交互关系,未从交互链路的应用背景下考虑用户在链路上的间接交互关系,未能准确地衡量用户间的交互强度,从而导致推荐效果受损。

针对相似用户的发现范围过于局限,以及忽略间接交互关系所造成的推荐效果不理想的问题,本文提出了一种基于交互链路的相似用户推荐算法。该算法首先从种子用户的转发微博中提取符合要求的转发链路,将链路上出现的所有用户加入发现相似用户的候选集中。接着基于用户的4种基本属性信息计算种子用户与候选集中的用户间的基本信息相似度,以交互链路为应用背景计算种子用户与候选集中用户的交互强度。将基本信息相似度与交互强度进行融合得到最终的用户相似度,对用户相似度进行降序排序,返回排位较靠前的用户并推荐给种子用户。

1 基于用户相似度的链路推荐算法

1.1 基本概念

为方便理解本文算法,在详细介绍算法前,先定义几个相关概念。

定义1 交互链路。例如ABC就是一条交互链路。表示为:用户C发表了一条微博,用户B将该条微博转到自己的首页,接着用户AB的这条微博也进行转发,由此形成一条交互链路,亦可称转发链路。

定义2 间接交互。如定义1中的交互链路所示,用户A与用户C之间为间接交互关系,用户AB、用户BC之间为直接交互关系。

定义3 链路长度(Length)。对于交互链路ABCD,length(ABCD)=3;对于链路ABD,length(ABD)=2。由上述可知,用户A与用户D之间可能存在不同长度的交互链路。

定义4 用户基本信息。可以用一个四元组来描述:

BasicInfo(u)={Age(u),Address(u),

Sim(Address(u),Address(v))=

信息化与课堂的结合演变成了当今的“新媒体课堂”,在师生互动中,生生互动中有着传统课堂无法比拟的优势,以数学的课堂为例:

式中:Age(u)为用户的年龄,Address(u)为用户地址,TagInfo(u)为用户的个人标签,Microblog(u)为用户的微博文本。

1.2 用户基本信息相似度计算

1.3.3 基于链路的交互强度计算

BasicInfo(v)={Age(v),Address(v),

TagInfo(v),Microblog(v)}

则用户u与用户v之间的基本信息相似度Simbasic(u,v)由上述4种信息的相似度计算结果归一化后组合而成

Simbasic(u,v)=ω1Sim(Age(u),Age(v))+

ω2Sim(Address(u),Address(v))+

ω3Sim(TagInfo(u),TagInfo(v))+

ω4Sim(Microblog(u),Microblog(v))

混凝土搅拌是使集料均匀的重要手段,在本工程之中,施工人员设计拌和系统,严格遵守现场实验室的配料单,避免擅自更改配料,致使其出现不均匀问题。首先应安装搅拌机,边投料边搅拌,结合试验过程,对混凝土的搅拌程序、搅拌时间进行确定,严格按照混凝土搅拌质量参数执行。为保障工程质量,在搅拌过程中,对原材料进行称量记录,每3个小时对其进行一次检查,对搅拌计量系统进行效验,实现对混凝土搅拌的全过程控制。最后,在搅拌之后,混凝土设备进行坍落度测定,整个时间控制在30min以内[3]。

(1)

式中:ωi为各个属性相似度的权重。由层次分析法[4]计算得出ω1=0.05,ω2=0.06,ω3=0.25,ω4=0.64。用户基本信息的判别矩阵如表1所示。

 

表1 用户基本信息判别矩阵

  

基本信息年龄地址标签微博文本年龄111/71/9地址111/51/9标签7511/5微博文本9951

下面将分别讨论如何计算这4种基本属性信息的相似度。

1.2.1 年龄相似度计算

调查表明,不同年龄层次的用户由于受教育程度、职业等不同,用户的兴趣爱好也表现出较大差异。由此引申到新浪微博平台中,年龄较长者大多会关注“养生”,而中年用户通常比较关注“股市”、“经济”,年龄差距导致的兴趣爱好差异在微博平台中也有迹可循。所以,在比较用户相似度时,“年龄”这一用户属性不容忽视。本文将微博用户的年龄分为每10年一个年龄段,并对其进行编号,分段如下:0~10,10~20,20~30,30~40,40~50,50~60,60~70,70~80,依次将上述分段编号为1-8。

烟台市将全力实施国土绿化提升三年攻坚行动,推动生态环境持续改善。全市按照《国土绿化提升三年攻坚行动实施方案》,持续加大国土绿化工程实施力度,统筹抓好森林生态修复与保护、退耕还果还林、森林生态廊道建设、森林质量精准提升、城乡绿化美化五大工程。其中,实施森林生态修复与保护工程,对现有荒山、荒滩进行规模造林,通过三年努力,彻底消灭荒山、荒滩;结合全域治水三年攻坚行动,在大中型水库流域营造水源涵养林,增强水系防洪能力和景观效果;对火烧和采伐迹地以及海防林内被侵占林地实施精准造林,恢复生态功能。

O(m(n+sj-1))=O(mn)

Sim(Age(u),Age(v))=1-0.1*|un-vn|

(2)

式中:un为用户u所在段的段编号,vn为用户v所在段的段编号。

1.2.2 地址相似度计算

本文抓取到的数据中,用户的地址信息格式为“省/市”结构,地址信息的相似度计算如下

TagInfo(u),Microblog(u)}

 

(3)

1.2.3 标签相似度计算

以一条交互链路ABCD为例,虽然用户A通过中间用户BC转发了D的微博,但本文认为这属于AD之间的一次间接交互。定义用户u和用户v之间的交互强度(Interaction strength,IS)为

本文从新浪微博平台中随机选取10个用户标签中带有“机器学习”或者“云计算”标签的种子用户[10]。对任意一个种子用户,使用Scrapy爬虫工具爬取该用户的基本属性信息,包括年龄、地理位置、个性标签、微博文本、粉丝数、关注数等。其中,微博文本为用户近半年的所有微博,包括转发微博和原创微博。从种子用户的转发微博中提取出链路长度不大于4的所有转发链路,当链路长度大于4时,截断该链路,使其长度为4。保存上述所提取的链路中出现过的所有用户,对其中的每个用户重复与种子用户同样的操作。共爬取8 450个用户,平均每个种子用户的相似用户候选集包括845个用户,460 859条微博。

 

(4)

式中:T(u)为用户u的标签集合,T(v)为用户v的标签集合。

1.2.4 微博文本相似度计算

用户的历史微博信息代表了用户的历史兴趣。如果某个用户拥有一个长期兴趣,则该用户近期的微博依然能表达此兴趣。本文选取用户近6个月的微博进行微博文本的相似度计算,将用户近6个月的微博文本看作一个整体,问题则转化为文档DuDv的相似度计算。文档Du为用户u的微博文本集合,文档Dv为用户v的微博文本集合。在计算微博文本相似度之前,先进行中文分词、去停止词等文本预处理操作[6]

文档DuDv可分别表示成一个n维向量

Du={λu1,λu2,…,λun} Dv={λv1,λv2,…,λvn}

重复性:取同一批稻谷,称取6份同一样品进行提取,计算出叶黄素提取量的RSD为0.47%,表明重复性良好。

式中:n为文档DuDv中出现的单词总数

 

(5)

式中:λui是单词ti在文档Du中的词频-逆向文件频率(Term frequency-inverse document frequency,TFIDF)值,其计算方式为

 

(6)

式中:tfn个单词中第i个单词ti在文档Du中出现的频度,D为总文档数,即候选集中的用户数目,Di为包含该单词的文档数,也可表述为微博文本中包含单词ti的用户数。

TF-IDF方案是在信息检索以及文本挖掘领域中较为流行的技术[7]。TF值反映一个单词在特定文档中的重要度,而IDF值则是词语普遍重要性的度量。

3款面膜拟合水光指数提升结果其消费者使用后自我评估水光感结果见表9, 将通过该模型计算得到的拟合水光指数提升百分比与自我评估使用产品后肌肤水光感进行Pearson相关性分析结果见表10。

1.3 用户交互强度计算

微博用户之间的交互行为包括转发、评论等,本文只关注转发类的交互行为。用户u和用户v交互强度越高,则用户u和用户v的关系越亲密,或者他们具有高度一致的兴趣与话题。本文分析了种子用户近6个月的所有转发微博,从中提取出所有转发链路,基于链路计算用户之间的交互强度,从链路上的用户集合中寻找相似用户。

1.3.1 基于交互次数的交互强度计算

标签是用户对自身的特点和兴趣爱好的表征方式,微博中的每个用户都可以为自己添加个性标签。本文标签属性相似度的计算方法定义[5]如下

 

(7)

式中:Φuv为用户u和用户v之间的交互次数,包括直接交互和间接交互。N(v)为与用户v有过交互的用户集合,Num(v)为集合N(v)中的用户个数。本文认为某用户u的微博被转发的总次数受与其交互人数的影响,人数越多,则转发其微博的总次数越大,所以用Num(u)和Num(v)来调和这种影响。

1.3.2 融合共同交互的交互强度计算

1.3.1节只考虑了两两用户之间的交互次数。如图1所示,用户D与用户B有交互,用户D与用户C也有交互。

  

图1 交互链路模拟图

所以,在计算BC的交互强度时,本文将与用户BC共同有过交互的用户D也考虑进去,改进的交互强度计算公式如下

目前我国的肉牛养殖行业得到了进一步的发展,但是部分养殖人员在具体养殖中还存在饲料利用率过低的问题,进而直接影响肉牛的养殖效益。因此,在日常养殖中应科学选种、合理选择饲料、优化饲养管理模式等,以有效提升肉牛饲料利用率。

设置w ij和w jk的初始连接权值,初始连接权值是在(-1,1)区间随机选取的非零值,同时给定计算精度值ε(ε>0)。

IS′(u,v)=α1IS(u,v)+

 

(8)

式中:IS′为融合共同交互的交互强度,S为与用户uv都有过交互的用户集合,N(S)为该集合的用户数量。同样使用层次分析法[5]得出α1=0.75,α2=0.25,交互信息的层次判别矩阵如表2所示。

 

表2 交互信息层次判别矩阵

  

交互直接交互共同交互直接交互13共同交互1/31

由定义4可知用户u的基本信息表示。同理,用户v的基本信息表示为

文献[8]通过对Twitter数据进行采样分析,得到在社会网络中人与人之间的平均距离为4.12。因此,本文规定链路长度的最大值为4。经验可得,随着两用户间距离的增大,交互强度呈衰减趋势。在此引入一个衰减函数f(k),k即为链路长度。衰减函数[9]公式如下

f(k)=0.8k-1

(9)

IS(u,v)和IS′(u,v)的基础上提出基于链路的交互强度计算方法,对于路径{u1,u2,…,un}

 

(10)

1.4 基于用户相似度的链路推荐算法

融合1.2节中的用户基本信息相似度与1.3节中的用户交互强度,本节定义最终的用户相似度计算公式为

Sim(u,v)=0.5*Simbasic(u,v)+0.5*IS″(u,v)

(11)

由此得到完整的基于用户相似度的链路推荐算法,算法描述如下:

算法1 基于用户相似度的链路推荐算法

输入:微博用户u

输出:相似用户集S(u)

1:从u的所有转发链路中提取用户构成候选集R(u);

2:for v in R(u):

3: get BasicInfo(v);//获取用户v的基本信息

4: get InterInfo(v);//获取用户v的交互信息

5: calculate Simbasic(u,v);//计算基本信息相似度

6: calculate IS″(u,v);//计算交互强度

7: Sim(u,v)=0.5* Simbasic(u,v)+0.5*IS″(u,v);

8:S(u)=TopK(R(u));//获取相似度高的前k个用户

9:end;

其中,步骤5和步骤6中的计算方法分别由式(1)和式(10)给出。

1.5 算法复杂度分析

基于交互链路的相似用户推荐算法复杂度由基本信息相似度计算复杂度和交互强度计算复杂度两部分组成,主要由文档的单词总数n、候选集人数m、共同交互用户集人数s及链路长度j 4大因素决定。计算复杂度随着上述变量的增大而增大,而本文截取的链路长度j为4,并且由于共同交互用户集合s远小于文档的单词总数n,因此计算复杂度为

音乐剧《茉莉》剧本有两个独特之处。首先,在于创新。近年来我省对于海峡题材的创作尤为重视,涌现出大量背景相同、年代相近的作品。如何能另辟蹊径写出不一样的人与事?我认为《茉莉》做到了这一点。

 

两用户之间的年龄相似度计算如下

2 实验分析

2.1 实验数据

红外线成像探测法是指运用光电技术检测物体热辐射的红外线特定波段信号,将该信号转换成可供人类视觉分辨的图像和图形,在管网区域作红外扫描测量,当地下发生漏水时,漏水点与周围区域会存在温度差,红外辐射情况将不同,红外线成像探测法正是利用温度差异形成的图形图像差异来判断地下水管漏水点的。同时应该注意到地下积水等其他情况也可能导致图像成像差异,需要注意区分。

光学显微镜下评估各组样本组织,根据Spolidorio等[11]的测量方法,采用Adope Acrobat 7.0 professional 软件测量左侧上颌第一磨牙颊侧牙龈上皮的厚度、结缔组织的宽度与高度。具体测量方法:在龈沟底与游离龈顶点的中点处做牙体长轴的垂线,垂线与游离龈或附着龈上皮相交处为牙龈上皮的厚度(E),与结缔组织相交处为结缔组织的宽度1(W1);从龈沟底与牙面的交点做与W1的平行线,与结缔组织重叠处为结缔组织的宽度2(W2),然后根据以下公式计算其上皮厚度(W):W=(W1+W2)/2;以结缔组织的顶点处做W2的垂线,为结缔组织的高度(h)(图1)。

大鼠酒精依赖或戒断后对丙泊酚半数有效剂量的影响…………………………………………………… 张 莉等(9):1227

2.2 实验设置

实验硬件环境为Intel core i5、4 G内存、Windows 8操作系统,语言环境为Python 2.7。

2.3 实验算法

本实验选用的算法思想如下:

采用原位聚合法,选择正十四烷、正十六烷、正十八烷和正二十烷作为囊芯材料,分别制备相变温度在5.5℃、16.7℃、28.2℃和36.6℃的微胶囊相变材料。经过试验,选择SMA乳化剂浓度为2g/100mL,pH在4.3时制备的微胶囊颗粒粒度较好,其粒径分布如图3所示。

(1)M1:基于用户基本信息相似度的相似用户推荐算法(式(1)所示);

(2)M2:基于用户交互强度的相似用户推荐算法(式(10)所示);

(3)M3:融合用户基本信息相似度与交互强度的相似用户推荐算法(式(11)所示)。

2.4 实验评价指标

本文采用准确率(Precision)、召回率(Recall)和评价指标(S@N)[1]作为实验评价指标,Precision、Recall的定义如下

 

(12)

 

(13)

式中:推荐用户中隐藏的关注人数是指为某用户u推荐的相似用户集合{ui1,ui2,…,uin}中,原本就是用户u关注的人数。隐藏的关注总人数是指用户u的相似用户候选集中,原本就是用户u关注的人数。

对于评价指标S@N,本文做如下介绍:2.3节中的方法各有其侧重点,如果一个用户u1在几种方法所推荐的n个用户中出现的频度越高,即使用上述不同方法都能发现用户u1,可以认为,用户u1为相似用户的可能性越大。对于上述方法Methodi(1≤i≤3)得到的n个相似用户的集合为{ui1,ui2,…,uin},将3种方法得到的uij相似用户集中出现的总次数记为Count(uij),则方法Methodi的S@N计算公式如下

 

(14)

2.5 实验结果及分析

本节利用2.4节中的3个评价指标,对2.3节中的3种算法进行评估比较。图2、3中显示的每种算法的Precision、Recall以及S@N值为10次实验的平均值。

图2显示了分别使用3种算法进行用户推荐时,返回前10,15,20,25,30,35,40个用户的准确率(Precision)。由图2可见,虽然M3的准确率在用户数10-20之间呈下降趋势,但总体的准确率仍然高于M1和M2。可以看到,3种方法的准确率整体较低,这是因为新浪微博具有隐私保护机制,只对外公开用户的200个关注,本文统计出的隐藏关注者个数相比于实际值较低,从而导致3种算法用户推荐的准确率总体较低。

硬脊膜严重粘连:①部分颈椎后纵韧带骨化症并可能与硬脊膜完全融合;②胸椎黄韧带骨化症硬脊膜与黄韧带可能严重粘连甚至硬脊膜骨化,术中切除黄韧带时极易损伤硬脊膜;③重度退变性腰椎管狭窄症,硬脊膜与周围组织粘连明显,术中可以发现硬脊膜变菲薄,分离粘连带时硬脊膜易撕裂;④部分患者多次手术,椎管瘢痕形成,瘢痕与硬脊膜粘连,在进行返修手术椎管减压松解神经根及硬脊膜的过程中容易损伤或者在首次手术中对脊柱的局部解剖层次造成破坏导致其扭曲,硬膜外出现比较多的瘢痕和组织,这些组织和硬脊膜紧密粘连在一起,导致组织层次不清,容易出现硬脊膜损伤。[6]

  

图2 3种算法的准确率对比

图3显示了分别使用3种算法进行用户推荐时,返回前10,15,20,25,30,35,40个用户的召回率(Recall)。由图3所知,M3的召回率明显高于其他两种方法,且大体呈上升趋势。图4显示了分别使用3种算法进行用户推荐时,返回前10,15,20,25,30,35,40个用户的S@N值。从图4中可以看出,M3的S@N值明显大于M1和M2,且S@N值也呈上升趋势。这是因为随着推荐用户个数的增多,真正相似的用户人数也随之增多。M1和M2在用户数10-30之间的S@N几乎相同,当推荐用户的个数大于30时,M1的性能明显优于M2。

  

图3 3种算法的召回率对比

  

图4 3种算法的S@N对比

通过以上实验分析可知,M3(即融合了用户基本信息相似度与用户交互强度的方法)的性能明显优于仅使用基本信息相似度或仅使用用户交互强度的算法,说明M3在用户推荐问题上是可行有效的。

3 结论

针对目前用户推荐方法中相似用户的发现范围过于局限,以及用户间的间接交互被忽略的问题,本文以发现更多高质量的相似用户为目的进行了如下研究:(1)提出了一种计算用户基本信息相似度的方法,该方法融合用户年龄、地址、标签、微博文本4种基本信息,全面地计算基本信息相似度;(2)提出了3种用户交互强度计算方法,更准确全面地评估了用户之间的真实交互强度;(3)融合用户基本信息相似度与交互强度评估两个用户的最终相似度,从用户候选集中寻找最值得推荐的用户。实验证明,本文融合基本信息相似度与交互强度的方法在推荐效果上优于仅使用基本信息相似度或者仅使用交互强度的算法,能推荐更多的相似用户。但本文方案对蕴含了重要信息的用户标签利用不够,下一步将对此进行深入研究。

参考文献:

[1]仲兆满,胡云,李存华,等. 微博中特定用户的相似用户发现方法[J]. 计算机学报,2016,39(4):765-779.

Zhong Zhaoman,Hu Yun,Li Cunhua,et al. Discovering similar users for specific user on microblog[J]. Chinese Journal of Computers,2016,39(4):765-779.

[2] Wu Buxiao,Xiao Jing,Chen Jieming. Friend recommendation by user similarity graph based on interest in social tagging systems[C]//Advanced Intelligent

Computing Theories and Applications. Fuzhou,China:Springer International Publishing,2015:375-386.

[3] Xiang Rongjing,Neville J,Rogati M. Modeling relationship strength in online social networks[C]//Proceedings of the 19th International Conference on World Wide Web. North Carolina,US:ACM,2010:981-990.

[4] 徐志明,李栋,刘挺,等. 微博用户的相似性度量及其应用[J]. 计算机学报,2014,37(1):207-218.

Xu Zhiming,Li Dong,Liu Ting,et al. Measuring similarity between microblog users and its application[J]. Chinese Journal of Computers,2014,37(1):207-218.

[5] 王晖媛. 基于节点影响力的链路推荐研究[D]. 南京:东南大学计算机学院,2015.

[6] 王文,王树锋,李洪华. 基于文本语义和表情倾向的微博情感分析方法[J]. 南京理工大学学报,2014,38(6):733-738.

Wang Wen,Wang Shufeng,Li Honghua. Micro-blogging sentiment analysis method based on text semantics and expression tendentiousness[J]. Journal of Nanjing University of Science and Technology,2014,38(6):733-738.

[7] Li Ting,Liu Ning,Yan Jun,et al. A Markov chain model for integrating behavioral targeting into contextual advertising[C]//ACM SIGKDD Workshop on Data Mining and Audience Intelligence for Advertising. Paris,France:DBLP,2009:1-9.

[8] Kwak H,Lee C,Park H,et al. What is twitter,a social network or a news media?[C]//International Conference on World Wide Web. Florence,Italy:ACM,2010:591-600.

[9] Otten R H J M,Ginneken L P P P V. The annealing algorithm[M]. New York,US:Springer,1989.

[10] 吴树芳,徐建民,武晓波. 融合用户标签和关系的微博用户相似性度量[J]. 情报杂志,2014(12):170-173.

Wu Shufang,Xu Jianmin,Wu Xiaobo. Similarity measurement of micro-blogging users merging user tags and relationships[J]. Journal of Intelligence,2014(12):170-173.

 
李颖,朱保平
《南京理工大学学报》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号