更全的杂志信息网

基于加权网络结构的冷门资源推荐算法*

更新时间:2009-03-28

1 引言

随着信息技术在社会、经济、生活等各个领域的飞速发展,数据正在以前所未有的速度增长,根据IDC发布的研究报告表明[1],以规模性、多样性、实时性、低价值密度为特点的网络数据总量将由2011年的1.8 ZB增长到2020年的35 ZB。如此大规模的数据激增造成了数据挖掘难度的增加,降低了信息的使用率,导致信息超载(Information Overload)[2]问题,导致数据使用者无法获取精准的、正确的信息。以电商平台为例:从消费者角度分析,消费者面对海量的商品信息,会被过多的无用信息干扰,无法准确地识别出自己所需或者能带来惊喜的商品,使消费者的购买体验并不友好;从供应商的角度分析,消费者的信息在增加,但现有的技术并不能从如此海量数据中实时挖掘分析出用户真实兴趣偏好,进而有的放矢地实行精准推荐,导致用户对推荐系统丧失信赖性和黏着性。

目前,个性化推荐系统是解决信息超载问题常用的方法。根据划分标准的不同,个性化推荐系统可分为很多种类型,受到大家公认的类型基本包括以下几种[2]:基于内容的推荐、协同过滤推荐、基于知识的推荐、基于网络结构的推荐和混合推荐。其中基于网络结构的推荐是由Zhou[3,4]、Huang[5,6]等提出的一种较新的研究方向,其推荐效果和算法复杂度要优于其他算法,因此近年来备受关注。很多学者在基于网络结构的推荐算法的基础上,从网络结构 [7 - 10]、能量传递方式 [11 - 14]等方面进行了改进,提高了算法的性能和推荐效果。但是,基于网络结构推荐算法由于其能量传递方式等内在局限性会导致对推荐系统中“冷门资源”推荐不足的问题。

“热门资源”在一定程度上能保证推荐结果的准确性,但是“冷门资源”在一定程度上更能满足单个用户的个性化需求,尤其是随着社交网络、新媒体和通信的发展,用户可以多渠道、便捷地获取“热门资源”的相关信息,推荐系统中对“热门资源”的过度推荐造成推荐结果新颖性差,导致用户对推荐结果满意度越来越差。因此,衡量推荐系统优劣的指标由单一的准确性指标转向准确性、多样性、新颖性和时效性等多维度的指标。如何平衡各个指标之间的关系,尤其是如何利用“冷门资源”合理“降热”、提高推荐系统的新颖性,是目前推荐系统的重要研究方向之一。

⑩Fan Huang,Xuefeng Wen,“An update logic for Games with angry players”,Studies in Logic,2016(3),pp.71 ~88.

本文采用用户-项目-特征词三部关联网络结构,但是与原有算法不同的是,本文更加注重对“冷门资源”的推荐。因此,对三部关联图上的能量扩散方式做出改进,采用用户之间的评分差和信息熵分别作为用户-项目和项目-特征词的能量扩散方式,实验结果表明在保障推荐结果准确性和多样性的同时,本文算法的推荐结果的新颖性更好(表明推荐列表中“冷门资源”更多)。

2 基于网络结构的推荐算法分析

2.1 基于网络结构的推荐算法介绍

基于网络结构的推荐结合了复杂网络的基本原理,将网络结构中的用户、项目和特征词等基本元素抽象成复杂网络的节点,用户、项目和特征词等之间的关系抽象成复杂网络中的边。基于二部关联图的推荐算法NBI(Network-Based Inference)[3]是基于网络结构的推荐中最早被提出的推荐算法,该算法利用物理学中的物质扩散原理,也被称为基于物质扩散MD(Mass Diffusion)过程的推荐算法,实验证明较之协同过滤算法其精确度更高;随后,基于热传导HC(Heat Conduction)推荐算法利用热传递的物理效应,物体平均接收与之相连项目的能量,提高了推荐算法的个性化程度,但会导致精确度远低于MD算法;文献[10]提出一种将物质扩散与热传递混合的推荐算法HHM(Hybrid method of Heat conduction and Mass diffusion),引入一个参数来调节物质扩散与热传导的影响程度,使推荐结果的准确性和多样性都得到提升。

假设由m个用户和n个项目(例如电影、书籍、歌曲等)构成的推荐系统,其中,如果用户Ul选择过项目Ii,则在UlIi之间生成一条边αil=1(i=1,2,…,ml=1,2,…,n),否则αil=0,因此,整个推荐系统可以用一个具有m+n个节点的二部关联图表示,即G=(U,I,E),其中U={U1,U2,…,Um}表示用户集,I={I1,I2,…,In}表示项目集,E表示用户-项目的边集。对于给定的目标用户,将他选择过的项目上的初始能量设为1,其他设为0,得到一个n维的0-1向量集合,这个向量集合就代表目标用户的初始能量分配构型。

2.2 几种经典的基于网络结构的推荐算法

MD算法物质扩散过程:首先,项目初始能量通过用户-项目之间的边将初始能量平均地分配给相连用户;然后,每个用户又将自己所有分到的能量再次通过二部关联图边平均地分配给它们所选择的项目;最后,汇总每个对象的所有相邻用户分配的资源,得到每个对象的最终资源。表示项目Ii从项目Ij获得的资源,其数学表达式为:

 

(1)

其中,k(Ij)表示项目Ij的度(即该项目被多少用户选择过),k(Ul)表示用户Ul的度(即该用户选择过多少项目)。

HC算法热传递过程:首先,通过用户-项目之间的边用户从邻接项目平均地获得能量;然后,每个项目再次通过二部关联图边从邻接用户中平均地获得能量;最后,汇总每个对象的所有相邻用户分配的资源,得到每个对象的最终资源。表示项目Ii从项目Ij获得的资源,其数学表达式为:

 

(2)

其中,k(Ii)表示项目Ii的度(即该项目被多少用户选择过),k(Ul)表示用户Ul的度(即该用户选择过多少项目)。

混合推荐算法HHM是热传导和物质扩散的混合推荐算法,其中HHM资源分配数学表达式为:

 

(3)

其中,λ1为一个可调参数,通常λ1∈[0,1]。当λ1=0时,混合算法就是热传导推荐算法; 当λ1=1时,混合算法就是物质扩散推荐算法。通过调节λ1的值来提升推荐的准确性和多样性。

上述基于网络结构的推荐算法在算法复杂度、推荐结果准确性等方面都要优于经典的协同过滤算法[15]。但是,上述算法也存在一些缺陷:第一,算法中二部关联图网络结构形式只利用到有限的用户和项目之间的信息,信息利用不充分影响了推荐结果的准确性;第二,以目标用户是否选择过项目生成一个n维的0-1集合作为能量初始值,忽略了评分信息所反映出的用户兴趣偏好;第三,上述算法对“冷门资源”的推荐效果不理想,很难满足用户对推荐结果新颖性的需求。针对以上问题,本文从网络结构、初始能量和能量传递权值的角度分析研究,对基于网络结构的推荐算法做出改进。

3 算法的改进思路

针对上述网络结构推荐算法缺点的分析,从以下几个方面考虑改进优化算法:

(1)采用用户-项目-特征词三部关联图。

项目的特征词能较准确地描述出该项目的特征,进而通过分析项目特征反馈的信息推导出用户的兴趣偏好,构建不同用户兴趣的偏好模型,提供个性化推荐结果。因此,本文采用用户-项目-特征词的三部关联图,以期能获取更加准确和个性化的推荐结果。

(5) 根据式(4)计算目标用户Ul0和用户Ul对同一项目Ii的评分差d(Ii);

在用户-项目之间进行能量传递时使用用户评分差值作为能量传递的权值。用户在选择(使用)项目后会给项目一个打分评价,不同的打分表示用户对该项目的兴趣度,如在电影评分系统中,用户对电影的打分评价为1~5分,1分表示用户对该电影非常不喜欢,5分表示用户对该电影非常喜欢。不同的用户对同一个项目的打分不同,若目标用户U0与另一个用户U1对同一个项目I0的打分相同,说明这两个用户对I0的兴趣度相同,则对U1I0的边a1,0赋予较大的权重;反之,打分差距越大说明两个用户对该项目的兴趣度越不相同,应该对其赋予较小的权重。评分差的计算公式为:

 

(4)

其中,d(Ii)表示用户Ul0和用户Ul对同一项目Ii的评分差;ail0为目标用户Ul0对项目Ii的评分;ail为用户Ul对项目Ii的打分,若目标用户Ul对项目Ii无打分记录则记为0。

本文在能量传递过程中加入用户评分差作为传递时的权重,利用了用户兴趣相似性的理论(用户之间选择项目类型越相似、对相似项目的评分趋于一致,说明用户与目标用户之间的兴趣越相似,用户与目标用户越相似则获得的能量值就越大),以期提高推荐算法准确性。

(3)在用户进行用户-特征词的能量传递时,其初始化时采用用户的评分作为能量的初始化值。

在用户-特征词二部关联图能量传递时,用户对项目的打分不同进而影响用户对标签的打分也不同,用户对标签的打分的不同从侧面反映了用户对标签的偏好,因此不再采用0-1作为用户的初始能量值,而是根据目标用户对该项目的评分作为初始能量值,即在UlIi间生成一条边αil=k(i=1,2,…,ml=1,2,…,n) ,否则αil=0 ;其中k为目标用户对该项目的评分。记一个目标用户对应不同项目的初始能量值为fl0(Ii)=ail0

利用评分作为初始能量值,能更加全面地保留原始信息,同时也能更全面地显示用户的偏好。

-Re-1Δu + (u·)u +p - Sc curl B×B=f在Ω中,Sc Rm-1curl (curl B) - Sc curl (u×B)=g在Ω中,· u = 0在Ω中,·B=0 在Ω中。

其中,λ1为一个[0,1]的可调节参数。

名人也有AB面。重要的是我们能同时看到AB两面,更重要的是像《杂文月刊》一样,存有良知,从AB两面将真话讲出来。

在项目-特征词之间进行能量传递时使用信息熵作为能量传递的权值。用户在选择项目(产品)时,用户会根据自己的兴趣选择符合自己兴趣的项目(产品),若能发现用户的兴趣,就可以根据用户的兴趣进行有针对性的推荐,使推荐更加个性化。用项目特征词来描述用户的兴趣,特征词可以是显式的标签或者项目属性,可以是隐式抽象出来的项目的特征关键词等;一个项目可以有多个特征词,一个特征词也可以对应多个不同的项目。

1.8 蛋白质印迹分析 收集细胞,用含蛋白酶抑制剂的 RIPA 细胞裂解液裂解,提取蛋白并定量。取 40 μL 总蛋白进行十二烷基硫酸钠-聚丙烯酰胺凝胶电泳,转膜后以 5% 脱脂牛奶溶液封闭 1 h,加入一抗于 4 ℃ 下孵育过夜,再加入二抗常温孵育 1 h。用 TBST 洗膜 3 次,每次 10 min。曝光,以内参 β-actin 为标准分析目的蛋白的相对表达量。

 

(5)

其中,H(Xut)表示用户u对特征词t的信息熵,H(Xut)越大表明用户对该特征词的兴趣越不稳定,越小表明用户对该特征词的兴趣越专一;k表示一个常数;s表示用户对特征词t的打分等级;pi 表示用户u对标签t不同打分的概率。

利用信息熵来衡量目标用户对特征词的喜好程度,并作为项目与特征词之间的能量传递权重。信息熵的大小是由用户对特征词打分的差异性决定的,代表用户的兴趣,与项目的热门程度无关,可以避开“热门资源”的影响,发现用户更感兴趣的“冷门资源”,提高推荐的新颖性。

4 算法具体实施步骤

在基于网络结构推荐算法思想的基础上,通过第3节算法的改进思路中(1)关于网络结构的分析,采用一个用户-项目-特征词三部关联图G=(U,I,E,F),其中U={U1,U2,…,Um}表示用户集,I={I1,I2,…,In}表示项目集,E表示用户-项目的边集,F表示项目-特征词的边集。在三部关联图中算法具体分为三个步骤:第一步,用户-项目二部关联图的推荐算法;第二步,项目-特征词二部关联图上的推荐算法;第三步,利用线性加权,计算项目最终能量值,产生推荐列表。

第一步,用户-项目二部关联图的推荐算法。

由文献[10]可知,采用物质扩散和热传递的混合算法时,目标用户的每个项目最终获得的能量值计算公式如下:

 

(6)

其中,wij 表示资源分配方式,由公式(3)所得。

结合第3节算法的改进思路中的(2),在物质扩散与热传递的混合传递的基础上,本文在其资源分配方式中加入用户评分差,以提高准确度,改变后的资源分配数学表达式如下:

 

(7)

(4)在项目-特征词二分图之间进行能量传递时加入信息熵作为权重。

具体实现如下:

输入:用户集U,项目集I,用户-项目网络关联结构图矩阵E;

输出:每个用户的项目能量f′。

(1)For each Ul0 in U

(2) 将用户Ul0对项目的评分设为初始能量值al0;

(3) 统计每个用户Ul的度kl;

(4) 统计每个项目Ii的度ki;

临床既往的教学模式为传统带教方法,学生所学的知识均为被动接受,学习目标也不是十分明确,难以达到理想的教学效果,学生的需求也难以满足[11-12]。特别是对于医学留学生,由于思维差异大及语言沟通难度大,传统的临床教学方法难以满足日益增多的留学生教学的要求[13-14]。近年来,在临床教学模式中,PBL教学法应运而生。PBL教学法起源于20世纪50年代的医学教育,目前已成为国际医学教育通用的教学方法之一[15-16]。

(2)在用户-项目二分图之间能量传递时加入评分差作为权重进行能量传递。

重型颅脑外伤在临床发生率较高,一般需开展手术治疗[1]。本研究分析了改良去骨瓣减压术对重型颅脑外伤治疗效果的影响,报告如下。

(6) 将上述步骤计算结果代入式(6)和式(7)计算用户Ul0对应的项目能量得到用户Ul0对所有项目的能量值

(7)End for

第二步,项目-特征词二部关联图上的推荐算法。

此步骤中结合第3节算法的改进思路中的(3)和(4),在项目-特征词二部关联图中,利用用户打分作为能量初始值,并且利用信息熵作为能量传递的权重。特征词获得的能量值计算公式如下:

学案编制的内容:学案的编制要以教案为依据,要体现出学生学习的心理特点,要根据不同的教学内容进行设计,把学案分为以下五个模块,即预习目标和任务,课堂学习目标,课内探究,实战演练,课后练习与提高。

 

(8)

(4) 根据式(9)计算用户Ul0对应的项目能量得到用户Ul0对所有项目的能量值

10月份,上海市石化行业无论是产值还是利润均呈下降走势。临近岁末,预计上海市石化行业经济运行仍处于收缩态势,需求总体呈下降趋势,化工市场难有好的表现,上海市石化行业完成全年预期目标面临严峻挑战。唯有直面下行压力,采取措施积极应对诸多不确定因素,加大调结构、促增长、保稳定的力度,促进经济平稳运行,在今年最后两个月,全力冲刺,方能确保全年任务完成。

 

(9)

其中,bit表示项目Ii与特征词t之间是否有边,即:

具体实现如下:

输入:用户集U,项目集I,特征词T,项目-特征词网络关联结构图矩阵F;

公共汽车上一女士拿着一石榴对坐着的男士说:“我用石榴换你的座位。”男士换了,刚要吃,女士又说:“别吃,下车时我还要换回来呢。”

输出:每个用户的项目能量f″。

(1)For each Ul0 in U

(2) 根据式(5)计算用户Ul0所有特征词的信息熵Hl0(T);

(3) 根据式(8)计算特征词Tt从项目中获得的能量值fl0(Tt);

之后,特征词能量又平均分配到每个项目中,每个项目最终获得的能量值计算公式如下:

(5)End for

第三步,利用线性加权,计算项目最终能量值。

基于上述步骤中分析的用户-项目和项目-特征词两个二部关联图的能量扩散后,将两个二部关联图的最终能量值通过线性叠加的方式实现用户-项目-特征词三部关联图的能量扩散。对于目标用户Ul,根据上述用户-项目二部关联图和项目-特征词二部关联图能量扩散计算得到对应项目的能量值分别为f′和f″,线性叠加生成项目的最终能量值:

f*=(1-λ)f′+λf

(10)

其中,f′为根据用户-项目二部关联图的式(6)计算得出的项目最终能量,f″为根据项目-特征词二部关联图的式(9)计算得出的项目最终能量,且f′和f″都是对同一目标用户Ul计算得出的。λ∈[0,1]为一个可变参数,λ=0时为完全的用户-项目二部关联图的能量扩散推荐,λ=1时为完全的项目-特征词二部关联图的能量扩散推荐,λ的取值根据推荐效果而定。

对于目标用户Ul,经过上述能量扩散后,得到对于目标用户的项目的最终能量值,将项目按照得分排序,把得分高的项目生成推荐列表(推荐列表长度根据实际需求设为L),推荐给用户。

具体实现如下:

3) 搭建人车诚信评级系统,通过制定诚信评分规则,并对业务数据影响因素进行评分设定,利用高速业务数据的人车诚信评级为绿通治理工作提供更加直观的辅助决策数据。

输入:项目能量f′,项目能量f″;

输出:推荐列表L

(1)根据式(10)计算每个用户的项目最终能量f*;

(2)将每个用户未平分的项目按照能量值由大到小排列,将前L项推荐给用户;

5 实验分析

5.1 数据来源

本文使用明尼苏达大学采集的一个关于电影系统的标准数据集MovieLens 100K和MovieLens 1M ( http://www.grouplens.org)来检验上述推荐算法并进行实验数据分析。MovieLens数据集是用户在观影后,根据自己的兴趣偏好对电影进行打分,分值在1~5分,同时还给出所有电影的电影主题以及部分用户信息。MovieLens 100K包括943个用户、1 682部电影及100 000条评分;MovieLens 1M包括6 040个用户、3 900部电影及1 000 209 条评分。

实验将数据集随机选取其中90%作为训练集,剩余10%作为测试集。每次随机划分数据集后分别用文献[3]中基于物质扩散算法(MD)和文献[10]中基于热传导和物质扩散结合的混合推荐算法HHM作为本实验的参照算法进行评分预测,取多次平均值比较推荐结果,实验结果是在训练集与测试集都完全相同的情况下进行对比测试获得的。

5.2 评价指标

对产品推荐来说,目标就是为给定用户找到最相关的n个物品。准确率和召回率是评价推荐结果精确度的两个常用的度量值。准确率和召回率计算公式分别为:

 

(11)

 

(12)

其中,M表示用户的个数;Nu表示同时出现在用户u的测试集和其推荐列表中项目的数目;L表示用户u推荐列表的长度;Bu表示测试集中用户u选择的项目数量。

项目的特征词有多种表现形式,直观显式的项目标签或属性、隐式提取的项目的主题等;项目与特征词之间存在多对多的对应关系。根据能量传递原理,用户对项目的评分分值会传递给它所对应的特征词上,不同的项目获得不同的评分分值时,根据两者之间多对多的关系,不同项目的评分分值会使同一特征词的评分分值存在差异。以电影为例,假设用户观看“成龙”主演的《警察故事》和《十二生肖》后对两部电影的打分分别为5分和3分,将主演“成龙”抽象成电影的一个特征词,则用户对该特征词的打分[5,3]就存在差异。为了描述这种差异,本文将信息熵作为项目-特征词之间能量传递的权值。信息熵是用来描述一个系统中某个特定信息出现的概率:系统越有序,信息熵越低;系统越混乱,信息熵越高。将用户对项目特征词的评分看作一个系统:同一特征词的得分越混乱,信息熵越高,表明用户对此特征词的兴趣越飘忽不定;同一特征词的得分越有序,信息熵越小,表明用户对此特征词的兴趣越专一。因此,将信息熵的大小近似看成用户对某一特征词兴趣度的大小。信息熵的计算公式为:

在实际应用中,准确率并不是衡量推荐结果优劣的唯一指标,准确率高的推荐算法有时也不能使用户对推荐结果感到满意。例如,推荐给用户更容易获取的已知的“热门资源”,虽然从整体推荐算法的结果中计算出的准确率更高,但是并不能提高用户对推荐结果的满意程度。因此,在衡量推荐算法优劣时,往往会加入推荐多样性和新颖性的指标来衡量用户对推荐系统满意度。

  

Figure 1 When L=20 and parameters λ and λ1 are different,the test results of P,R,H and NL of the algorithm in this paper图1 L=20时,参数λ和λ1取值区间不同时,本文算法在评价指标P、R、H、NL的测试结果

衡量推荐多样性时,常使用汉明距离来衡量ij这两个用户推荐列表的不同程度,其计算公式为:

传统CORDIC算法角度θ的收敛范围是[-99.872。,99.872。],而不是[-π,π],这是传统 CORDIC 算法的一个缺点,针对该缺点,文中所设计的全流水线三角函数加速核利用三角函数变换的方法来处理,即进行输入值、输出值调整来使CORDIC算法收敛域扩展到4个象限[-π,π]。与传统做法一样,为了在硬件上实现方便,我们每次选择性地取正切恰为2次幂的角度做旋转如式(10)所示,这样xi、yi迭代时所做的乘法就可以转化为移位操作[11]。

 

(13)

其中,L表示推荐列表的长度;Qij表示用户uiuj在推荐列表中相同的项目数;Hij表示任意两个用户之间的汉明距离;所有的用户对的汉明距离的平均值即是整个系统的汉明距离H(L),汉明距离越大,表示推荐的多样性越高。

衡量推荐新颖性最简单的方法是利用推荐商品的平均度,其计算公式为:

 

(14)

其中,kn表示用户u在推荐列表L中的第n个项目的度,l表示系统给用户推荐项目的集合长度;对用户来说,推荐列表中商品的平均度越小,其新颖性就越高。

2001年,Choukroun等对PRP进行了改良,研制出第二代血小板浓缩物——富血小板纤维蛋白(platelet-rich fibrin,PRF)。PRF来源于自体血,制备过程中无需添加外来成品制剂,从而避免机体排斥反应、道德伦理上的争论。PRF内含丰富的生长因子,降解速度高达1周,能够缓慢释放生长因子[2-3],含有大量白细胞纤维蛋白,空间结构疏松良好,可以让细胞进行更好的迁移和增殖,为多种干细胞分化提供理想的细胞支架[4-5],很快得到广泛运用。

5.3 实验结果分析

选取经典的两种基于网络推荐的算法MD[3]和HHM[10]与本文所采用的算法做比较,采用准确率指标P、召回率指标R、多样性指标H、新颖性指标NL进行测量比较。

由上文对本文算法的描述可知,本文算法含有两个参数λ1λ,为使本文算法效果达到最优,首先要确定这两个参数的最优解。在数据集MovieLens 100K上,推荐长度L=20时,计算不同λ1λ对应的PRHNL。其计算结果如图1所示。

阿里这才百般不情愿地跟着阿东走出来。阿里推着轮椅,到罗爹爹门口。罗四强和罗爹正也出门。罗爹爹坐上了轮椅,阿东将录音机交给罗爹爹。

由图1分析可知,在λ∈[0.05,0.1]且λ1∈[0.4,0.6]时,本文算法的准确率P和召回率R能取最大值,此时算法的准确性表现最优;在λ=[0.3,0.4]且λ1∈[0.8,0.9]时,本文算法的多样性H能取最大值,此时算法的多样性表现最优;在λ∈[0.9,1]和λ1∈[0.9,1]时,本文算法的新颖性NL能取最小值,此时算法的新颖性表现最优。综合推荐系统的这四个指标,要保证推荐效果的优越性,既要确保推荐系统的准确性和多样性,同时也要考虑其新颖性;准确性和多样性的优先级虽然高于新颖性,但是随着获取资源途径的丰富,“冷门资源”更加契合用户的需求,因此新颖性也逐渐成为衡量推荐系统是否优良的一个重要指标。综合考虑,本文取λ=0.14和λ1=0.5,此时系统的整体推荐效果更优,故本算法的后续实验结果均是在λ1=0.5和λ=0.14时的结果。后续HHM算法中所用到的参数λ1的最优是本文算法中的λ1(因为本文的算法是在HHM算法的基础上的改进,要想使本文算法最优,则首先要保证实现HHM算法最优);本文算法中所用的参数为λ1=0.5和λ=0.14。根据不同的推荐列表长度对比分析MD、HHM和本文算法的优劣性,其计算结果如表1所示。

 

Table 1 Different recommended length L,the results of P,R and H in MD,HHM and the algorithm of this paper表1 不同推荐长度LMD[3]HHM[10]以及本文算法的PRH

  

数据集推荐列表长度LPrecision(P)MD算法HHM算法本文算法Recall(R)MD算法HHM算法本文算法Diversity(H)MD算法HHM算法本文算法50.1860.2140.2150.0910.1050.1060.7810.8430.854100.1550.1710.1740.1520.1680.1710.7510.8250.830100K200.1210.1320.1330.2390.2600.2610.7220.8040.806500.0800.0880.0880.3920.4330.4290.6430.7660.7671000.0550.0600.0600.5390.5970.5780.5460.7250.72350.1710.1870.1920.0530.0580.060.7260.7970.800100.1340.1480.1540.0830.0920.0950.6530.7270.7531M200.1050.1180.1210.130.1460.1510.5720.6550.699500.0760.0850.0870.2350.2650.2700.5240.6120.6571000.0560.0640.0640.3490.3980.3950.4670.5790.626

  

Figure 2 Under different recommended length (L),the test results of NL in MD,HHM and the algorithm of this paper图2 不同的推荐列表长度L下,MD算法、HHM算法与本文算法NL的测试结果

由表1分析可知,本文算法的准确率和召回率都要略优于MD和HHM两种对比算法,表明较之两种对比算法其推荐结果的准确性更高;本文算法的汉明距离较之MD算法有较大的改进,较之HHM算法也略胜一筹,表明较之两种对比算法其推荐结果的多样性更好。由图2分析可知,在同一推荐长度下,本文算法的推荐结果的平均度都要低于其他两种对比算法,在更大的MovieLens 1M数据集中,本文算法的推荐结果平均度更低,表明本文算法推荐结果的新颖性要优于其他两个对比算法,且随着数据量的增加其新颖性指标更加优秀,表明本文算法在挖掘“冷门资源”的能力上要明显高于其他两个对比算法,其推荐结果的个性化程度更高。数据集越大本文算法效果越明显,表明算法能更好地应对如今大数据时代数据量急剧增多的情况。

6 结束语

用户满意度是一个需要使用多维衡量的指标,因此提升用户对推荐系统的满意度既要提高推荐结果的准确性也要提高推荐结果的新颖性,为用户提供个性化的推荐结果。推荐符合用户兴趣的“冷门资源”更给用户带来惊喜,最终体现出用户对推荐系统的满意度往往要大于对“热门资源”的推荐。

本文引入用户评分差来提高推荐算法的准确性,引入信息熵来充分挖掘“冷门资源”以提高推荐算法的新颖性,实验结果也表明,本文算法推荐结果的准确性、多样性和新颖性都要优于MD和HHM算法的。但是,本文仍有一定的局限性,在数据集上本文选取的是电影主题作为特征词描述电影特征,电影主题分类并不能完全反映出电影的特征,进而在反映用户兴趣偏好时并不能充分反映出用户真实兴趣。 在后续的研究工作中,需要采集对项目描述更加清晰全面的数据集,用更加全面准确的数据集验证本文算法的可行性。

参考文献:

[1] Gantz J, Reinsel D.2011 digital universe study:Extracting value from chaos[EB/OL].[2012-07-09].http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from- chaos-ar.pdf.

[2] Wang Guo-xia, Liu He-ping. Survey of personalized recommendation system[J].Computer Engineering and Applications,2012,48(7):66-76.(in Chinese)

[3] Zhou T,Ren J,Medo M,et al.Bipartite network projection and personal recommendation [J].Physical Review E,2007,76(4 Pt 2):046115.

[4] Zhou T,Jiang L L,Su R Q,et al.Effect of initial configuration on network-based recommendation [J].Europhysics Letters,2008,81(5):15-18.

[5] Huang Z, Chen H, Zeng D.Applying associative retrieval techniques to alleviate the sparsity problem in collaborative filtering [J].ACM Transactions on Information Systems,2004,22(1):116-142.

[6] Huang Z, Zeng D, Chen H.Analyzing consumer-product graphs:Empirical findings and applications in recommender systems [J].Management Science,2007,53(7):1146-1164.

[7] Zhang Xin-meng,Jiang Sheng-yi,Li Xia,et al.Hybrid recommendation algorithm based on network and tag[J].Computer Engineering and Applications,2015,51(1):119-124.(in Chinese)

[8] Xiao Yang, Wang Dao-ping,Yang Cen.Study on knowledge recommendation algorithm based on tripartite graphs network structure [J].Application Research of Computers,2015,32(2):386-390.(in Chinese)

[9] Zhang Z K,Zhou T,Zhang Y C.Personalized recommendation via integrated diffusion on user-item-tag tripartite graphs [J].Physica A:Statistical Mechanics and its Applications,2009,389(1):179-186.

[10] Zhou T, Parisi G.Solving the apparent diversity-accuracy dilemma of recommender systems[J].Proceedings of the National Academy of Sciences,2010,107(10):4511-4515.

[11] Zhang Xin-meng,Jiang Sheng-yi,Zhang Qian-sheng,et al.Hybrid recommendation by combining network-based algorithm and user preference [J].Journal of Shandong University(Natural Science),2015,50(9):29-35.(in Chinese)

[12] Zhang Y C,Blattner M,Yu Y K.Heat conduction process on community networks as a recommendation model [J].Physical Review Letters,2008,99(15):12505-12508.

[13] Zhang Y C,Medo M,Ren J,et al.Recommendation model based on opinion diffusion [J].Europhysics Letters,2007,80(6):417-429.

[14] Guo Q,Song W J,Hou L,et al.Effect of the time window on the heat-conduction information filtering model[J].Physica A:Statistical Mechanics and its Applications,2014,401(5):15-21.

[15] Liu Jian-guo,Zhou Tao,Wang Bing-hong.Research progress of personalized recommendation system [J].Progress in Natural Science,2009,19(1):1-15.(in Chinese)

附中文参考文献:

[2] 王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76.

[7] 张新猛,蒋盛益,李霞,等.基于网络和标签的混合推荐算法[J].计算机工程与应用,2015,51(1):119-124.

[8] 肖扬,王道平,杨岑.基于三部图网络结构的知识推荐算法[J].计算机应用研究,2015,32(2):386-390.

[11] 张新猛,蒋盛益,张倩生,等.基于用户偏好加权的混合网络推荐算法[J].山东大学学报(理学版),2015,50(9):29-35.

[15] 刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009,19(1):1-15.

 
刘国梁,钱晓东
《计算机工程与科学》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号