更全的杂志信息网

基于相似度融合和动态预测的兴趣点推荐算法

更新时间:2009-03-28

1 引言

社会经济的快速发展,给人们的生活带来更多的乐趣,人们兴趣点(如旅游景点、博物馆、宾馆、餐厅等)的数量也飞速增长,且会根据个人爱好选择与自己兴趣相投的兴趣点[1-2]。如何帮助用户从大量的兴趣点中发现自己感兴趣的点是一个困难的问题,兴趣点推荐就是帮助用户筛选出与用户兴趣一致的位置并且缩短决策的时间。

目前,大多数兴趣点推荐算法是基于兴趣点的历史签到数据及上下文信息(如时间、地理位置、标签、评论等)来挖掘符合用户偏好且尚未访问的兴趣点,并改善用户签到矩阵的稀疏性问题和冷启动问题。高榕等人[3]提出了使用LDA主题模型提取用户特征向量融入矩阵分解,利用矩阵分解进行填充缺失评分。Degemmis等人[4]研究了一种矩阵填充技术,将评分矩阵中的缺失值填充为一种缺省值,以此缓解数据稀疏性问题。Gao等人[5]在兴趣点推荐时利用了POI相关的描述信息和用户个人情绪信息。Yin等人[6]利用LDA主题模型,预测用户的兴趣度,每个主题通过学习用户的历史签到数据和POI的分类信息得到。Ren等人[7]将兴趣、地理、社会等六种上下文信息分别建模,融入到概率矩阵模型中。Zhao等人[8]借鉴了社会上的用户评分为用户进行评分预测,并将用户个人兴趣、人际交往评分相似性等四种因素融合到矩阵分解中。

高温试验过程中,观察到以下现象:炉温约200℃时,明显见水蒸气从炉膛排气孔中冒出;继续升温达到400℃时,大量水蒸气冒出,之后逐渐变少;接近600℃时,水蒸气基本消失。由此可知,200℃时试件内部混凝土游离水与结晶水开始丢失,400℃左右时,游离水与自由水丢失严重。

总体来说,上述的兴趣点推荐算法都一定程度上提高了推荐质量,缓解了数据稀疏性,但是也存在一些问题:(1)模型计算复杂度太高,模型训练时间过长。(2)部分算法在计算相似度时仅使用用户的签到评分,而由于POI签到矩阵的高稀疏性,会导致推荐结果不准确。(3)矩阵填充技术,由于缺省值设置不准确,由此引来了新的误差[9]。(4)算法中大都利用用户签到的历史数据,而忽略了用户的评论和标签等信息,不能很好地解决冷启动问题。

针对上述兴趣点推荐面临的问题及上述研究存在的不足,本文提出了一种基于相似度融合和动态预测的兴趣点推荐算法,该算法命名为SI-DP(point of interest recommendation algorithm based on Similarity Integration and Dynamic Prediction)。该算法的基本思想是:首先将用户的评论信息、标签信息及POI相关的文本信息各自进行主题建模进行相似度计算,并且利用用户签到数据进行相似度度量,两者融合,很好地解决了推荐系统中的冷启动问题,并且提高了推荐的质量,最后在推荐生成阶段,利用动态预测法填补缺失的访问概率,缓解了数据稀疏性问题,降低了算法的复杂性。

为了缓解数据稀疏性和冷启动问题,本算法使用LDA主题模型构建用户特征向量,进行相似性度量,同时结合签到数据进行相似性度量。一般情况下,拥有相似主题特征而且同时签到过很多兴趣点的用户更相似,所以本文将两种相似性度量线性融合,发现最近邻居集,该相似度融合算法命名为SI(Similarity Integration)算法。在预测访问概率阶段,为了降低算法复杂性的同时提高推荐质量,提出一种动态预测法,动态填充最近邻对当前兴趣点访问缺失的签到数据,本文将该算法命名为DP(Dynamic Prediction)算法。

其中N为用户h最近邻POI集,sim(p ,l)为利用公式(4)求得的兴趣点 p和兴趣点l的相似度。最终,用户u对当前POI的访问概率为:

在热力公司党建工作中,基层党组织具有重要的纽带作用,基层党组织其纽带作用的充分发挥,对热力公司的健康发展具有重要意义。然而,在热力公司的发展过程中,存在基层党组织没能充分发挥纽带作用的现象,甚至被边缘化,严重阻碍了热力公司的科学发展

(2)在推荐生成阶段,使用动态预测的方法计算最近邻居缺失的访问概率,降低了算法的复杂性,提高了推荐质量。本文在一个真实数据集上进行了实验,实验结果表明:相比其他主流算法,本文提出的算法在推荐的准确率和召回率上提高了很多。

书中故事和青春或憧憬已无什么关系,也并非浪漫愉悦。呈现更多的是成年人的阴影、考验、损伤、辗转反侧、困顿冲突及难以言尽之处。人与时间并行,渐渐看清心灵的复杂褶皱和层次。也只有历经世事之后,理解力才能够穿透表象抵达本质,并试图给予一切宽谅。写到《春宴》,内心清朗。这并非指它是属性清朗的作品,相反,它代表的是一条于黑暗中穿行的道路,黑暗本身是它的内容,且这黑暗部分也是容易引起误解以至不悦或不适的。人在对苦痛和阴影有所承当有所体悟之后,才能真正理解其所映衬的那一道纯净自若的光。

传统基于内存的协同过滤算法[10]分两种:基于用户的协同过滤算法和基于物品的协同过滤算法。本文使用的是基于用户的协同过滤算法,其基本思想为:在推荐系统中,当用户A需要推荐时,先找到和用户A有相似兴趣的用户,然后把那些符合用户偏好的、而用户A未知的兴趣点推荐给A。

传统的基于协同过滤的兴趣点推荐算法主要分为以下几个步骤:生成用户兴趣模型、发现最近邻集[11]、计算访问概率、生成推荐列表。

在预测用户对某兴趣点的访问概率时,基于用户的协同过滤算法为:首先根据用户的兴趣点访问序列[12]计算出该用户与其他用户的相似性,然后选取若干个最相似的用户[13],并对这些相似用户指定兴趣点的访问记录值加权求和。

定义用户集合为U,兴趣点集合为P,用户对兴趣点的访问矩阵为C,其中用户cu,p=1表示用户u∈U访问过兴趣点 p∈P,cu,p=0表示u没有访问过兴趣点p。给定用户u,如果该用户没有访问过兴趣点 p,那么u在未来访问 p的概率为:

其次,全面客观地介绍正面战场的积极作用。虽然由于国际国内形势等原因,对正面战场及国民政府在抗战中的积极作用在不同时期的强调有所不同,但中国共产党总的来说是采取客观态度的,党的领导人历来都有肯定。这种肯定体现在各种纪念活动中领导人的公开讲话中和活动具体安排上。

 

其中u与v的相似性为用户v的权重wu,v

在公式(1)中,用户间的相似性权重可以由很多方法计算得来,本文主要应用余弦相似性[14]来计算两个用户之间的相似性。对于用户v与u,其余弦相似性的计算公式为:

本文在实验中采用了真实的数据集,Foursquare数据集,该数据集为公开数据集,Foursquare是一个基于位置的社交网络,允许用户签到。考虑到算法的准确性,本文将少于5次签到的用户和POI过滤掉。本文实验所使用的数据集包含5 234个用户,6 839个POI和48 294条签到或者评价。由于数据集中用户-兴趣点矩阵密度非常低而造成了很多主流的兴趣点推荐算法的精度低,所以本文的数据集中,用户-兴趣点矩阵密度较低,最终得到的准确率偏低也是合理的。

农村金融是现代农村经济的核心,要实现农业发展、农村繁荣和农民增收,离不开金融的强有力支持。由于农业是弱质产业,受自然因素影响较大,商业银行开展农村金融业务的成本高、风险大、回报率低,往往面临更大的经营压力,因此仅仅靠商业性金融机构服务农业和农村发展显然不够。而且,农业的外部性特征较强,也要求政府给予必要的支持。政府可以通过开发性、政策性金融,为农业发展、乡村振兴提供强大的支持。

 

LDA主题模型[15]是2003年由Blei等人提出。可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它将文档中的主题以概率分布的形式给出,从而得到了文档的主题分布,最后再根据主题进行分类或者聚类。在文本信息分析中,LDA模型除了兼顾文本的多语义性之外,还有降维的作用。对于用户或者POI来说,将用户或者POI相关的文本信息输入进去,可以挖掘它们的潜在主题特征,从而用主题向量表示[16]

LDA主题模型的生成过程为:首先,随机选择话题分布θ;然后,对文档中的每个词w,先从第一点中产生的分布中随机选择一个话题z,再按照主题z的单词概率生成一个词w。LDA模型如图1所示。

  

图1 LDA模型

其中α和β表示语料级别的参数,θ是一个K维主题向量。

施工阶段成本控制得好坏,对项目能否取得良好的经济效益起到关键的作用.管道燃气工程绝大部分属于隐蔽工程,管网埋设在地下,应将重点放在施工阶段.在保证材料采购质量关后,严格按规定作业流程进行施工,防止出现偷工减料和严重浪费的情况;现场材料的堆放应符合存储要求,比如要防止暴晒的PE管材露天堆放、钢铁制品潮湿处堆放等,都将降低管材埋设后安全使用的年限;合理存放不但可以控制材料成本,更可降低今后管网运行的维护成本.

用户或POI的潜在特征挖掘过程可以看作生成过程的逆过程。

2 SI-DP推荐算法

概括起来,本文做出了两点对兴趣点的贡献:

2.1 基于LDA模型的相似性度量

(1)COS,基于余弦相似性的协同过滤推荐算法,该方法只利用用户的签到数据计算相似性,没有用户相关的上下文信息。

“小学数学益智游戏”校本课程开发的故事还在继续,希望在不断地实践、反馈、评价、改进中提升课程品质,让校本课程开发坚实地走得更好更远!

该类型街道与之前4种模式不同,虽然存在双峰特征,但是早晚高峰时段的拥堵程度均较低,晚高峰时段拥堵情况稍差. 辖区内没有大的交通发生与吸引点. 交通需求较低,交通拥堵状况较其他街道稍好.

(pj)表示兴趣点 j属于主题m的概率,则基于主题求出用户最近邻如公式(3)所示:

 

基于主题求出的POI的最近邻如公式(4)所示:

 

2.2 使用SI算法选择最近邻居集合

本文在传统的基于签到数据度量相似性的基础上,融合了2.1中基于LDA主题模型的相似性计算,将两种相似度进行线性融合。假设使用LDA模型求解出的用户的最近邻集合为Ul={ul1,ul2,…,ulm},基于签到数据度量相似性的方法求解出的最近邻集合为Ut={ut1,ut2,…,utn},则用户的最近邻集合表示为Ub=Ul⋃Ut,对于最近邻集的交集Uj=Ul⋂Ut,在预测访问概率时将赋予更高的权重。用户的相似度设置为:

 

其中,siml(u a,ub)为使用LDA主题模型建模后求解出了相似性,simt(u a,ub)为基于传统利用签到数据求出的相似性。μ为参数,本文设置为0.6。

2.3 基于DP算法的访问概率预测及推荐列表的生成

在兴趣点推荐中,由于数据的高稀疏性,所以在利用求得的最近邻居集进行访问概率预测时,常常出现最近邻对当前兴趣点的签到缺失的情况,为了进一步缓解数据稀疏性,本文引入动态填充评分的思想,避免带来新的误差。动态预测,即动态填充用户当前缺失的签到数据,当出现最近邻对当前POI签到缺失情况,即利用公式(4)求出当前POI的近邻集,然后基于近邻集对近邻预测当前POI的访问概率,最后利用基于用户的预测方法进行访问概率预测。

假设目标用户为u,当前POI为 p,用户的最近邻集为M,用户h为最近邻集的任意用户,则用户h对当前POI的访问预测为

 

(1)由于兴趣点推荐中的数据除了包含用户的签到评分之外,还有用户评论、标签、地理位置等上下文信息,本文利用潜在的LDA主题模型挖掘兴趣点和用户相关的文本信息,学习用户的兴趣特征,利用用户的兴趣特征向量进行相似性度量。并且使用传统的兴趣点推荐方法计算用户相似度,然后和利用LDA模型提取用户特征计算的用户相似度进行线性融合,很好地解决了推荐系统中的冷启动问题。

采用轴承2先装配的装配过程,重载转动副可装配性评价同理可得。通过可装配性条件分析,便能得到基于可装配性评价不同装配过程的优劣。上述评价方法将重载转动副装配过程与可装配性综合考虑进行研究。

 

其中v表示用户u的最近邻集,wu,h表示用户u和用户h的相似度权重。根据公式(7)计算出用户的预测访问概率,再按访问概率的大小进行排序,选择前N个最大的POI生成目标用户top-N的推荐列表。

3 实验及实验结果分析

3.1 实验数据集

武邑县是河北省著名的蔬菜之乡,先后获得全国无公害蔬菜生产示范基地县,河北省蔬菜大县等称号。全县蔬菜种植面积达20万亩,其中,设施蔬菜13.6万亩,主要种植品种有番茄、茄子、豆角、黄瓜、甜瓜等,年产值10.5亿元。2017、2018年,武邑县被定为“果菜茶病虫害农药减量增效示范基地”和“熊蜂授粉农药减量示范基地”。其中果菜茶、熊蜂授粉示范区面积分别是1200亩、500亩。以甜瓜为例,采用熊蜂授粉后,节省劳力4-6个/亩,减少坐果激素用量90%以上,发病率降低了80%,使用后每亩增产10%以上。

3.2 评价指标

关于推荐性能,本文采用了两个广泛使用的指标评估TopN的兴趣点推荐性能,即召回率Recall和准确率Precision,简写为Rr和Pr,对于目标用户uj,Pr表示前r个被推荐的兴趣点命中测试集上的兴趣点的比例,Rr表示前r个被推荐的兴趣点被用户实际访问过的占多少比例。具体计算方法如下列公式所示,其中V()uj表示用户uj签到过的POI,R()uj表示前r个被推荐的POI。

 

其中T表示测试集中的用户量。

3.3 实验结果及分析

为了验证本文推荐算法的质量,本文将数据集分为80%的测试集和20%的训练集。同时本文做了三组对比实验,分别对比了COS、SI、LDA-CF三种算法的有效性来验证本算法的有效性。对比算法详细描述如下:

传统的基于协同过滤的兴趣点推荐算法在进行用户间相似性度量时仅考虑用户签到评分数据,忽略了用户的评论和标签等信息对相似度的影响。对此,本文提出使用LDA主题模型从用户评论和标签等信息中提取用户和兴趣点的潜在特征,并进行相似性度量。该算法首先汇集与同一个POI有关的所有评论和描述信息到一个文档即 pi,然后把同一用户签到过的POIs的所有的评论和用户标签等信息,汇集到一个文档即uj,这样获得了一个包含大量的文档集合,每一个文档对应着一个POI或者一个用户。给定POI和用户中隐含的主题数K,最终需要得到一个POI和用户的主题分布θp和θu,θp和θu都为K维向量,每一维代表该POI或者用户在相应主题下的概率。

(2)SI,基于LDA主题模型挖掘标签信息的主题特征向量和传统基于签到数据进行相似度度量的融合,该方法在使用LDA主题模型进行潜在特征向量挖掘时,仅使用了用户和POI的标签信息。

通过LDA主题模型得到每个POI或者用户的主题特征,用户i的主题向量用θui表示,兴趣点 j的主题向量用θpj表示,表示用户i属于主题m的概率,wm

(3)LDA-CF,基于矩阵分解和LDA主题模型相结合的兴趣点推荐算法。

3.3.1 参数影响

关于邻居集中最近邻个数K,图2和图3展现出在不同近邻个数下本文推荐算法和其他算法的比较。由图2可知,在邻居数大于60时,推荐的准确率和召回率明显提升,在120~140时最高,本文将最近邻数K设置到160。经过多次实验,进行最近邻实验时,本文将SI、SI-DP算法所需的话题数设置在70。

  

图2 不同近邻下三种算法准确率对比图

  

图3 不同近邻下三种算法召回率对比图

从图2和图3中可以看出,与COS相比,SI算法的召回率和准确率都有明显的提升,表明采用LDA模型与利用签到数据相似度融合的方法使得用户偏好的兴趣点出现的次数有所增加,并且有助于提高推荐算法的质量。同时融合LDA模型的相似度计算方法一定程度上缓解传统协同过滤算法的冷启动问题。不同近邻数量下,SI-DP与COS相比,准确率和召回率形成明显对比,表明SI和动态预测相结合的算法优于COS推荐算法,同时准确率和召回率的提高明显高于SI算法,说明融合的动态预测算法降低了预测误差,提高了推荐算法的准确率。

2.2.2 性别 劳动力转移初期云南少数民族地区农村劳动力外出务工大多数工作机会来自于建筑业,工作体力强度大,因而外出务工的男性多于女性。此外男性的就业愿望更强烈,胆量更大,从而使得男性外出意愿通常强于女性。调查中女性编码为2,有83名,占43.2%;男性编码为1,有109名,占56.8%。受访对象男性偏多,但随着经济发展,城镇适合女性的工作机会越来越多,比如餐饮业、家政业和零售业等。

实验中,首先在数据集上针对LDA-CF、SI、SI-DP算法中用到的不同数量的话题进行参数的调整,确定达到最优结果的主题数量值,然后进行不同算法的效果比较,由图4和图5可以看出,随着主题数量的增加,准确率和召回率都在不断增加,在K=70时,达到最优结果,参数调整时,本文设置top-N中N的数量为10,最近邻数量设置在140。

  

图4 准确率

  

图5 召回率

3.3.2 实验结果分析

经过参数的调整实验,本文将最近邻数量设置为140,话题数量设置为70,关于前K个推荐给用户的POI,如图6和图7展现出了本文所提的SI-DP算法与其他主流兴趣点推荐算法的推荐准确度比较结果。从图中可以明显看出:随着推荐列表中被推荐的POIs数量K的增加,准确率降低、召回率上升。因为用户签到矩阵的密度低,所以兴趣点推荐算法的精度不是很高。

  

图6 四种算法准确率对比图

  

图7 四种算法召回率对比图

分别对比了COS、SI、LDA-CF三种算法,从两幅图中可以直观地看出,SI-DP算法的推荐精确度明显优于其他三种算法,所提出的SI和主流算法中的LDA-CF的推荐精度相差不大,较COS有明显的改变。

综合上述多个对比实验说明,基于主题模型和动态预测的兴趣点推荐算法可以减少预测误差,缓解数据稀疏和冷启动问题并且提高了推荐算法质量。

4 结束语

对于兴趣点推荐中的数据稀疏问题和传统协同过滤中的冷启动问题,本文提出了首先利用LDA模型挖掘用户的潜在特征向量,然后进行相似度计算。同时利用传统的协同过滤算法中使用签到数据计算相似度,最后将两者融合,使用户的相似性更贴近于真实。为了进一步缓解兴趣点签到矩阵的高稀疏性,在访问概率预测时加入了动态预测方法,进而提出一种基于相似度融合和动态预测的兴趣点推荐算法。真实数据集上的实验结果表明,本文提出的SI-DP推荐算法优于其他几种主流推荐算法。

翻译研究发展到今天,大家越来越清醒地认识到,翻译不仅是“比较语言学的研究范围”,因此仅从两种语言结构的差异来分析翻译的研究方法已“过于狭隘”。当下翻译方法、手段、研究角度等的变化和创新有一个明显趋势,即注重学科交叉性,或者叫跨学科性。

参考文献

[1]刘树栋,孟祥武.基于位置的社会化网络推荐系统[J].计算机学报,2015,38(2):322-336.

[2]Ye Mao,Yin Peifeng,Lee W C,et al.Exploiting geographical influence for collaborative point-of-interest recommendation[C]//Proc of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2011:325-334.

[3]高榕,李晶,杜博,等.一种融合情景和评论信息的位置社交网络兴趣点推荐模型[J].计算机研究与发展,2016,53(4):752-763.

[4]Degemmis M,Lops P,Semeraro G.A content-collaborative recommender that exploits word net-based user profiles for neighborhood formation[J].User Modeling and User-adapted Interaction,2007,17(3):217-255.

[5]Gao H J,Tang J L,Hu X,et al.Content-aware point of interest recommendation on location-based social networks[C]//Proceedingsofthe29thAAAIConference on Artificial Intelligence,Astin,USA,2015:1721-1727.

[6]Yin H,Cui B,Sun Y Z,et al.LCARS:A spatial item recommender system[J].ACM Transactions on Information Systems,2014,32(3).

[7]Ren X,Song M,Haihong E,et al.Context-aware probabilistic matrix factorization modeling for point-of-interest recommendation[J].Neurocomputing,2017,241(7):38-55.

[8]Zhao G S,Qian X M,Xie X.User-service rating prediction by exploring social users’rating behaviors[J].Journal of IEEE Transactions on Multimedia,2016,18(3):496-506.

[9]Leng Yajun,Lu Qing,Liang changyong.Survey of recommendation based on collaborative filtering[J].Pattern Recognition and Artificial Intelligence,2014,27(8):720-734.

[10]Jiang S H,Qian X M,Shen J L,et al.Author topic model-based collaborative filtering for personalized POI[J].Journal of IEEE Transactions on Multimedia,2015,17(6):907-918.

[11]Bart P,Knijnenburg,Sivakumar S,et al.Recommender systems for self-actualization[C]//Proceedings of the 10th ACM Conference on Recommender Systems,Boston,MA,USA,2016:11-14.

[12]Cheng C,Yang H,Lyu M R,et al.Where you like to go next:Successive point-of-interest recommendation[C]//Proceedings of the 23th International Conference on Artificial Intelligence,Beijing,China,2013:2605-2611.

[13]Sun Guangfu,Wu Le,Liu Qi,et al.Recommendations based on collaborative filtering by exploiting sequential behaviors[J].Journal of Software,2013,24(11):2721-2733.[14]Zhao Qinqin,Lu Kai,Wang Bin.SPCF:a memory based collaborative filtering algorithm via propagation[J].Chinese Journal of Computers,2013,36(3):671-676.

[15]Silva E D S D.New probabilistic models for recommender systems with rich contextual and content information[C]//Proceedings of the Tenth ACM International Conference on Web Search and Data Mining,New York,2017.

[16]任星怡,宋美娜,宋俊德.基于用户签到行为的兴趣点推荐[J].计算机学报,2017,39(1):28-51.

 
李心茹,夏阳,张硕硕
《计算机工程与应用》2018年第10期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号