快捷分类

融合信息熵和加权相似度的协同过滤算法研究

更新时间：2009-03-28

0 引言

为了缓解“信息超载(information overload)”造成的影响，推荐系统应运而生。推荐系统通过分析用户的行为，可以发现用户的潜在兴趣以及为用户提供个性化服务，例如Amazon的图书推荐[1]、YouTube的视频[2]等等。而协同过滤(collaborative filtering)是迄今为止应用最成功的个性化推荐技术[3]。协同过滤推荐的基本思想是根据用户之间的相似性预测用户的喜好，然后进行资源的推荐。因此，用户历史记录越多，协同过滤产生的推荐效果越好。然而，由于信息数量日益增加，用户对项目的评分数据也日益稀疏，推荐的精确度大幅降低[4-5]。

传统的协同过滤算法通常采用皮尔逊相关系数和余弦相似度度量用户之间的相似度。然而，传统的度量方法只考虑用户间共同评分项的信息，忽略了恶意信息的影响，对找到用户的近邻产生一定干扰。为降低数据稀疏性对系统推荐质量的影响，提高推荐精确度，针对上述问题，研究人员相继提出了多种应对办法。文献[6]提出使用sigmoid函数，提出SPCC方法强调共同评分项的重要性，评分项越多，用户间的相似度越大。另外，余弦相似度计算忽略用户的评分尺度，所以提出了改进的余弦相似度度量，即ACOS(adjusted cosine)[7]。文献[8]提出了一种结合项目时效性的算法，以缓解数据稀疏问题带来的影响，为用户推荐时效性高的项目。

尽管专家和学者们从不同角度提出了多种改进方法[9-10],并取得了理想的效果，但是用户关系的准确刻画仍然影响着推荐结果的精确度。因此，文中提出一种融合信息熵和加权相似度的协同过滤推荐算法。首先，根据用户-项目评分矩阵计算所有用户的信息熵，进一步计算用户的差异度信息熵值，再将用户的差异度信息熵融入到相似度计算中，最后使用新的相似度计算公式计算用户间的相似度，找到最合适的近邻，进行项目推荐。

1 传统的协同过滤算法

1.1 基于用户的协同过滤算法

传统的基于用户的协同过滤算法的步骤主要包括三部分[11]：用户-项目评分矩阵；发现最近邻居；产生推荐项目。

(1)用户-项目评分矩阵。

= width=228,height=67,dpi=110

表1 用户-项目评分矩阵

I1…Ij…InU1R11…R1j…R1n………………UiRi1…Rij…Rin………………UmRm1…Rmj…Rmn

(2)发现最近邻居。

根据上述矩阵R，计算用户之间的相似度，将相似度按照降序的方式排列，前k个用户即为目标用户的最近k个邻居。

(3)产生推荐项目。

根据步骤2中找到的k个近邻对项目的评分情况，对目标用户没有过行为的项目按照公式1进行预测评分，然后将评分结果进行排序,将排名靠前的N个项目推荐给目标用户，即Top-N推荐。目标用户ut对项目j的预测评分公式如下：

Step1:对用户-项目评分矩阵R,根据式5计算所有用户的信息熵Hi(1≤i≤m);

协同过滤推荐算法的研究基于用户的历史记录，这里用户对项目的评分数据用m×n的矩阵R表示。其中m表示用户的数量，其用户集合记为User={U1,U2,…,Ui,…,Um}，n表示项目数量,其项目集合记为Item={I1,I2,…,Ij,…,In},Rij表示用户i对项目j的评分，如表1所示。

(1)

其中，表示目标用户所评价过的项目的平均分；表示用户v评价过项目的平均分；N表示目标用户的邻居集合；v表示邻居集合中对项目评价过的用户；sim(ut,v)表示ut和v的相似度；Rvj表示用户v对项目j的评分。

1.2 相似度计量方法

协同过滤算法的核心过程便是发现最近邻居，对计算用户之间的相似度起到了至关重要的作用。目前最常用的相似度计算方法有皮尔逊相关系数、余弦相似性和修正的余弦相似性[12]。具体如下：

在确定使用该材料之前，设计师及甲方经过了大量的调研与考察，有项目完工多年的项目，也有正在施工的项目，总结了别的项目在施工上面的不足之处及注意事项，一共有两点：

(1)皮尔逊相关系数(Pearson correlation)。

sim(u,v)PCC=

(2)

1.3.1 普通外科。1）食道支架：进口支架均为镍钛合金类，植入后行MRI检查是安全的。部分国产品牌支架的材质为不锈钢，是否在强磁场下发生移位、发热、甚至抛射不清楚，对产品说明书未注明与MRI兼容的支架，通常禁行MRI检查。

sim(u,v)COS= width=105,height=67,dpi=110

2.2.1 核心作者分析通过检索得到的期刊进行整理、统计得到图2、表1。在文献计量学中，核心作者在学科内具有突出影响力，是学科发展演进过程中推动学科发展的内在力量[7]。

(3)

Step3:根据式8计算目标用户与参考用户的相似度，找到目标用户的最近邻居集合N;

sim(u,v)ACO=

(4)

其中，C表示用户u和v共同评分的项目集合。

2 融合信息熵和加权相似度的协同过滤算法

2.1 信息熵

信息熵的概念是由香农(Claude Shannon)在1948年提出的，解决了信息的度量问题，主要通过随机变量取值的不确定性程度来刻画信息含量的多少[13]。

假设X是一个离散的随机变量，取值为{x1,x2,…,xn},记P(X=xi)=p(xi)，则可以用信息熵来表示X的不确定程度，其计算公式为：

(5)

由式1可以看出，信息熵的大小与X的概率分布有关，而与具体的取值无关。当p(x1)=p(x2)=…=p(xn)时，即对每一个用户来说，对项目评分出现的次数都是相等时，信息熵H(X)获得最大值。

(2)余弦相似度(cosine)。

文献[14-15]提出基于用户信息熵的协同过滤算法，首先计算用户的信息熵，低于信息熵阈值的用户信息属于噪声数据，然后过滤掉这些用户的信息以降低数据的稀疏性。但是存在的问题是用户的信息熵只与评分出现的次数有关，忽略了具体的评分值，这就导致有相同信息熵的用户可能会存在明显不同的评分倾向。例如，通过表2的计算可以发现，按照式5计算得到用户U1和U4的信息熵是相同的,容易划分为最近邻居范围。但是明显U1评分普遍偏高，U4评分普遍偏低，说明用户U1和U4可能不是最好的邻居。

表2 用户对项目的评分信息

I1I2I3I4I5U155440U222000U300220U433220

针对上述问题，通过式6计算用户评分差异的信息熵值代替单纯的用户信息熵。假设用户U1和U2的共同评分项目集合为IC={I1,I2,…,In}，U1对共同项目的评分记为{U11,U12,…,U1n},U2对共同项目的评分记为{U21,U22,…,U2n}，则用户U1和U2的评分差集D12={|U11-U21|,|U12-U22|,…,|U1n-U2n|}={d1,d2,…,dn},然后计算H(D12)，即U1和U2的评分差异信息熵。这个值越小，表示二者之间的差异越小，评分越接近，选为最近邻居的可能性越大。

(6)

综上，差异信息熵越小，表示两个用户相似度越高。在此基础上，考虑到二者的共同评分项越多，相似度越高，所以引进表示二者的共同评分项的数量。而且评分项差异越大，即|di|的值越大，二者差异越大。综合考虑这些因素，于是用户u和v的信息差异熵公式为：

(7)

根据式7可知，信息差异熵的取值范围是[0,+∞)，因此需要对其进行归一化处理，使得H(Dij)的取值范围为[0,1],记为sim(u,v)WED。

2.2 加权相似度

考虑到不同用户的评分尺度和用户评分值对相似性的影响，增加度量用户相似性的信息量，同样可以降低数据稀疏性的影响。因此，采用加权相似度计算用户之间的相似性，在皮尔逊相关性的基础上引进权重因子α，取值在0～1之间，则新的相似度计算公式如下：

街道仍然是清静的，忽然一个熟悉的声音在我耳边轻轻地唱起了这个欧洲的古传说。在这里不会有人歌咏这样的故事，应该是书本在我心上留下的影响，但是这个时候我想起了自己的事情。

sim(u,v)NEW=α*sim(u,v)PCC+(1-α)*

王维山也钟情于“青”和“白”，根据吴晓龙的统计，“白达91次，青达62次”〔2〕，远超芭蕉。王维诗歌中，还呈现出一个特点，即“青(或绿、或碧)”与“白”的色彩组合。兹举四例说明，如：

MDEA溶液吸收性能评价装置主要由溶液吸收解吸系统、温度控制系统、压力控制系统、气体供给系统、在线分析系统和数据采集系统组成，溶液吸收解吸系统的有效容积为300 m L，内置磁力搅拌器和鼓泡吸收管，利用温度控制系统对其温度进行控制，控温范围为5～250℃，恒温波动不大于0.05℃，通过前、后背压阀控制其压力，控压范围为0～10 MPa，精度可达±0.1 MPa。分别将PT100型温度变送器、3051TA型压力变送器、LXI-B型气体流量计以及EC9820型二氧化碳在线分析仪、EC9852型硫化氢在线分析仪经数据采集系统与微型计算机相连，对整个装置的运行状况进行监视和调整。

sim(u,v)WED

(8)

从公式可以看出，通过权重因子α的调节，采用加权相似度计算用户的相似度，既提高了共同评分项目的重要性，也将用户的兴趣偏好考虑进去，从而提高了发现邻居的准确性。

驱动学科协同发展，创新营养管理模式，关注卒中后吞咽障碍患者营养管理。顺应医护一体化发展趋势，一项小举措可以服务医院发展大战略。

2.3 算法步骤

根据以上描述，设计算法如下：

输出：MAE,RMSE

算法：融合信息熵和加权相似度的协同过滤算法

Y o u n g是他给自己起的名字，他说他早把两个方块字组成的名字忘了。因为他们家在他出生前就移民美国了。所以他只知道他爹姓杨，江浙人士，别的一概不知，说也不想听。

输入：用户-项目评分矩阵R,α

小型旅游经营实体的发展增加了家庭收入，扶贫效益明显。察布查尔县孙扎齐乡还有部分村民无法通过创办旅游经营实体有效参与旅游业的发展，即使有一部分村民参与其中，也未达到预期的效果。调研中发现农家乐等经营户对于外部环境反应不敏感，对国家和政府优惠政策不了解，与外部市场脱节，这无疑加大了政府扶贫事业的难度。乡村旅游经营实体之间业务竞争激烈，开展项目也较为相似。

为促进规模化、标准化种植，提升农民的种植效率，日本政府提出生产资料购置补贴政策，鼓励农民按照相关标准进行种植生产。对规模化养殖、温室蔬菜种植，政府予以相关设施购买费用的补贴，其中由中央和地方财政补贴75%，剩余25%的费用可通过特定的金融机构进行贷款。2007年开始实施“跨品种经营稳定政策”，改革稻米生产调整及价格补贴，针对特定骨干农户，不分品种地对其整体经营收入进行补贴支持，加大对农地、水资源、环境保护等的政策支持。

Step2根据式7计算多用户之间的差异信息熵H(Duv);

(3)修正的余弦相似性(adjusted cosine)。

Step4:根据式1，并参考最近邻居集合N，计算目标用户对未评分项目的预测评分值;

Step5:将预测评分值降序排列，产生推荐项目集;

Step6:根据推荐结果和式10、11，计算MAE的值。

3 实验

3.1 数据集

应用于推荐系统研究的数据集包括公开的MovieLens,Netflix以及Jester等，不同数据集的稀疏度是不一样的。采用由明尼苏达大学GroupLens研究院小组提供的MovieLens_100K数据集，其评分尺度是从1到5的整数，数值越高，表明用户对该电影的偏爱程度越高，反之则表示用户对该电影不感兴趣。选用的数据集包括943个用户对1 682部电影的100 000条评分记录，每位用户至少对20部不同的电影进行过评分。该数据集的稀疏度为：

(9)

可见数据非常稀疏。数据集的内容共4列，分别是用户ID、电影ID、用户对电影的评分、时间戳。该数据集主要由两部分组成：base数据集和test数据集。其中base数据集作为样本数据集，经过训练后可以得到目标用户对未评分电影的预测评分；test数据集是用户对电影的实际评分，通过预测评分和实际评分的对比，可以得到推荐精度。

3.2 评价指标

推荐算法实验中常用的度量指标有均方根误差(RMSE)、平均绝对误差(MAE)、准确率、召回率等，文中采用MAE来度量，表示预测评分与实际评分之间的差距。计算公式如下：

(10)

(11)

其中，putj和分别表示目标用户 ut对项目j的实际评分和预测评分。根据式11可以发现，MAE的值越小即偏差越小，表示推荐效果越好。

3.3 实验结果及分析

3.3.1 确定α的值

Discussion on the wisdom of the local design with sharing the gables——A case study of historical village “Dongchu Island”

根据式8可知，参数α的值在相似度计算中起到了重要作用。为了获取最佳参数值，分别取参数的值为0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0,计算每个参数值相对应的MAE和RMSE，结果如图1和图2所示。图中四条折线分别表示近邻个数在取5，10，20，30时不同的结果。图1和图2表明，虽然近邻个数取不同的值，但是都在α=0.1时MAE和RMSE取得最小值，即当α=0.1时取得最佳推荐效果。

图1 不同α值对应的MAE

图2 不同α值对应的RMSE

3.3.2 实验结果与分析

生成式模型将采用联合概率score(x,y|θ)（其中，已知序列为x，依存分析结构为y，模型的参数为θ）生成一系列依存句法树，并赋予其概率分值，然后采用相关搜索算法找到概率打分最高的分析结果作为最后输出。在句法分析中，已知序列输入的是句子；输出的是依存结构树T。生成式模型的最终目标是从训练模型中获取使联合概率P(T,S)取得最大值的参数θ，得分最高的依存结构树。为了便于计算联合概率P(T,S)，可以对句法分析问题作出不同程度的假设，这将有效减少数据稀疏问题。

我们到访之时，发现办公楼一层正在装修，细问之后了解到，由平阳政府牵头，国望集团、温州大学三方合作成立的智能研究院中心，就将设在这里，这亦是国望集团又一次被值得珍惜的合作，而其意义在于推动印后行业的发展。以前，实验室多设立在院校中，通常被认为有高度而缺乏实际，但此次三方合作恰是理论与实际的全面对接，对于技术的推动会有更加精准与实际的效用。

根据以上所述，在使用加权后的相似度计算公式时，取α=0.1。接下来通过仿真实验，将传统的协同过滤算法(PCC)、使用信息差异熵作为相似度计算的协同过滤算法(WED)与提出的融合信息熵和加权相似度的协同过滤算法(NEW)进行对比，以验证该算法的有效性。图3和图4分别表示三种算法在不同近邻个数情况下的MAE值和RMSE值。

如图所示，不同的近邻个数也影响其MAE和RMSE的值。因为在适当的邻居范围内，推荐效果可以达到最佳，近邻个数太少，没有参考价值；相反近邻个数太多，会混入其他的噪声数据，因此选择适当的近邻个数也是必要的。

图3 三种算法对应的MAE值

图4 三种算法对应的RMSE值

另外，在近邻个数相同的情况下，提出的协同过滤算法相较于传统的协同过滤算法和基于信息差异熵的算法，其MAE和RMSE值均低于后两者，因此该算法可以有效提高推荐质量，缓解数据稀疏带来的问题。

4 结束语

在传统基于用户的协同过滤算法的基础上，通过引入用户间的差异信息熵值，可以在一定程度上有效缓解数据的稀疏性带来的影响。在此基础上，通过使用加权相似度的方式强化共同评分用户的作用，提高最近邻居的识别度。实验结果证明，融合信息熵和加权相似度的协同过滤算法有效提高了推荐效果。在提高推荐效果的基础上，进一步降低时间复杂度、缩短计算时间将是下一步的研究方向。

参考文献：

[1] 张宁昳.Amazon个性化推荐系统的文本组织结构研究[J].图书与情报,2013(5):103-106.

[2] BALUJA S,SETH R,SIVAKUMAR D,et al.Video suggestion and discovery for Youtube:taking random walks through the view graph[C]//Proceedings of the 17th international conference on world wide web.[s.l.]:[s.n.],2008:895-904.

[3] 邢春晓,高凤荣，战思南，等. 适应用户兴趣变化的协同过

滤推荐算法[J].计算机研究与发展,2007,44(2):296-301.

[4] SYMEONIDIS P,NANOPOULOS A,PAPADOPOULOS A,et al.Collaborative filtering based on user trends[M]//Studies in classification data analysis & knowledge organization.Berlin:Springer,2008:375-382.

[5] BOBADILLA J,ORTEGA F,HEMANDO A,et al.Recommender systems survey[J].Knowledge-Based Systems,2013,46:109-132.

[6] JAMALI M,ESTER M.Trustwalker:a random walk model for combining trust-based and item-based recommendation[C]//Proceedings of the 15th ACM SIGKDD international conference on knowledge discovery and data mining.New York,NY,USA:ACM,2009:397-406.

[7] SARWAR B,KARPIS G, KONSTAN J,et al. Item-based collaborative filtering recommendation[C]//Proceedings of the 10th international conference on world wide web.[s.l.]:[s.n.],2001:285-295.

[8] 刘江东,梁刚,杨进.基于时效性的冷启动解决算法[J].现代计算机,2016(5):3-6.

[9] 黄创光,印鉴,汪静,等.不确定近邻的协同过滤推荐算法[J].计算机学报,2010,33(8):1369-1377.

[10] 李聪,梁昌勇,马丽.基于领域最近邻的协同过滤推荐算法[J].计算机研究与发展,2008,45(9):1532-1538.

[11] 刘芳先,宋顺林.改进的协同过滤推荐算法[J].计算机工程与应用,2011,47(8):72-75.

[12] MULLER K R,MIKA S,R width=11,height=11,dpi=110 TSCH G,et al.An introduction to kernel-based learning algorithms[J].IEEE Transactions on Neural Network,2001,12(2):181-201.

[13] SHANNON C E A.A mathematical theory of communication[J].ACM SIGM-OBILE Mobile Computing & Communications Review,2001,5(1):3-55.

[14] 刘江冬,梁刚,冯程,等.基于信息熵和时效性的协同过滤推荐[J].计算机应用,2016,36(9):2531-2534.

[15] KALELI C.An entropy-based neighbor selection approach for collaborative filtering[J].Knowledge-Based Systems,2014,56:273-280.

作者

李玲，王移芝

出处

《计算机技术与发展》 2018年第05期

上一篇：基于文本属性的微博用户相似度研究

下一篇：基于弱特征重识别的多目标长效摘要

《计算机技术与发展》2018年第05期文献

大数据下数据预处理方法研究作者：孔钦，叶长青，孙赟

基于最小二乘法和BP神经网络的TOA定位算法作者：浦佳祺，陈德旺

基于权重自适应形态学的周期性噪声去除方法作者：戴丹，张兴刚

一种基于标签的程序控制流错误检测方法作者：姚伟，顾晶晶

基于文本属性的微博用户相似度研究作者：李梦洁，邵曦

融合信息熵和加权相似度的协同过滤算法研究作者：李玲，王移芝

基于弱特征重识别的多目标长效摘要作者：石亚玲，刘正熙，熊运余，李征

基于模型的IMA时间资源配置验证方法研究作者：王明明，胡军，张维珺，李宛倩

基于兴趣度度量的正负关联规则挖掘方法研究作者：马彦勤，武彤，邓烜堃

一种基于深度残差网络的车型识别方法作者：刘敦强，沈峘，夏瀚笙，王莹，贾燕晨

基于分项可变权函数的各项异性去噪模型作者：王锐锐，蔡光程

基于AHP的大数据可用性及挖掘方案模型研究作者：杨明，李铁冰，姜茸，高提雷，王佳

基于全卷积网络的目标检测算法作者：施泽浩，赵启军

基于博弈论的ALM协议改进算法作者：蔡媛媛，曹自平，张金娅

改进的新型蝙蝠算法作者：吕赵明，张颖江

基于节点兴趣非结构化P2P网络搜索机制研究作者：庄伟

自适应学习系统中“KCP学习者模型”研究作者：李春生，张永东，刘澎，张可佳

基于主成分特征的快速分形图像压缩算法作者：张爱华，唐婷婷，汪玮玮，张璟

基于量子粒子群优化的DV-Hop算法研究作者：张中芳，张玲华

无线感知网络中动作识别的滤波算法作者：吴春香，张建明

基于社交网络分析的诈骗团体挖掘方法研究作者：贾志娟，赵靓，周娜

一种高性能计算网络下的TCP查找哈希算法作者：张立武，冯宝，周建华，李洋，茅天奇

一种基于预判筛选的频繁项集挖掘算法作者：李德辰，吕一帆，赵学健

基于人工鱼群算法的改进质心定位算法作者：汪晨，张玲华

基于智慧实验室的安全事故分析与预测作者：楚丹琪，李睿智，高洪皓，张康

基于龙芯处理器的嵌入式可信解决方案作者：易平，庄毅

基于位置推荐中的隐私保护方法研究作者：张海涛，汪佩佩

面向OSPF脆弱点的分节点污染方法研究作者：周季璇，顾巧云，凤丹

基于计算机软硬件的视频监控系统设计与研究作者：黄岩

多服务器环境下动态身份认证密钥协商方案作者：曹阳

杂志信息网