快捷分类

一种融合协同过滤和用户属性过滤的混合推荐算法

更新时间：2016-07-05

目前，云南电网年培训人次达6万，具有规模大、内容覆盖面广、专业多、专业性强等特点，如何根据每个用户行为数据对用户推送其感兴趣的项目（如设备知识点）成为培训中一个难题。于此，本次研究中提出了一种融合协同过滤和用户属性过滤的混合推荐算法，即移动端通过用户行为收集用户习惯行为信息，利用该算法对用户的基本行为习惯进行分析整合，结合用户的兴趣为其推荐对应的项目服务。在平台“基于数字编码的移动学习管理平台”中的实验及实际应用中表明，本文算法在对比其他推荐算法具有较优的信息推荐效果[1-2]。

1 混合推荐算法

1.1 协同过滤下邻居用户的寻找

当前，信息推荐领域算法种类繁多，一般常见的是协同过滤算法。协同过滤算法是通过分析所有用户对物品的偏好，发现与当前用户爱好相似的邻居用户群，根据发现的相似用户群对当前的匹配用户进行信息推荐；另一种类型是基于项目的协同过滤算法，这种算法是在分析物品与物品之间相似度后，根据当前用户爱好为其推荐相似的物品[13-14]。本文中混合算法是一种基于用户的算法，通过对不同用户之间的相似度进行匹配，推荐给用户相似邻居的个性化推荐内容。本文考虑到用户的兴趣会随时间不断发生变化，提出了时间热度这一概念，并对相似度计算进行优化。

1）用户评分矩阵

系统中需要在得到匹配用户对项目的兴趣评分的基础上，利用评分值反映用户对项目的兴趣值。评分值范围一般在1～5，为概似值范畴，相对的评分值越高，即表示当前匹配用户对项目的兴趣度越大[15]。设 I1、I2、...、IM 为系统的项目，U1、U2、...、UN为系统的用户，将用户对项目的评分填入对应的矩阵单元中，即可得到用户-项目评分矩阵，如表1所示。

表1 用户-项目评分矩阵

U1 U2 U3…UN I1 5-3…5 I2--4…-I3 12-…-………………IM-4-…-

2）时间热度

时间热度是指用户访问项目的时间新鲜度，访问时间离当前时间越近则新鲜度越高，时间热度就越高，反之亦然。设Dui表示用户u访问项目i的时间与用户u最早访问系统任一项目的时间间隔（在数据库中有相应的时间记录），定义时间热度函数WT（u，i），它是一个和Dui相关的函数值。在本文研究中，为了能够对访问项目的重要性进行重点突出，其通过设计一种关于Dui的递减函数来对其进行表示[16]，即对于 Dui>Duj，有 WT（u，i）≥WT（u，j）。时间热度函数计算公式如下：

对于传统的算法，其在当前用户的邻居寻找时，对时间方面并无涉及，但时间概念对用户的兴趣具有较大的影响，若将这一因素忽略往往导致推荐的内容同用户需求之间产生较大的变化。为了寻找对推荐结果更有价值的相似用户，考虑用户近期访问的项目比早期访问过的项目更能反映用户兴趣，本文在相似度计算公式里面加入了时间热度因素，避免了在相似度计算时忽视了时间概念对用户兴趣的影响，增加寻找相似用户的可信度。

上述公式为线性函数，其中Lu指的是用户u在进行推荐系统使用时的时间跨度，也就是该用户最早访问的项目同当前需要访问项目之间的时间间隔，a∈（0，1）称为权重增长指数。

在此次创新战略中，美国首次提出政府层面的服务创新策略，并采取人才、创新思维和技术的结合来提高政府的工作绩效。政府部门的具体创新措施主要包括以下4个方面：一是创建“创新工具包”，改进政府核心服务流程，提高政府解决问题的效率；二是建立政府创新实验室，激发政府部门工作人员的创新能力；三是创建数字服务团队，提升政府部门对美国民众和企业的在线服务质量；四是建立证据机制来推动社会创新。

2）计算用户之间的相似度

计算用户相似度的方法有很多，最常见的一般是Pearson相关系数。用户集U、项目集P以及给定的用户所对项目的评分矩阵R（如表），ra，p表示了匹配用户a对兴趣项目p的评分，`ru表示匹配用户u对兴趣项目P评分的平均值，则用户a和用户b的相似度表示如下：

这种模式的核心是通过油气调控中心集中实施全国或区域天然气管网统筹调控（“管道＋调控中心”模式），以国家油气调控中心为纽带，连接天然气购买方（天然气下游用户）、销售方（天然气供应商）、承运方（管道公司），通过运输服务完成天然气的实物转移，促成天然气交易功能（天然气交易中心）的实现（见图6）。“管道＋调控中心”模式与主流思路的差异主要是管道的所有权和使用权分开，仅涉及使用权的调整，所有权仍归原管道企业，最大程度保证油气供销单位的管道投资建设的积极性。

在传统的算法中，当其在对当前用户兴趣进行分析时，往往会将时间这一影响因素考虑在外，而在文中通过Pearson系数[17]对算法进行了改善，从而能够为用户推荐更加具有价值的内容，改善的公式内容为：

从公式（3）中可以看出，引入时间热度之后，在计算a和b的相似度时，用户历史中近期的兴趣将会反映更加充分。利用优化后的公式（3）可计算出当前用户与其余用户的相似度，在得到似度的基础上可以用Top-N原则票选出当前匹配用户的N位邻居用户。

式中：为第i个属性的权重，所有属性的权重值相加为1。

1.2 用户属性过滤下相似度低的邻居用户滤除

要求在用户属性过滤下对计算出的相似度比较低的邻居用户进行滤除，需要得到对应用户的特征矩阵。而计算对应特征值则需要对用户的一系列属性进行特征提取，提取方法广泛，在得到了对应用户的特征矩阵后，即可计算出相应用户与用户之间的相似度。

1）建立用户的特征矩阵

一个用户可有多种属性，本文提取其中较能反应用户特征的7种属性来构建用户特征矩阵，分别是：工种、学历、工龄、归属部门、性别、岗位、技能等级。特征矩阵如表2所示。

表2 用户特征矩阵

用户用户1用户2用户3…工种工种1工种2工种3…技能等级等级1等级1等级1…岗位岗位1岗位2岗位1…归属部门部门1部门2部门1...……………

3）Pearson相关系数的优化

用户特征属性包括工种、学历、工龄、归属部门、性别、岗位、技能等级，则用户u的特征属性可以用向量 UAttru=（au1，au2，au3，au4，au5，au6，au7）来表示。其中，从u1到u7分表代表以上用户特征属性。对于数值属性，如工龄，根据实际经验本文规定若二者工龄相差超过3，则认为二者不同；对于分类属性，例如工种、学历、归属部门、性别、岗位、技能等级则采用原始值。若用户u和用户v的第i个属性相同，我们令USimUAttr（u，v，i）=1，否则USimUAttr（u，v，i）=0。用户u和v的相似度可以用下面的公式来计算[18]。

但是通过本文提出的改进的用户相似度计算公式（公式（3））计算得出的相似用户集合，其集合中也有可能会存在与目标用户兴趣差异很大的相似用户，所以在一般情况下并不能对用户群中匹配的所有的相似用户都可以有很好的信息推荐效果。由这样的相似用户产生的推荐准确率是比较低的。之所以会存在这种现象，主要是由于评分矩阵比较稀疏的缘故导致的，接下来要做的就是要再次过滤掉这类相似度比较低的用户。

1.3 推荐步骤的描述

4）匹配用户a对项目p的预测评分ra，p的计算公式如下：

发酵床垫料管理作为异位发酵床管理工作的核心部分，其主要是通过翻堆机进行垫料的翻堆处理。影响垫料发酵的粪污添加量也是影响发酵效果的一个重要因素，主要是由于缺乏与垫料处理能力相适应的粪污添加量控制体系，且经常性出现过量添加等问题，导致发酵床变成过滤床，其发酵功能无法得到充分发挥。因此，生猪养殖人员还需要进行异位发酵床管理规程的合理制定，并需要在此基础上进行发酵床垫料的严格管理，以获得良好的粪污处理效果[4]。

2）对于待推荐用户，利用前文中改进过的相似度计算公式（3），得到当前匹配用户与其他用户的相似度，结合Top-N原则票选出由N位匹配用户所组成的相似邻居用户集。

3）依据本文前面介绍特征矩阵建立方法建立对应用户的特征矩阵，并且可以通过公式（4）得到的N位邻居用户逐一与当前匹配用户的相似度比较分析，根据相似度大小由小到大对匹配用户N位邻居用户整理，经过排序分析，以票选方式选择出最终的对应M位可信邻居（M<N）。

融合协同过滤和用户属性过滤的混合推荐算法其具体实现流程有以下几个步骤：

5）在得到预测的基础上，由Top-N方法票选出最终能代表当前匹配用户最佳信息推荐项目的项目集合。

海螺肉(厚度为5 mm的切片，水分61.67%，灰分2.69%，粗蛋白18.20%，粗脂肪1.46%)；速溶红茶粉末(烟台市强诺商贸有限公司)；安琪活性干酵母粉(安琪酵母设备有限公司)；实验用水(二次蒸馏水)。

2 实验以及结果分析

2.1 实验数据与度量

数据稀疏度是指不包含数据的单元与总单元的相对百分比，其计算公式如下：

式（6）中：A表示已包含数据的单元数，P表示总单元数。本文采用自《基于数字编码的移动学习管理平台》产生的数据集，包含897个用户对122个项目的8 600条兴趣评分，评分的值为1到5，根据公式（6）可计算出数据稀疏度为0.921 4。在数据集中随机性抽取其中百分之八十作为训练集，另外百分之二十作为测试集。利用所抽取的百分之八十的训练集中的数据和本文所属的算法来算出测试集中所有单元的预测评分，对比测试集中的实际评分可对算法的推荐质量进行分析。

在实验中的评价指标采用平均绝对误差（MAE）。实验中计算得出的测试度量集合中的测试用户对项目的预测评分一般与实际的用户评分有一定的偏差，而MAE可以通过这种偏差对度量结果的准确性进行度量，一般而言，MAE测试度量值越大，推荐质量越低；越小，推荐质量越高，也即推荐可信度越高。具体的MAE计算公式为：

最后，根据样本的代表性，分别从区域分布、经济发达程度、数据完备性等条件选择有代表性国家30个，共343组数据构成不均衡面板数据。其具体国家包括：北美洲的美国、加拿大；南美洲的巴西、哥伦比亚；大洋洲的澳大利亚、新西兰；非洲的南非、肯尼亚、纳米比亚、斯威士兰；亚洲的日本、印度、印度尼西亚、吉尔吉斯斯坦、斯里兰卡、亚美尼亚；欧洲的德国、法国、意大利、西班牙、葡萄牙、挪威、瑞士、希腊、芬兰、斯洛伐克、捷克、保加利亚、克罗地亚、塞尔维亚。

1）由用户访问项目的具体时间，根据公式（1）计算时间热度。

预测的用户评分集 pi为{P1，P2，…PN}，对应实际的用户评分集 qi为{q1，q2，… ，qN}，

变式二如图14，△ABC中，AB>AC，D，E分别是AB，AC上的两个动点，且BD=CE，连结DE.DE上一点F，满足则点F的轨迹为平行于AG的一条线段，且线段AG满足证明略.

业绩考核不仅包括对企业从整体进行考核，而且也有对员工个人工作业绩的考察。在对企业整体进行考核的时候，所涉的范围非常广，就各种信息资料而言就有庞大的数量。利用大数据对客户资料进行整合处理，极大程度上使企业的业绩考核变得具有科学性，而且更具有效性。在这样的整合下，企业运营状况会变得一目了然，清晰明确。

2.2 结果分析

为了验证文中混合推荐算法的有效性，分别对传统的协同过滤算法（UserCF）和本文混合推荐算法（Hybrid Recommendation Method，HRM）进行了对比实验，实验的结果如图1～2所示。图横坐标为K值（用户数），纵坐标为评价指标MAE值。

1）从两个图可得出，基于协同过滤算法的MAE值在整个k值区间都要大于本文混合推荐算法的MAE值，MAE越小，表示推荐质量越高，由此可说明本文所述的混合推荐算法在整体推荐精准度上优于传统的协同过滤算法。

（一）死亡损失仔猪从出生至断奶死亡率20%左右，严重影响猪群的发展，造成经济损失重大。据报道，出生时死亡1头仔猪约损失63 kg饲料，10周龄死亡1头约损失110 kg饲料。一头母猪年提供的断奶仔猪头数越多，每头断奶仔猪应负担的饲料越少。因此，提高哺乳仔猪的成活率是降低成本、提高经济效益的重要措施。

2）从两个图可得出，当k>60后，随着k值的增加，两种算法的MAE值都有所增加，但是基于协同过滤算法的MAE值的增长速率明显高于基于本文混合推荐算法的MAE值的增长速率，MAE值增长速率越低，则表示推荐稳定性越好，由此可说明本文所述的推荐算法在稳定性上要优于传统的协同过滤算法。

图1 基于协同过滤算法的MAE值

图2 基于本文混合推荐算法的MAE值

3 结束语

相关参数关系分析和信息推荐方法对比实验表明，本文所支持的融合协同过滤和用户属性过滤混合推荐算法在一定程度上是行之有效的算法，相对于传统经典的协同过滤算法一定呈上缓解了数据稀疏矩阵所造成的用户相似度不高的问题，其推荐范围更广，推荐可信度也更高，推荐效果更优。但是本文提出的算法还存在一些其他问题，例如在用户属性过滤下比较对应匹配用户与用户之间相似度值时，对匹配用户的不同属性特征在计算模型中的权重如何分配等问题还有待进一步的深入研究。

随着时代的发展，人们对猪养殖的要求逐渐提升，疾病作为影响猪养殖质量的重要影响因素，需要对其展开严格的控制。猪常见疾病能够分为多个种类，不同疾病的症状以及控制措施都不同，因此相关人员需要对其展开合理有效的控制。本文将对几种猪常见疾病类型展开介绍，并根据目前猪养殖的现状，制定出相应的控制方案，最终达到对猪常见疾病展开良好控制的目的。

参考文献：

[1]刘庆鹏，陈明锐.优化稀疏数据集提高协同过滤推荐系统质量的方法[J].计算机应用，2014，24（12）：88-91，95.

[2]张亮.基于协同过滤与划分聚类的推荐算法研究[D].长春：吉林大学，2014.

[3]王雪.协同过滤推荐算法的改进研究[D].鞍山：辽宁科技大学，2016.

[4]一种适应于e-Learning环境的复杂推荐算法[J].环球信息，2014，17（2）：271-284）

[5]温梅.个性化推荐中基于贝叶斯网络的用户兴趣模型研究[D].武汉：华中师范大学，2013.

[6]李克潮，蓝冬梅.一种属性和评分的协同过滤混合推荐算法[J].计算机技术与发展，2013，23（7）：116-119，123.

[7]郝丽燕，王靖.基于填充和相似性信任因子的协同过滤推荐算法[J].计算机应用，2013，33（3）：834-837.

[8]陈彦萍，王赛.基于用户-项目的混合协同过滤算法[J].计算机技术与发展，2014，24（12）：88-91，95.

[9]许智宏，王宝莹.基于项目综合相似度的协同过滤算法[J].计算机应用研究，2014，31（2）：398-400.

[10]李克潮，梁正友.适应用户兴趣变化的指数遗忘协同过滤算法[J].计算机工程与应用，2011，37（6）：226-243.

[11]杨秀萍.融合用户评分和属性相似度的协同过滤推荐算法[J].计算机与现代化，2017，33（7）：16-19.

[12]刘欣.面向社会化媒体的内容推荐若干关键技术研究[D].北京：北京邮电大学，2015.

[13]王三虎，王丰锦.融合用户评分和属性相似度的协同过滤推荐算法[J].计算机应用与软件，2017，34（4）：305-308，321.

[14]Xiangyu Tang，Jie Zhou.稀疏数据下的动态个性化推荐[J].IEEE知识与数据工程汇刊，2013，25（12）：2895-2899.

[15]李梁，张海宁，李宗博，等.融合用户属性的协同过滤推荐算法在政府采购中的应用[J].重庆理工大学学报：自然科学，2015，31（1）：76-81.

[16]纪科.融合上下文信息的混合协同过滤推荐算法研究[D].北京：北京交通大学，2016.

[17]邹永贵，望靖，刘兆宏，夏英.基于项目之间相似性的兴趣点推荐方法[J]计算机应用研究，2012，29（1）：116-118，126.

[18]陈庚午.混合推荐算法在云计算平台的研究与应用[D].沈阳：中国科学院研究生院（沈阳计算技术研究所），2016.

作者

曹俊豪，李泽河，江龙，张德刚

出处

《电子设计工程》 2018年第09期

上一篇：基于.NET的教学资源管理系统设计与实现

下一篇：OpenStack云平台中的网络数据性能研究与优化

《电子设计工程》2018年第09期文献

试验机环境振动测试技术研究作者：朱丽，王小辉

室内空气品质无线监测系统的设计作者：张棣，陈向东

灯光自动控制系统的设计及实现作者：刘睿琼，张文丽

基于水流发电的自充电式电动阀门设计作者：陈显祥

基于开放式靶标的数学建模及传感器阵列分析作者：杜立

空炸点声学测量系统设计及关键技术研究作者：李大伟，刘云海，万博，周磊，王婷

智能交通管理系统的研究与设计作者：高美蓉

基于HMOPSO的数控切削参数优化模型的建立与仿真作者：郭婷

IEEE 802.11帧聚合机制在NS-2平台上的仿真与实现作者：王磊

自适应有源天线垂直扇区化方法研究作者：张新越，杨阳，谭国平，李岳衡，李旭杰

校园移动IT资源管理系统的设计与实现作者：刘梅，潘伟锵，黄国林

飞行试验IENA数据实时处理技术研究作者：贾雨，吴海东，齐禅颖，王爽

基于Win7+RTX2012的LVDS遥测采集卡驱动程序开发作者：王少虎，刘亚斌

机载多功能显示器的半实物仿真实现作者：陈鸿，刘开元，盛颖章

基于神经网络算法的大数据分析方法研究作者：周林腾

基于X射线的GIS设备可视化检测系统作者：钟飞，黄升平，张晓春，黄炎，钟力强

高低温试验箱远程控制系统的设计及实现作者：刘西强，刘锟龙，赵向辉

基于ARM及ZigBee的智能家居远程监控系统实现路径作者：李艳

基于HTTP协议报文分析的计算机网络取证研究作者：宋璐璐

基于云平台和大数据的移动病患管理系统作者：黄愉然

二阶Thevenin锂电池等效模型参数离线辨识作者：王世繁，罗杨，董亮，李国良

基于多信号模拟的电子系统可测算法分析作者：张少凤

基于.NET的教学资源管理系统设计与实现作者：张健

一种融合协同过滤和用户属性过滤的混合推荐算法作者：曹俊豪，李泽河，江龙，张德刚

OpenStack云平台中的网络数据性能研究与优化作者：徐启后

基于客户端/服务器结构的医院信息管理系统的开发与设计作者：杨英

基于结构方程建模的移动高等教育信息系统的研究作者：王郁

一种多功能接口电路板设计及EMI仿真作者：白陶艳，詹浩然，刘召庆，霍丽烨，李琼，王乐

基于一致性的无人机编队形成与防碰撞研究作者：秦文静，林勇，戚国庆

基于Labview的钻孔钻探参数无线监控系统设计作者：朱珺

杂志信息网