更全的杂志信息网

基于网络信息的混合推荐算法研究

更新时间:2009-03-28

0 引 言

近年来, 随着国内互联网的发展和普及, 用户对于有效网络信息的获取遇到严重的信息过载问题, 从大量信息中及时找到用户感兴趣的信息是非常困难的, 推荐系统正是解决该问题的工具[1]。因此笔者研究基于网络信息的内容推荐。推荐系统通过使用推荐算法, 分析用户的兴趣、 搜索历史等特征对其进行综合分析, 同时进行个性化推荐[2]。在当前应用频率较高的推荐系统中, 有两类方法使用最为广泛, 一是基于内容的过滤(CBF: Content-Based Filtering), 二是协同过滤(CF: Collaborative Filtering)[3]。CF是通过分析用户兴趣, 在用户群中找到指定用户的相似用户, 综合这些相似用户对某一信息的评价, 形成系统对该指定用户对此信息的喜好程度进行预测的一项技术[4,5]。因为CF是以相似用户为基础判断目标用户对某一事物可能有的偏爱程度, 所以对于目标用户自身实际的偏好还是无法进行准确反映, 因此对于用户个性化方面有所忽略, 可能会导致推荐结果与目标用户预期结果偏差过大。同时它还存在相似用户群的局限性问题。比如, 对某个事件的报道信息有许多, 当其在某一时刻被几个用户注意到, 而如果他们观看的信息又恰巧不相同, 这时协同过滤的作用就会受到限制, 不能把关注该消息的用户认定为具有相似性。而CBF通过当前用户的历史行为进行选择性的推荐, 所以对每个用户的偏好具有针对性。但CBF却存在着推荐多样性不足的缺点: 面对不断更新的消息, 用户之前的浏览记录无法与最新的内容相匹配, 因此CBF不能向用户推荐最新内容; 除此之外, 对某些用户自身也许都不了解是否喜欢某一类信息的情况, 其也不能做出正确的推荐。即传统基于内容的方法不能推荐出与用户先前阅读内容不相近的信息[6]

针对上述问题, 笔者提出一种混合式推荐方法, 这种方法在协调过滤的基础上进行创新, 找到用户的隐藏偏好, 同时使用以内容为基础的推荐收集用户表现出比较明显的兴趣, 并将两个模型进行融合, 得到最终的预测模型。与传统的方法相比较, 笔者提出的算法既满足了用户个性化要求, 也注重于其对多样性的需求。

1 相关理论

1.1 牛顿冷却排名

文献[7]中提出了基于牛顿冷却定律的热门排序方法, 即将热门排名想象成一个自然“冷却”的过程。同样, 在时间不断流逝的过程中, 使用客户所关注的信息热度也在不断下降。

彭柏林教授在公益伦理概念的界定中指出:“……是依据一定社会伦理道德的基本价值观念对公益救助活动的客观要求所进行的理性认识和价值升华。”[2]彭柏林教授认为公益伦理的产生是建立在人们对蕴涵在公益救助活动中的道德必然性的认识和把握的基础之上的。因此,以非政府、民间的形式对社会弱势群体实施人道救助的社会活动——公益救助是公益伦理得以展现的载体和基础。

对此, 可围绕“时间”和“温度”构造一个函数, 经历“指数式衰减”, 应用牛顿冷却定律(Newton’s Law of Cooling), 即物体的冷却速度与其当前温度与室温之间的温差成正比。其简化公式为

包围盒处理完成后则得到了所有块缺陷区域的最小外接矩形坐标,其中分块区域的缺陷区域外接矩形坐标可表示为(xmin,n,ymin,n)(xmax,n,ymin,n)(xmin,n,ymax,n)(xmax,n,ymax,n)。

T=T0e-α(t-t0)

(1)

其中T为当前温度, T0为上一期温度, α为冷却系数, t-t0为间隔时间。

该公式(1)应用到信息的重要程度中

μ=μ0e-α(t-t0)

1) 用LDA模型获取每个用户兴趣的主题分布, 并将文本内容向量化;

其中θ为主题分布, z为主题类别, αβ分别为主题分布和词分布的先验分布参数, N为文档单词总数, M为文档总数, W为文档中的词。

1)学生计算机理论知识掌握较之前有显著好转。在此教学模式下,学生可以通过课前导学和课后总结梳理自己的理论知识,并将理论应用到实际任务中去,真正做到理论和实践相统一。2)做到了真正的分层次教学。采用线上线下混合式教学,我们可以把学习资料和任务要求,分难度等级发布到网上,学生可以根据自身的情况有选择性有针对性的学习和操作,从而满足了不同学生的学习需求。3)师生随时互动,过程化考核成为可能。老师可以通过查阅学生作业,统计学生观看教学视频的次数和回复的周记,了解每个学生的学习进度和难点困惑,并能通过掌上app随时解答学生问题,对学生有了更多的互动考察机会。

1.2 隐含狄利克雷分布

隐含狄利克雷分布(LDA: Latent Dirichlet Allocation)是当前最具有代表性, 也是最流行的一种概率主题模型, 可识别大规模文档中隐藏的主题信息[8]

LDA模型包含词、 主题和文档3层结构, 其生成的概率模型图如图1所示。其联合概率为

 

1.5 统计学处理 采用SPSS 20.0进行数据处理,计量与计数资料分别行t与χ2检验;采用多因素回归分析对各脑叶CT值与临床特征的相关性进行分析。P<0.05为差异有统计学意义。

  

图1 LDA概率模型图 Fig.1 Probability model of LDA

LDA模型生成文档的具体过程如下。

1) 按照狄利克雷分配, 选出一个主题分布: θp(θ|α)。

2) 设文档中有N个单词, 则对每个单词作如下操作:

同时考虑时间因素的影响[11], 利用前面提到的牛顿冷却系数作为时间影响系数。将用户u所浏览信息的集合表示为Du={du1,du2,…,dum}, 将用户浏览信息的时间设为ti, 将当前的时间设为tcur, 则dui中任意特征词权值wuij还应乘以下系数

② 按照该主题, 选择一个单词: wnp(w|z,β)。

对训练集合中的文本进行分词、 去停用词等工作, 通过TF-IDF(Term Freqencay-Inverse Document Freqency)初步建立文档相关的向量空间模型。然后利用LDA进行主题模型建立, 通过其不仅达到降维目的, 同时还能避免使用其他特征抽取法带来的性能受损问题。同时LDA考虑了词语间的语义联系问题, 提高了分辨性能。笔者对TF-IDF稍加改进, 因为词语位置的不同其在支撑文章内容的作用也就不同, 故作如下假设: 标题中的词的重要性高于内容部分重要性, 因此根据词所在位置不同赋予不同的权重[10], 标题中的词权重放大5倍, 内容中的权重不变。

2 混合式网络信息推荐算法

推荐算法框架如图2所示。

  

图2 推荐算法框架Fig.2 Frame of recommendation algorithm

2.1 建立用户主题模型

LDA是一个词袋模型, 因此文章在训练之前需先分词, 它可以很好地将词组合成不同的主题。该模型自从研发出就得到了各界的好评, 并且其所涉及的范围比较广泛, 近几年取得比较显著的进展, 同时人们也构建了不少比较相似的模型, 并且在对文本进行处理过程中得到了普遍使用。上述模型能把具有高维特点的词语空间向具有低维特点的主题空间转换, 能在很大程度上减少相似性检验的时间复杂度, 而且能有效地避免数据的稀疏性问题[9]

她这样抢白着,使赵三感到羞耻和愤恨。同时自己为什么当时就那样卑小?心脏发燃了一刻,他说着使自己满意的话:

① 按照主体分部, 选择一个主题: znp(z|θ);

μi=e-α(ti-tcur)

(2)

2.2 基于内容的推荐

该方法关键在于利用用户以前所关注过的信息为推荐基础, 获取信息内容主题, 即该用户偏好哪方面的信息, 通过分析, 推荐与这些内容类似信息, 可以较为精确地实现推荐。基于内容推荐, 主要分为以下几步。

1) 用2.1节中的方式为每个用户进行主题模型建立, 获取用户兴趣的主题分布。

2) 提取每个信息的主题向量。

3) 根据目标用户的主题分布, 在系统内容库中, 找出与这些主题相关的信息。然后将目标用户的总的兴趣分布与待推荐内容的关键词进行相似度匹配。相似度计算方法如下

协同过滤推荐算法主要是通过分析用户本身的特征, 找出与该用户类似的其他用户。通过推荐与该用户类似的其他用户浏览的信息, 完成协同过滤的网络信息推荐。用传统基于用户的协同过滤进行推荐, 在归纳具有大致相同偏好的用户时, 只通过其对该类消息相应的评价搭建用户-信息的有关联系, 然后计算对应的用户的相似程度[12], 但得到的结果不能完整体现用户的相似度[13]。在面对某件事物时, 一般都会出现很多消息, 假设有两个用户对这件事情很感兴趣, 可是观看的消息却不相同, 在这种情况下, 无法通过协同过滤的方法把这两个关注同一事情的用户列入相似用户。

 

(3)

其中Rud表示信息推荐时信息d与用户u的相似程度, N表示主题的数量, UD分别表示用户和信息内容的主题向量。

4) 将式(3)中计算得到的相似度值进行降序排列, 将前m个信息放入待推荐列表。

2.3 协同过滤推荐

对最终代表我校参加“日进杯”的4位参赛选手的奖励办法:(1)赛事组委会给予的参赛补助全额发放给选手。(2)获得奖项后除赛事组委会给予的奖励外,学校还按相关规定给予一定的物质奖励。(3)获奖者由学校直接推荐给现代公司、靖佳公司等优质诚信企业就业,并提前4个月转正。

针对上述问题, 笔者通过为每个用户建立主题模型, 计算每个用户主题模型之间的相似度获得相似用户群。具体步骤如下:

其中μ为现有权重, μ0为上一期权重, α为冷却系数, t-t0为间隔的小时数。

但由于算例4增加了电动汽车的数量,意味着可移动的储能容量增加,电动汽车的可调功率也会增大,如图14所示。由图14可以看出,电动汽车的调制功率在-1 500~2 000 kW之间,比算例2的可调功率要大。

2) 计算两两用户之间的余弦相似度, 余弦相似度越接近1, 表明这两个向量对应的用户特征越接近;

3) 计算单个用户的候选推荐集合。

计算候选推荐集合方式如下。

公路工程施工中,人是整个工程的主体,因此,在目标管理的应用中,管理人员一定要重视并充分贯彻与落实以人为本的原则,通过各种途径和方式提供平台和机会加强不同岗位施工人员的学习和相互交流,提升其综合素养,使人的作用和价值在公路工程目标管理中得以充分实现。此外,企业要让员工个人思维和智慧参与到整个工程的施工规划和组织中来,并对这种参与进行合理引导和控制,从而调动所有人的积极性,激发其空前的热情和创造力,为企业带来意想不到的收益。

N为用户u的相似用户数量, Lk表示相似用户k观看过的内容记录, M表示所需生成的推荐集合大小。首先根据用户相似度选出相似度最高的前N个用户, 将相似度值构成如下的近邻用户向量: (Su,1,Su,2,…,Su,n), 在对其做归一化处理, 使目标用户的近邻用户向量长度为1得到的向量为: (Wu,1,Wu,2,…,Wu,n), 该向量的元素表示将每个相似用户的历史记录推荐给用户u的权值。由此, 可得到通过该方法获取的用户u的候选推荐集合为

 

(4)

式(4)的意义为: 从用户u的每个相似用户k浏览历史中提取出Wu,kM个历史浏览信息, 去除用户u浏览过的历史信息。最后将得到的所有相似用户的推荐列表合并, 即为通过该方法获取的用户u的推荐集合。

其次,虽然我国对少数民族学生采取了特殊的高考招生政策,但是在少数民族学生就业方面,并未制定相对完备的政策,使得大量的少数民族学生不能按时就业,影响了民族地区的经济和文化发展。因此,要增加有关少数民族毕业生就业问题的政策和法规,加强政府在就业管理与服务工作中的推动作用,同时,用人单位增强自身竞争能力,建立良好的就业环境,吸引人才,增强人才积聚力。[12]如建立“订单式”的人才培养模式,以建立企业和学校的良性互动,缓解少数民族学生的就业问题。

2.4 基于混合算法的信息推荐

通常在实际应用中, 将多种推荐算法混合, 充分发挥多种推荐算法的优点, 并且在一定程度上避免使用单一的基于内容或协同过滤的推荐算法的缺点, 能得到更为精确的推荐结果。从本质上说, 混合推荐算法是一种算法调度和推荐结果权值分配的过程[14]

混合推荐算法主要有加权混合、 交叉混合、 分级混合和瀑布混合等, 笔者主要使用交叉混合推荐[3]。由于上述两种推荐算法的偏好不同, 所以将这两种推荐结果进行交叉显示, 得到目标用户的最终推荐结果。

3 实验设计与结果

3.1 实验环境

1) 硬件环境。CPU: Intel(R) Core(TM) i5-3320M CPU@2.60 GHz 2.60 GHz; 硬盘: 320 GByte; 内存: 4.00 GByte。

此款腕表搭载手上链机心,而报时装置则配备自动上链系统,在大自鸣模式下具有约20小时动力储能。三问功能及其报时系统可依据要求,准确报响时刻。这款腕表的规格特性包括振频为每小时21,600次,动力储能为72小时。腕表具备三种报时模式:大自鸣(报响小时和刻钟)、小自鸣(仅报响小时)和无声模式(不报响时刻)。钛合金共振箱更进一步扩大了鸣响音量,令声音更纯净清澈。此腕表预计每年限量制作5到8枚,其问世也让Greubel Forsey挤身能制作大自鸣腕表的顶级表厂之列。

2) 软件环境。操作系统: Microsoft Windows 7; 开发语言: Python。

3.2 实验结果

笔者基于某新闻网随机选取的1 000名用户浏览记录作为实验数据集, 为方便分析和处理, 将数据导入到MySql数据库中进行统一操作。数据如图3所示, 其中uid表示用户编号, news_id表示新闻编号, l_time表示浏览时间, title表示新闻标题, details表示新闻内容, post_time表示新闻发表时间。

将笔者混合推荐算法与传统的基于内容的推荐[15]、 协同过滤[16]以及传统方法的混合算法进行实验对比,得到结果如图4所示。

  

图3 数据集图Fig.3 Picture of data set

由图3可知, 笔者提出的混合推荐算法在准确率、 召回率方面均优于其他几种算法。

4 结 语

  

图4 推荐算法对比图Fig.4 Comparison on recommendation method

针对传统推荐方法的不足, 笔者提出一种混合式的网络信息的推荐方法。该方法以协调过滤满足用户对推荐信息多样性的需求, 同时以基于内容的推荐算法满足用户对个性化需求。在建立用户主题模型过程中, 结合牛顿冷却定率协调时间对用户兴趣产生的影响。经实践检验, 笔者提出的方法与传统的协同过滤、 基于内容的推荐以及两者的混合算法相比, 在准确率和召回率等方面表现更好, 表明笔者方法的有效性。未来将对相似性算法以及模型融合方面做进一步研究, 以提高推荐的准确性。

从管理上,霍尼韦尔也在加强。要确保设备安全可靠,靠专职人员的巡查也是不够的,更需要全面的管理。由此,结合霍尼韦尔运营系统HOS,公司要求员工每个月都能找到5个可供改进的地方。经过努力,6家工厂共找到了1600多个和安全环保相关的可供改进的地方。目前这些问题95%以上已经实施了改进。战略调整使公司取得了很好的业绩,特别是去年达到三位数增长。环保技术和工艺正在成为霍尼韦尔未来发展的支柱,并有可能在中国连续实现双位数的增长。

参考文献

[1]ADOMAVICIUS G, TUZHILIN A. Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions [J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(6): 734-749.

[2]CORBELLINI ALEJANDRO, MATEOS CRISTIAN, GODOY DANIELA, et al. An Architecture and Platform for Developing Distributed Recommendation Algorithms Oil Large-Scale Social Networks [J]. Journal of Information Science, 2015, 41(5): 686-704.

[3]花凌锋, 李徐红. 基于交叉协同过滤的个性化移动新闻推荐 [J]. 电脑知识与技术, 2017, 13(23): 219,220,227.

HUA Lingfeng, LI Xuhong. Personalized Mobile News Recommendation Based on Cross Collaborative Filtering [J]. Computer Knowledge and Technology, 2017, 13(23): 219,220,227.

[4]吕红. 基于协同推荐学习资源系统的设计和实现 [J]. 电脑与信息技术, 2016, 24(6): 27,28.

LÜ Hong. Design and Implementation of Learning Resource System Based on Collaborative Recommendation [J]. Computer and Information Technology, 2016, 24(6): 27,28.

[5]姜书浩, 薛福亮. 一种利用协同过滤预测和模糊相似性改进的基于内容的推荐方法 [J]. 现代图书情报技术, 2014, 30(2): 41-47.

JIANG Shuhao, XUE Fuliang. An Improved Content-Based Recommendation Method Using Collaborative Filtering Prediction and Fuzzy Similarity [J]. New Technology of Library and Information Service, 2014, 30(2): 41-47.

[6]唐瑞. 基于内容的推荐与协同过滤融合的新闻推荐研究 [D]. 重庆: 重庆理工大学计算机科学与工程学院, 2016.

TANG Rui. Research on News Recommendation Based on Fusion of Content-Based Recommendation and Collaborative Filtering [D]. Chongqing: College of Computer Science and Engineering, Chongqing University of Technology, 2016.

[7]EVAN MILLER. Rank Hotness with Newton’s Law of Cooling [EB/OL]. (2009-02-15). [2017-11-27]. http://www.evanmiller.org/rank-hotness-with-newtons-law-of-cooling.html.2009.

[8]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3(1): 993-1022.

[9]HU Demin, CHEN Linshan. A High Efficient Recommendation Algorithm Based on LDA [J]. Human Centered Computing, 2016, 9567: 668-675.

[10]邵晓根, 鞠训光, 胡局新, 等. 基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究 [J]. 南京师范大学学报: 自然科学版, 2014, 37(1): 57-60,65.

SHAO Xiaogen, JU Xunguang, HU Juxin, et al. Research of Text Subject Extraction Based on Improved Weight for Bayesian Reasoning and TFIDF Algorithm [J]. Journal of Nanjing Normal University: Natural Science Edition, 2014, 37(1): 57-60,65.

[11]于洪, 李转运. 基于遗忘曲线的协同过滤推荐算法 [J]. 南京大学学报: 自然科学版, 2011, 46(5): 520-527.

YU Hong, LI Zhuanyun. A Collaborative Filtering Recommendation Algorithm Based on Forgetting Curve [J]. Journal of Nanjing University: Natural Sciences, 2011,46(5): 520-527.

[12]CHOI K, SUH Y. A New Similarity Function for Selecting Neighbors for Each Target Item in Collaborative Filtering [J]. Knowledge-Based Systems, 2013, 37: 146-153.

[13]范波, 程久军. 用户间多相似度协同过滤推荐算法 [J]. 计算机科学, 2012, 39(1): 23-26.

FAN Bo, CHENG Jiujun. Collaborative Filtering Recommendation Algorithm Based on User’s Multi-Similarity [J]. Computer Science, 2012, 39(1): 23-26.

[14]GUAN Yuan, CAI Shimin, SHANG Mingsheng. Recommendation Algorithm Based on Item Quality and User Rating Preferences [J]. Frontiers of Computer Science, 2014, 8(2): 289-297.

[15]项亮. 推荐系统实战 [M]. 北京: 人民邮电出版社, 2012.

XIANG Liang. Practice of Recommendation System [M]. Beijing: Posts and Telecommunications Press, 2012.

[16]HERLOCKER J L, KONSTAN J A, RIEDL J.Explaining Collaborative Filtering Recommendations [C]∥Proceedings of the 2000 ACM Conferenceon Computer Supported Cooperative Work. [S.l.]: ACM, 2000: 241-250.

 
刘欢,范亚芹,梁乃生
《吉林大学学报(信息科学版)》2018年第03期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号