更全的杂志信息网

基于云教育平台下对个性化推荐技术的研究

更新时间:2016-07-05

1.概要与背景

目前,云教育平台存在海量教育资源,被动式搜索无法主动为用户提供资源、激发用户的学习兴趣,而推荐技术可以解决这一问题。本文从主流推荐算法入手,研究适用于云教育平台的推荐技术,通过几种推荐算法的组合使用,提出一种为学习用户量身打造个性化推荐技术,提高教育资源的推荐质量与利用效率。

2.数据的获取与处理

2.1 主流的推荐算法

协同过滤推荐算法的核心思想是通过比较用户项目的兴趣相似度,得到相似用户集或项目集,通过评分预测方法,计算出用户对于项目的可能评分值,从而产生推荐结果[1]。基于分析对象的不同又可以分为基于用户的协同过滤和基于项目的协同过滤。

基于用户的协同过滤算法首先将用户间的行为数据进行比对,寻找出与该用户相似的用户,然后形成相似用户集,并预测用户行为,算法的核心步骤是计算用户相似度。计算方法有余弦相似度和皮尔逊相似度。余弦相似度:

皮尔逊相似度:

推荐结果与资源的内容属性无关,但面临:(1)新用户的冷启动问题,对于新注册用户,系统没有其对任何项目的评分数据,无法寻找相似用户。(2)数据稀疏性:稀少的行为数据也容易影响推荐质量。

基于项目的协同过滤根据所有用户对项目的偏好信息得到项目之间的相似性,然后将类似项目推荐给用户。该算法使用项目相似性来代替用户相似性[2],核心步骤是计算项目间的相似度。但面临:(1)新项目的冷启动问题(2)准确性问题:该算法因忽略用户的个性需求而使推荐质量降低。

基于内容的推荐算法不依赖用户的行为信息,而是依据用户曾经感兴趣的项目的内容特征,从系统中选择与用户过去喜欢的项目最为相似的产品,推荐匹配度最高的项目[3~4];或者直接向用户推荐与用户偏好特征最为相似的项目[5]。此外,基于内容的推荐算法不需要用户或项目的历史数据,可以克服冷启动问题。在我们熟识的QQ、微信等社交软件中的好友推荐功能就应用了这样的推荐技术。

2.2 行为数据获取方法

行为数据包括用户的个性标签等个人信息,也包括用户对项目的评分数据等行为信息。根据行为数据的呈现形式,可分为显式用户反馈与隐式用户反馈。

显式用户反馈指用户在社交网站前端提供的评分模块中的直接评分。隐式用户反馈是一种间接得到用户-项目评分的方法,根据用户在网站上的行为记录及在部分模块上给出的评分,通过一定的评分预测规则估计用户对于某项目的评分[6]

3.基于用户个性化需求的推荐算法的改进

3.1 教育平台中出现的问题

假设用户对课程的评分是r,其中rij代表第i个用户对第j个课程的评分(1≤r≤5,r∈Z),为用户u对所有课程的平均分。设用户对课程的收藏是z,其中zij代表第i个用户对j个课程的收藏情况。若用户i对课程j进行了收藏,则zij为3,若无收藏行为,则zij为1。评论数据经过关键词处理之后设为t,其中tij代表第i个用户对第j个课程的评论系数,tij的值按照关键词处理规则,由“积极反应”“中性反应”“消极反应”三种态度分别对应5、3、1,没有评论则tij为3。此时可将zij和tij“虚拟”为用户对课程的评分,参与到用户u对所有课程均分的计算中。则此时:

表1 新用户注册信息表

教育平台 用户特征获取 用户兴趣选取 主动推荐课程学而思网校 有,选择孩子所在年级 无 根据年级进行推荐新东方在线 无 无 无。要手工选择腾讯课堂 无 有,用户主动选取感兴趣的知识 根据用户兴趣推荐百度传课 无 可以定制首页 根据用户定制兴趣推荐中国大学慕课 无 无 无。要手工选择网易公开课 无 无 无

由表1可以看出,只有学而思网校通过用户所在年级来推荐适用课程。推荐内容基于学习资源标签属性和用户兴趣标签属性产生,并不能够准确选择用户真正需要的资源。因此,在新用户注册时,有必要引入用户特征识别和用户聚类的方法,来解决冷启动问题。

建筑施工的周转材料租赁属于重资产投入,而施工项目的工作环境的各种不确定因素将直接对承租方和租赁方带来巨大的经济损失,例如甲方对项目图纸的变更、现场工人的施工水平及项目管理不当,都会对租赁单位的周转材料带来损耗,为此,租赁商往往在项目施工完毕后对所出租的材料进行定损工作,同时为了保证自己的材料能够最大周转起来,也会对材料进行维修保养,为了方便维修保养,供应商往往希望在施工项目上即可按照材料的规格种类进行分类打包,便于返厂维修,但是目前的施工现场由于管理模式大部分采用专业分包模式或者施工场地有限制,导致供应商的材料在施工现场退场过程中并没有按照规格分类打包,从而造成损失。

美国第二大投行摩根士丹利形成大量资产减值。 摩根士丹利2007年第四季度次贷债券投资损失高达94亿美元,其中有78亿美元是基于次贷业务。这直接导致公司成立73年来首次出现季度亏损。“急需资本金补充的摩根士丹利就找到了中国。” 汪建熙说。

表2 用户评价和反馈信息表

教育平台 用户收藏 用户评价 主动推荐相关课程学而思网校 有,显示收藏人数 有,可以课程评价 无新东方在线 无 有,可以课程评价 无腾讯课堂 有,不显示收藏人数 有 有,会推荐相关课程百度传课 有,不显示收藏人数 有,可以课程评价 有,会推荐同校或同类课程中国大学慕课 无,只能参加课程,或者退出课程无,但是有用户讨论区 无网易公开课 有,不显示收藏人数 有,跟帖模式 无

由表2可以看出,2/3的平台采用收藏和评价功能来收集用户的反馈信息,但是没有进一步挖掘用户对课程的其它反馈信息,如社交网站分享、收藏后观看、学习后的掌握情况等。

3.2 个性化推荐算法

其中分别表示用户u、v的特征聚类,P介于0到1之间,0表示用户间完全独立,1代表用户间趋同。

用户特征聚类由用户属性和用户的行为共同构成,用户的属性包括用户年龄、性别、年级、地区、爱好等;用户行为是用户在网站上的浏览、点击、反馈、评价等信息。如果该用户是新注册用户,还未产生过行为,则根据用户属性进行聚类。用户属性矩阵可以表示为:

图1 推荐算法示意图

3.2.1 用户特征聚类

在新用户注册时期,基于用户特征进行推荐。课程学习阶段,系统会根据课时安排定时定量为用户提供练习;此后,系统会根据用户对该课程的评价信息和练习结果综合考虑得到用户的学习能力。课程结束后,系统会总计算下一课程的难度倾向、确定选课范围,最终对推荐结果进行修正。具体流程见图1。

3.2.2 用户能力影响

如果用户已经产生用户行为,就基于用户行为进行聚类。每一个用户u都和一个行为Vu对应,每一个满足i∈Vu的用户表示u产生了行为v。用户行为矩阵可以表示为:

其中Vnj表示用户n产生了行为j,根据不同行为设置不同的权重,权重值介于0和1之间。

假设有用户u、v,则他们的相似度为:

我向工地疾走。疾走的路上,有一幕在我脑子里反复出现。昨晚,李大头给我们开过会后,走出了我们的住所。他随身带了一把活口钳子,那钳子把长,斜插在他的裤兜里,钳子把露出一小截。

本节针对云教育平台,提出了一种基于时间划分的个性化推荐算法,核心思想为:在不同的学习阶段,分别以用户特征、学习能力和学习范围为基础,对不同阶段的用户进行个性化推荐。

在用户评价反馈阶段,可以根据用户的反馈和评分信息进行推荐。表2总结了教育平台对用户反馈信息的获取和利用情况。

肯普夫说:“当然,在美国西海岸、中国都有一些‘怀才不遇’的研究人员,他们愿意来欧洲寻找一个良好的科研位置。”肯普夫认为,现在是快速实施人工智能战略的时候了。他说:“联邦政府已经承诺未来几年将提供30亿欧元的科研经费。”正确使用这笔资金非常重要。他说:“最好将研究资金用于推动工业应用数字化的进一步发展”,“因为在这个领域我们欧洲人,尤其是德国作为工业基地有着明显的优势。”

得到用户相似度之后,通过对最相似用户的评价对目标用户的评分进行预测。然后采用Top-N方法进行推荐:计算之后,选取其中预测评分前N高的课程以推荐列表的形式推荐给目标用户,得到推荐结果R1。

试验对聚苯乙烯泡沫板和真空玻璃各做5次重复性试验,并用最小二乘法对数据进行处理.试件的保温性能以传热系数K值衡量,按照《建筑外门窗保温性能分级及检测方法》(GB/T 8484—2008),将门窗的保温性能分为10级[3-4].由试验数据可知,聚苯乙烯泡沫板的传热系数K<1.1 W/(m2·K),属于10级保温性能;真空玻璃的传热系数3.5 W/(m2·K)>K≥2.5 W/(m2·K),属于5级保温性能.

其中Cnj代表用户n具有属性j,若有,则Cnj为1,没有则为0。

用户能力反映了用户对课程的掌握程度,用户对项目课程的评价包括对评分、收藏和评论等行为,其中评分与收藏数据较易获得和处理,而评论数据则可运用文本过滤的方法筛选出关键字词获得评分。

作者在学而思网校、新东方在在线、腾讯课堂、百度传课、中国大学慕课、网易公开课等六个网站上新注册了用户,总结了平台推荐情况(表1)。

[2]余英时:《今古逍遥知识人》,《学思答问——余英时访谈集》,北京:北京大学出版社,2013年,第123页。

学习掌握情况指用户课程完成后参与系统测试,其结果分为A、B、C、D(四个等级,设为学习情况lij,对应值为5、3、1、0,学习情况:

根据学生毕业岗位技能需求,组织任课教师开发统一的实训项目和学生实训实验指导书,在此基础上完善实训设施,节约实训实验器材的购置,比如测量样件的数目及类型,可以有规划地加工或采购;同时任课教师可以提前把所有测量实训实验项目的测量数据做成数据库,方便任课教师对学生的实训实验测量做出成绩评定。

按1:1加权混合,可以得到用户的学习能力Si,同时也可以得到:

变异系数是一个比较不同组数据离散程度的系数,表征了序列的绝对离散程度,在进行数据统计分析时,如果变异系数大于15%,则要考虑该数据可能不正常。[7]当用户的学习能力Si低于超过15%时,要考虑推荐更简单的课程,即课程中的测试均分∈[ru,(1-15%)ru];当用户的学习能力Si高于超过15%时,则要考虑推荐更困难的课程,即课程中的测试均分∈[ru,(1+15%)ru],得到推荐结果R2。

3.2.3 用户范围影响

电子阅览室在高校图书馆系统中占据着十分重要的地位,并在学生的学习生活中扮演着重要角色。因此,高校必须要给予电子阅览室足够的重视,应加强对电子阅览室的建设,完善电子阅览室的功能与服务,从而为学生提供更加多元化、便捷化的服务,使电子阅览室真正成为高校的辅助教学工具和学生学习生活中不可或缺的重要场所。

用户的学习范围主要体现在相似用户和用户自身课程的选择上。相似用户的寻找基于3.2.1中的用户聚类,将相似用户与用户自身的选课集合相并,可以得到学习广度w。

若用户此前选择的课程难度逐步加深,且掌握情况较好,则系统在下一步推荐中可以推荐难度略大的课程,反之亦然。课程的难度基于3.2.2中用户对系统提供的练习情况,分为四个难度级别:测评均分∈(0,1]时,课程为“困难”;∈(1,3]时,课程为“有点困难”;∈(3,5]时,可称为“有点简单”;∈(5,7]时,课程为“简单”。将课程的难度进行回归分析,可以得到新一次推荐课程的难度r,那么推荐课程的难度范围即为[(1-15%)r,(1+15%)r]。将w与d取并集,可以得到学习范围R,得到推荐结果R3。

3.2.4 最终推荐

在不同的学习阶段,单独运行推荐算法,将得到的推荐结果,以R3为基础,综合考虑R1和R2的影响,通过线性拟合和实验论证,分配不同的权重,得到一个总评分,最后推荐给用户。

4.总结与展望

本文第一章概述了云教育平台信息过载的现状;第二章介绍了几种主流的推荐算法,阐述其原理、核心和优缺点;第三章分析了各教育平台上目前采用的推荐技术和缺陷,提出了一种按时间划分的推荐算法,综合考虑了用户属性、学习能力、选择新课程时的范围倾向,为用户提供更加个性、实时的推荐。未来,作者将尝试加入教育平台收费课程价格因素影响、按照艾宾浩斯遗忘曲线安排复习时间等,提高推荐效果,更好地满足用户需求。

在畜禽日粮中添加解淀粉芽孢杆菌,可以减少畜禽粪便中氮、磷化合物等的排放,减少粪污对养殖环境的污染。在日粮中添加解淀粉芽孢杆菌可以显著降低鸡粪中硫化氢含量[23];添加解淀粉芽孢杆菌T6可以降低肉鸡5.3%~41.9%磷排放,7.1%~30%钙排放[38];添加解淀粉芽孢杆菌KB3可以显著降低肉鸡排泄物中有害气体含量[23]。

参考文献

[1]T.L.Griffiths and M.Steyvers.Finding Scientific Topics.Proceeding of the National Academy of Sciences,2014,1:5228-5235.

[2]孔维梁.协同过滤推荐系统关键问题研究[D].华中师范大学,2013.

[3]Lops,P,De Gemm is,M Semeraro G.Content-based recommender systems:State of the art and trends[M].Recommender systems handbook.Springer US,2011:73-105.

[4]Pazzani M J,Billsus D.Content-based recommendation systems[M].The adaptive web.Springer Berlin Heidelberg,2007:325-341

[5]刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009,01:1-15.

[6]林文荟.教育资源个性化推荐技术研究[D].东南大学,2015.

[7]Everitt B.Cam bridge dictionary of statistics[M].Cam bridge University Press,1998.

李斐然
《电子世界》 2018年第10期
《电子世界》2018年第10期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号