更全的杂志信息网

基于时间效应与隐语义模型的高校图书馆的个性化推荐研究

更新时间:2009-03-28

0 引 言

随着高校图书馆的不断发展,一方面馆藏图书资源日益增加,另一方面又给读者带来了信息过载现象。对于传统的图书管理系统,读者在手动检索书名或书号,明确喜欢的书目,享受系统的被动式服务的同时,优质却小众的书籍得不到关注,易造成资源浪费。在此背景下,针对图书资源个性化推荐系统的研究发展迅速。然而,高校图书馆与一般图书馆不同,同一学科读者在不同学习阶段具有知识背景相似的特点,采用有针对性的个性化推荐是解决读者个性化阅读需求和提升系统质量的重要方法。本文从理论方法的角度,详细介绍基于矩阵分解的隐语义模型[1]并融合时间信息实现对高校图书的个性化推荐,最后通过实验验证方法的效果和可行性。

1 隐语义模型的建立

1.1 核心思想

隐语义模型LFM(Latent Factor Model)是协同过滤的典型代表,通过隐类联系用户兴趣和物品;通过矩阵分解技术建立用户和隐类之间的关系、隐类和物品之间的关系;通过矩阵分解[2]的方法补全用户物品矩阵[3-4],达到预测用户对物品偏好程度的目的。

  

图1 隐语义模型示意图

1.2 形式化定义R矩阵是user-item矩阵,矩阵值Rij表示user i对item j的偏好程度,对于一个确定的用户,在计算出其对所有项目的兴趣度后,就可以进行排序并做出推荐。R矩阵表示为P矩阵和Q矩阵相乘,其中P矩阵是user-class矩阵,矩阵值Pij表示user i对class j的兴趣度;Q矩阵是class-item矩阵,矩阵值Qij表示class i对item j的权重,权重越高越可以作为此类的代表[5]。LFM模型的兴趣度[6]定义如公式所示:

 

(1)

RUI表示用户U对项目I的偏好程度,PUK表示用户U对类别K的兴趣度,QKI表示类别K对项目I的权重。LFM中的数据集包括和所有用户有过行为的项目数据,我们将这部分项目称为正样本,规定兴趣度RUI=1;对于每一个用户选取负样本时,选取很热门,但用户没有行为的物品,规定兴趣度RUI=0。正样本和负样本共同构成新的集合M={(U,I)},为了保证正负样本的平衡,两者数目相同。一般认为,很热门但用户仍没有行为更能代表用户对这个物品不感兴趣,因为冷门的商品,用户可能根本没有注意过,所以很大程度上不能代表用户的兴趣[5]。我们称衡量损失和错误程度的函数为损失函数,通过优化损失函数找到最合适的P,Q矩阵。损失函数[7]定义为:

(2)

式中:λ是正则化参数,可通过实验获得。接下来使用随机梯度下降法[7-8]来最小化上面的损失函数,首先通过求参数的偏导数[9]找到最速下降的方向,公式表示为:

(3)

(4)

于是,我的日常就是一边发现新锦鲤,赶紧转发;一边看结果公示默默删除,感叹又做了一次分母。时不时,也能看到同学转了一条鱼,“转发锦鲤,提案求过”“今天是个重要的日子,日常迷信一下”。

(5)

式中:t表示用户进入高校图书馆个性化推荐系统的持续天数,bt是时间偏置,表示图书的借出数目随时间的变化,比如学生在期末之前借书较多,在开学时借书较少;xuyt分别是隐语义模型中描述每位读者的借阅数目随读者习惯变化的用户矩阵和时间矩阵,用不同年级的学生的借书率来表示;w表示图书进入高校图书馆个性化推荐系统的持续天数,sizw分别是隐语义模型中描述每种图书的借阅数目随图书流行程度变化的项目矩阵和时间矩阵,用不同种类图书的借书率来表示;gufhifltf分别是隐语义模型中描述用户偏好随时间变化的用户矩阵、项目矩阵和时间矩阵,用不同年级学生的不同种类图书的借书率来表示。

3.2 评价指标(1) 平均绝对误差(MAE)

(6)

选择2017年2—12月在我院实施肛裂手术的63例患者作为研究对象。本次研究患者均签署了《知情同意书》。63例患者中,男性28例,女性35例,年龄为20~56岁,平均年龄(36.41±2.75)岁;病程为8~36天,平均病程(20.01±1.56)天。

2 隐语义模型的改进算法

2.1 Bias-SVD

高校图书馆个性化信息推荐系统中的读者-图书矩阵,在和读者图书间交互关系相关的同时,也与读者和图书本身相关,这就是我们所说的偏差或偏置。为了更好地考虑由系统本身,读者和图书无关的固有属性,以及图书和读者无关的固有属性[10],我们在原有隐语义模型中尝试通过偏差解释读者和图书本身的属性。预测评分[11]可重新定义:

由图8可知,当光源的半峰全宽为30 nm时,干涉光强信号曲线周期性完全破坏,从0.000 001 nm到1 nm时,工作区域的斜率降低,对微悬臂偏移检测的灵敏度降低.Bλ由光源光谱的带宽决定,光源的光谱带宽大于Bλ,而在选择光源时更关注光源的光谱带宽,光谱带宽小于0.000 001 nm(即1.26 MHz)的光源对检测系统更有利,因而在选择光源时,需要选择具有高单色性的激光器.

 

(7)

式中:μ表示全局平均数,所有读者-图书对借阅量的平均数,表示系统本身对借阅行为变化的影响;bu表示用户偏置,表示不同年级不同专业读者的借阅量与图书无关的因素;bi表示物品偏置,表示图书接受的评分中与用户无关因素;pu表示读者-类别矩阵;qi表示图书-类别矩阵。

2.2 Time-SVD

为了计算P,Q矩阵,每次训练都需将读者的借阅记录扫描一遍,并通过反复迭代获得参数,而在实际应用中并不能根据读者实时的借阅记录变化来调整推荐结果。例如,随着整个社会实事热点的发生,随着读者年级的增长,随着图书流行程度的变化,随着读者兴趣的改变,喜爱的图书也会发生变化。考虑到图书馆提供的个性化推荐服务既包括专业课所需书籍,又有用户的个人兴趣等行为所推荐的书籍,且随着时间不断变化,则引入时间因素描述不同用户实时的行为变化对兴趣度的改变[12],可将预测矩阵重新定义为:

(8)

人类社会在不同历史时期的社会结构不同,从而形成了不同的治理模式。所谓治理,不同学术领域的人士从不同角度做过阐述。笔者在讨论中借鉴全球治理委员会给出的定义:“治理是各种公共或私人的个人和机构管理其共同事物的诸多方面的总和”[1]。人类社会目前正向全球化、后工业化时代迈进。“全球化进程加速,使复杂性和不确定性因素迅速增长、社会风险急剧增加,要求建立一个具有开放性、包容性、灵活性、负责任的多元主体治理结构”[2]。在这种大环境中,了解社会治理研究进展,对人们正确认识国情,共同维护稳定至关重要。出于上述考虑,笔者做了一次调查。

为了解决冷启动问题,避免新用户在无借书行为时推荐结果的不准确以及新书无人借阅时无法推荐,造成图书资源浪费的行为。本系统利用用户注册信息,提取出学院和专业数据等,向新用户推荐其同专业的学长学姐借阅量大的书籍,同时基于所推荐书籍进行基于物品的个性化推荐[13]。若本系统是第一次使用,无历史信息可供选择,则根据专业向其推选与专业相似类别的书籍。对于新物品,则根据物品所属种类,计算相似度及热度,根据用户的兴趣推荐以及以新书的方式进行非个性化的推荐。如果是第一批物品,不存在用户对其热度的历史信息,则计算物品之间的相似度,形成聚类[14],向用户推荐同一类的书籍。通过以上办法,提高了推荐结果的准确性。

3 实验分析

3.1 实验数据集本文对算法评估实验的数据集是高校图书馆读者的借阅记录,该数据集包括用户名、图书名、读者的借阅记录用来表示评分矩阵,数据集详细信息见表1。实验过程中将评分数据集分为数据集(80%)和测试集(20%),随机划分为5组,最终实验以5次实验验证得到的MAE平均值和RMSE平均值为最终测试值。

人口老龄化问题的研究重点在于人口老龄化系数,根据前人的研究,主要采用以下几类方法对河南省人口老龄化进行研究。一是如郭敬(2015)建立向量自回归模型预测未来几年的人口总数与老年人数,并在此基础上计算相应的人口老龄化系数。二是乔谷阳、乔家君(2016)从空间上对河南省人口老龄化进行分析,以把握其空间分布特征并分析其未来的发展趋势。

2.3 冷启动问题的解决

 

表1 实验数据集说明

  

用户图书借阅记录训练集比例79828513408180%

在AP3综合异常区发现有三条银矿体,规模不大, Ag品位68.35×10-6—159.0×10-6,矿体宽1.0-3.0 m。

 

(9)

式中:T是测试集,|T|表示所有user-item评分对的总数,rum表示用户对物品的实际评分,表示预测评分,用来表示预测的准确度[15]。(2) 均方根误差(RMSE)

 

(10)

式中:参数含义和式(9)相同,均方根误差对评分误差值做平方处理,加重了对评分预测不准确而产生误差评分的惩罚,平均绝对误差和均方根误差均是数值越小推荐结果越准确[12]

3.3 实验参数

(1) 隐特征维度F 特征的F维度代表了保留评分矩阵信息的多少,F越大,保留信息越多,但矩阵处理过程复杂;F越小,保留信息越少,但易造成推荐结果的偏差[6]

(2) 学习速率α 学习速率α代表模型迭代过程参数变化的快慢,α越大,模型收敛速度越快,易错过最优解;α越小,迭代次数增加,收敛速度较慢[6]

然后迭代计算不断优化参数,直到参数收敛:

式中:α是学习速率,取值需通过反复实验获得。

(3) 正则项系数λ 正则项系数λ需根据具体实验确定,λ过大,出现欠拟合问题;λ过小,正则化效果不明显。

3.4 结果分析

(1) 隐特征维度F对算法性能的影响 为了研究不同的推荐算法中隐特征维度F对算法性能及结果的影响,我们将进行如下实验,保持参数α=0.005、λ=0.02不变,基于所给训练集迭代100次,通过改变F的大小观察不同模型下预测误差MAE 和RMSE的值(通过五次实验取平均值),根据结果分别对不同的推荐算法进行评价,部分数据如表2所示,分布曲线如图2所示。

 

表2 隐特征维度F在不同隐语义模型下的预测误差值

  

modelBase⁃SVDBias⁃SVDTime⁃SVDFMAERMSEMAERMSEMAERMSE100.93681160.94534230.89625090.92123230.82099480.9154907200.93664070.94493690.89554950.92056090.81854040.9152295300.93736030.94543010.89503430.92013160.81737810.9150687400.93647900.94469190.89446370.91976250.81658950.9149524500.93732120.94526360.89524010.92019990.81628710.9150550600.93651170.94466210.89452560.91970040.81597140.9149984800.93703750.94503700.89508500.92001340.81535940.91502871000.93679430.94483150.89508180.92001340.81581010.91510022000.93660600.94471240.89513570.92005230.81544510.91496153000.93666020.94471240.89524710.92012450.81520700.91499384000.93664590.94468730.89508070.91998770.81503280.91495045000.93655320.94461750.89518530.92007270.81488300.91498676000.93662410.94466750.89511040.92001010.81495210.91501528000.93682550.94480960.89515140.92004170.81485520.914953710000.93668850.94470170.89525830.92008730.81485570.9149583

  

图2 不同隐语义模型下维度F变化时MAE和RMSE的分布曲线

  

图3 模型Base-SVD学习速率和迭代次数的变化曲线

  

图4 模型Bias-SVD学习速率和迭代次数的变化曲线

 
  

图5 模型Time-SVD学习速率和迭代次数的变化曲线

由图2可以看出,模型Base-SVD和模型Bias-SVD在隐特征维度F不断变化的同时,均方根误差RMSE和平均绝对误差MAE波动幅度较大。在维度F小于80时,变化数量级在10-3左右,在维度F大于80小于1 000时,保持相对平稳的状态,此时维度F的变化对于模型的推荐效果影响不大。且模型Base-SVD在F=500时,模型Bias-SVD在F=400时取得最低值推荐效果最好。模型Time-SVD的RMSE分布曲线接近一条直线,说明此时维度F的变化对推荐效果的影响不大,在参数选取的过程中可以减少对维度F值得考虑。通过三种模型分布曲线的对比我们可以发现考虑偏置项和时间信息的Time-SVD模型分布曲线位于最低位置,相同维度F条件下MAE和RMSE取值均最小,验证了实验中保持相同参数设置的条件下,Time-SVD模型提高了预测的精度和准确性,提高了推荐结果的质量。(2) 学习速率α对算法性能的影响 学习速率控制模型迭代过程中参数变化的快慢,其大小直接关系到模型最后预测结果的准确性。本次实验采用固定隐特征向量F=100,正则项系数λ保持不变,通过改变迭代次数n观察不同模型下学习速率的变化情况,如图3、图4、图5所示。观察图3图4可以看出,模型Base-SVD和模型Bias-SVD在迭代次数从5到760之间变化时,均方根误差RMSE和平均绝对误差MAE均经历取值大幅度减少直到某一确定迭代次数后取值趋于稳定,说明这两种模型的迭代次数到达确定值后,预测误差和推荐效果也趋于稳定,最优的学习速率较容易寻找。对于模型Bias-SVD,学习速率从0.001到0.007变化的过程中,均方根误差RMSE和平均绝对误差MAE均保持相对平稳的状态,变化数量级在10-4左右,说明模型Time-SVD在实验范围内学习速率对预测误差的影响不大,对推荐结果的准确性影响较小,此模型具有很好的健壮性。在迭代次数和学习速率相同的情况下,模型Time-SVD的均方根误差RMSE和平均绝对误差MAE均小于其他两种模型,说明模型Time-SVD的预测结果误差较小,推荐结果的准确性得到了提高。

随着互联网技术、大数据、物联网等新兴技术的迅速发展,新科技不断实现与高校实际应用的深度结合,高校的信息化建设也将走向新的发展历程。李克强总理在《政府工作报告》中曾明确提出要用“互联网+”引导我国信息化建设和发展,因此,本科教育也应该顺应其发展方向,推进社会信息化建设的发展。

厂房采用钢架结构,外墙采用单层压型钢板,以米白色为主色调,瓷蓝色搭配使用。屋面采用75厚双层压型钢板复合保温板,面板以瓷蓝色为主色调,底板米白色。厂房纵、横向外墙均设有多排窗户,顶排窗户为百叶窗;山墙底部5.4m以下均敞开布置,增加厂房的通风和采光面积;屋面设有自带天窗控制器的圆拱形排烟天窗,即满足了厂房的排烟要求又增加了厂房的采光、通风面积;因磨矿厂房的设备在生产过程中产生不少粉尘,浮选厂房药剂气味较重,厂房屋面设风帽加大厂房内的通风速度。

4 结 语

本文研究了隐语义模型的改进算法Time-SVD在

高校图书馆图书个性化推荐中的应用,该算法基于矩阵分解的隐语义模型与时间信息的融合,首先运用随机梯度下降法求解用户-项目评分矩阵,其次针对冷启动问题提出一种改进的解决策略。另外本文在和Base-SVD算法、Bias-SVD算法的实验比较中对隐特征维度和学习速率对不同模型的影响也进行了简要分析。实验结果表明,Time-SVD在个性化推荐问题上,较其他算法具有更好的寻优性能、更快的收敛速度和更准确的推荐效果。

[1] 朱扬勇,孙婧.推荐系统研究进展[J].计算机科学与探索,2015,9(5):531-525.

[2] 孟祥武,刘树栋,张玉洁,等.社会化推荐系统研究[J].软件学报,2015,26(6):1356-1372.

[3] 吴雄峰,贾年.基于用户特征和时间效应的协同过滤算法[J].现代计算机,2016,4(10):21-24.

[4] 周璐璐.融合社会信任关系的改进推荐系统[J].计算机应用与软件,2014,31(7):31-35.

[5] 项亮.推荐系统实践[M].北京:人民邮电出版社,2012.

[6] 李琳娜,江雪琴.推荐系统中的隐语义模型研究[J].情报工程,2016,2(4):30-39.

[7] 张玉连,袁伟.隐语义模型下的科技论文推荐[J].计算机应用与软件,2015,32(2):37-40.

[8] 邓卫钊.随机梯度下降和对偶坐标下降算法的研究与应用[D].河北:燕山大学,2016:13-17.

[9] 王升升,赵海燕,陈庆奎,等.个性化推荐中的隐语义模型[J].小型微型计算机系统,2016,37(5):881-889.

[10] 鲁权,王如龙,张锦,等.融合邻域模型与隐语义模型的推荐算法[J].计算机工程与应用,2013,49(19):100-139.

[11] Xiang L,Yang Q.Time-Dependent Models in Collaborative Filtering Based Recommender System[C]//Ieee/wic/acm International Joint Conferences on Web Intelligence and Intelligent Agent Technologies,2009.Wi-Iat.IEEE,2009:450-457.

[12] 刘恒友.基于时间效应的推荐算法研究[D].哈尔滨:哈尔滨工业大学,2013:21-34.

[13] 刘建国,周涛,汪秉宏.个性化推荐的研究进展[J].自然科学进展,2009,19(1):1-15.

[14] 郑丽姣.个性化推荐技术在高校数字图书馆中的应用研究[D].湖南:湖南科技大学,2015:27-32.

[15] 胡堰,彭启民,胡晓惠.一种基于隐语义概率模型的个性化Web服务推荐方法[J].计算机研究与发展,2014,51(8):1781-1793.

 
李薛剑,刘梦雅,海健强,吴雪扬,余雪莉
《计算机应用与软件》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号