更全的杂志信息网

一种融合社会化标注系统中主题域相似的个性化排序方法*

更新时间:2009-03-28

1 引言

随着Web 2.0技术不断发展与成熟,网络中的各种应用层出不穷。例如,在Flickr(http://www.flickr.com/)提供的网络图片服务中,图片上传者可以对自己感兴趣的图片标注标签并以此方式浏览,大大缩短了搜寻图片的时间。在Del.icio.us(http://www.delicious.com)提供的网页书签服务中,用户可以收藏对自己具有价值的网页并对其进行标注,从而使网页的分类与检索变得简单。在这样的网络环境中,人们可以自由地对在线网络资源通过评分、标注和评论等不同方式表达自己的观点[1]。因此,社会化标注行为留下的标注信息成为了连接用户与资源的纽带。

兰德研究生院(现为帕蒂兰德研究生院)是美国最大的公共政策博士学位项目,也是为培养未来公共政策领袖而设立的8个研究生项目之一。

社会化标注以其独有的特性,给个性化检索带来了新的思路。文献[2]最早探索将社会化标注运用到个性化检索中,利用用户和网页的标注信息分别构建用户兴趣和网页主题向量,并利用二者之间的相似度对原始检索结果进行个性化排序。由于一些以图片等为主的网页中文本内容相对较少,使得原始检索结果不理想,从而影响上述方法的个性化排序效果。为此文献[3]在其基础上,将网页的标注信息视为其内容的有益补充,并用于改善原始检索结果。而用户对网页内容的综合认知存在差异性,不同用户的标注信息对网页内容贡献的大小不同。文献[4]则在文献[3]的基础上利用基于标签的相似性找出偏好相近的用户,并对用户的标注信息进行扩展,从而使检索结果更具个性化。

大型系统或者管径在DN150及DN150以上时,排气装置宜采用集气罐与自动排气阀结合的形式,以利于更好地收集管路中的气体并及时排出。也可以使用大排气量的自动排气阀来实现这一功能。大排气量自动排气阀的材质应为黄铜,排气控制零件一般为浮球。

文献[4]采用用户之间共同的标签集来计算用户之间的相似度,然而,在现实中用户的标注数据具有稀疏性。比如两个用户标注了很多主题相似的网页,但由于标注词的无约束性,二者之间的共同标签可能并不多,从而导致这两个用户之间的社会网络关系丢失。因此,本文在文献[4]的基础上尝试在寻找相似用户时首先通过划分主题域,将表达不同主题含义的网页及标签分开。然后通过构建标签相似网络找到标签同义词,并用来扩展用户对主题域的标签偏好,汇总用户对主题域中所有标签的偏好权重得到其对该主题域的偏好,一定程度上解决了标签同义词问题。最后本文结合用户标签和主题域偏好相似性挑选出兴趣相近的用户,用于个性化排序。

本文的组织结构如下:第2节介绍相关工作;第3节对本文研究的问题进行描述;第4节重点阐述本文提出的融合主题域相似的个性化排序方法;第5节对本文提出的方法进行评估,并对实验结果进行了分析;第6节对本文的工作进行总结与展望。

2 相关工作

近年来不少研究表明社会化标注可以用于改善信息检索[5]。本节将分别介绍基于社会化标注的非个性化检索和个性化检索的相关研究。

基于社会化标注的非个性化检索方法。文献[6]结合社会化标注改善传统的页面排序算法PageRank,提出一种度量标签和查询信息之间的相似性算法SocialSimRank,以及使用标签度量一个网页的流行度算法SocialPageRank,最终采用插值法融合网页与查询的相关性以及网页的重要性对搜索结果进行改善。考虑到用户认知能力的差异,文献[7]考虑使用社会化标注对HITS(Hypertext Induced Topic Search)算法进行改进,提出了SPEAR(Spectral Processing Exploitation and Analysis Resource)算法,区别对待了普通用户和专家用户所标注过的网页资源质量,认为专家用户标注过的网页重要性比普通用户高。文献[8]则在此基础上做了进一步改进,引入了洞察力的概念并提出了CAIS(Conmunity based Annotation Insight Search)算法,认为专家用户对未来不久将会变得流行的新兴网页具有更强的洞察力。文献[9]通过学习到的用户网页搜索行为模式生成基于标签的关联规则,并用于解决标签的语义模糊性,以提高用户的搜索体验。

基于社会化标注的个性化检索方法。文献[10]提出了一种融合了社会化标注信息的PageRank改进算法FolkRank,该方法采用随机游走技术在用户、标签及网页之间不断地迭代,待模型趋于稳态时得到三者之间最终的得分。文献[11]则在其基础上增加了组元素,提出了GFolkRank算法,对原始搜索结果进行个性化排序时融合了分组的信息。文献[12]提出了一种AMI-Frank(Adaptive and Multiple Interest-aware FolkRank)算法,该方法可以对用户兴趣自适应性地感知并更新。文献[13,14]通过用户反馈的信息对用户配置文件进行更新并完善,以获取用户当前的兴趣,提高个性化搜索的体验。文献[15]充分挖掘出社会化标注中用户、网页及标签三者之间的网络关系,并应用于个性化搜索中。文献[16]提出了一种基于用户配置文件的个性化查询扩展方法,该方法融合用户的标注信息和标注过的资源信息共同生成用户配置文件。文献[2]利用用户和网页标注信息间的相似度对原始检索结果进行个性化排序。由于存在一些文本内容相对较少的网页,使得原始检索结果不理想,从而影响个性化排序效果。文献[3]在文献[2]的基础上进行了改进,认为网页的标注信息是对其内容有益的补充,并用于改善原始检索结果。然而,现实中用户的标注数据具有稀疏性,因而无法有效构建用户配置文件。文献[4]则在文献[3]的基础上提出了一种考虑相似用户的双重个性化排序方法DPR(Dual Personalized Ranking)。利用基于标签的相似性找出相似邻居,并对用户的标注信息进行扩展,从而改善原始检索结果。

本文提出了一种融合主题域相似的个性化排序方法PRfTDS(Personalized Ranking fusing Topic Domain Similarity),首先通过主题域的划分,得到用户对各个主题域的偏好。然后结合标签的相似性挑选出用户的相似邻居,使用相似邻居标注同一篇文档的标签扩展构建用户对该文档的个性化文档配置文件,综合用户所有个性化文档配置文件构建扩展的用户配置文件。最后依据用户个性化文档配置文件和扩展的配置文件之间的相似度对原始检索结果进行个性化排序。在真实数据集上的实验结果表明,该方法可以有效改善用户个性化检索的体验。

3 问题描述

本节首先简要介绍与本文工作相关的概念,其次对本文所研究的问题进行形式化描述,最后对与本文工作相关的LDA(Latent Dirichlet Allocation)模型进行简要介绍。

3.1 相关概念

通常标注是定义标签标记资源的过程,标注行为很好地将用户、资源及标签有机结合在一起,建立了三者之间的联系,这样的一种联系便是一条标注信息。为了便于对社会标注数据进行研究,本文给出如下相关定义:

定义1 假设使用UTD分别表示用户、标签以及文档的有限集合,标注信息集合AU×T× D,则社会化标注数据集可以表示为四元组F=(U,T,D,A),一条标注信息a=(u,t,d)∈A表示用户u使用标签t标注过文档d

临床中胆结石患者接受腹腔镜手术切除治疗是主要的方式,可是腹腔镜胆囊切除手术需要使用科学的麻醉方式,短时间确保麻醉的有效性和成功率,最大程度确保患者的麻醉效果。让手术顺利进行。腹腔镜胆囊切除手术使用的麻醉方式和手术的结果之间关联性紧密,根据临床研究显示,不科学的麻醉方式会让手术效果不佳,需要再次手术治疗,对患者的生命安全产生了很大的威胁,降低了医疗服务质量。所以,此次研究中,腹腔镜胆囊切除手术需要使用硬膜外麻醉,我们对研究进行了以下报道。

3.2 问题定义

设已给定一个标注信息集合AU×T×D以及一个用户uU提交一个查询信息q给搜索引擎,返回与查询信息q相关的原始检索结果文档集合D(q)∈D。假设D(q)中文档排序遵循序列τ=[d1d2≥…≥ds],其中diD,≥(文档排序的前后关系)由搜索引擎实现。

根据美的2017年年报披露的信息,美的对存货均采用先进先出法进行计价。每种计价方法都会对企业成本的核算产生影响,根据不同计价方法的特点,结合企业自身情况和市场情况来选择。在物价上涨时期采用先进先出法核算存货成本,会使利润虚增,导致企业应纳税所得额增加,在这个时期采用移动加权平均法或月末一次加权平均法可以避免成本过低的现象,计算出来的利润和税额也不会有很大波动。但是,在物价下降时,应该考虑采用先进先出法,先购进的存货成本较高,计算出的当期发出存货成本也越高,可以减少当期利润和应纳税所得额,减轻企业税负。美的应该结合市场环境综合分析,选择最优的计价方式。

对于单板受力病害,在桥面铺装厚度足够的情况下,铺设双层钢筋网片能够很好地解决横向联系不足的问题,但若受桥面铺装厚度限制,整体或部分桥面铺装只能设单层网片时,需要通过其他方式来增强梁板之间的横向联系。本方案是通过增加钢板来增强板梁之间的横向联系,在今后对类似病害维修处治时,需根据现场的具体条件确定合理、经济的方案。

1.5统计学分析 运用SPSS15.0软件进行统计学分析,计数资料采用X2检验,计量资料采用t检验,P<0.05表示具有统计学意义。

3.3 LDA模型

LDA模型[17]是一种当前使用较为广泛的概率主题模型,包含主题、文档和词的三层结构。该模型假设每篇文档都包含若干个隐含主题,每个主题下面含有一定数目的词。从文档到主题服从Dirichlet分布,主题到词服从多项式分布。通过LDA模型对文档集合进行建模,可以得到文档-主题矩阵,在计算文档相似度时融入了词汇隐藏的语义信息,因此本文将得到的文档-主题矩阵作为主题域构建部分计算文档之间相似度的基础。

4 融合主题域相似的个性化排序

4.1 基于用户配置文件的用户相似度计算

在社会化标注系统中,标签是反映用户兴趣偏好的有效载体[2 - 4,18],因此描述用户u偏好的配置文件可由一组标签向量来表示,m是用户u使用过的标签总数,权重计算采用文献[3]的方法由修改的TF-IDF算法得到,如用户u对标签ti的偏好程度表示为:

 

(1)

其中,utfti表示用户u使用标签ti的次数,|U|为用户的总个数,|Uti|为使用了标签ti的用户个数。然后依据文献[4]计算用户配置文件带权向量之间的余弦值得到用户uu′之间的相似度,其计算公式为:

Sim1(u,u′)=Cos(pu,pu)

(2)

其中,Cos(pu,pu)表示用户uu′基于配置文件的相似度大小。

4.2 融合主题域的用户相似度计算

一些研究已经发现并验证了用户在社会化标注系统中的标注行为可以近似地反映他们在网络中的搜索行为[23 - 25]。换言之,假定用户u使用标签t标记了文档d,那么使用标签t作为查询词,若返回的结果集中包含有文档d,则用户u浏览文档d的可能性极高。因此,上述思想给个性化检索结果的自动评估方法提供了基本的理论依据:若用户u使用某一标签进行查询,则相关文档为用户u使用同一标签标记过的文档。

  

Figure 2 Example of calculating user’s preference of topic domains图2 用户对主题域偏好计算示例

(1)构建标签相似网络。由于标注行为的无约束性,不同标签标记相同网页的现象大量存在。如果两个不同的标签共同标记了某一网页,那么二者之间存在共现关系,它们之间的这种关系可以反映出二者之间的相似性,而且共现的次数越多二者越相似。本文基于标签之间的共现性,构建它们之间的相似网络G=(V,E),其中V表示由标签组成的顶点集合,E表示连接标签之间的边,并且边可以表示两个标签之间的相似度,其值可由如下数学公式计算:

 

(3)

(1-ηSim(q,d)

  

Figure 1 Network of similar tags图1 标签相似网络

(2)生成主题域。采用LDA模型对文档集合进行建模分析,Gibbs抽样算法迭代若干次,直到模型基本上趋于稳定状态后,得到M×K维的文档-主题矩阵,其中M表示文档集合中文档的总个数,K为主题的数目,该矩阵表示文档集中每篇文档在K个不同主题上的多项式分布。由于每篇文档的主题分布都是从同一分布中抽样得到的,因此可以使用文档在不同主题下的概率分布作为聚类的文本特征。本实验中采用k均值聚类算法对文档的特征向量进行聚类,假定生成k个主题域。使得在同一主题域中文档间的相似度相对较高,不同主题域中文档间的相似性相对较小[19]。在获得多个主题域后,利用每个主题域中的文档及其标签信息构建每个主题域的配置文件,该配置文件由一组标签矢量表示,如主题域z中标签t的权重为:

 

(4)

其中,ztft表示标签t在主题域z中出现的次数,|Zt|是含有标签t的主题域个数。

(3)计算用户对各主题域的偏好。用户u对各个主题域的偏好向量形式化描述为Zu=(wu,z1,wu,z2,…,wu,zk),其中wu,zi表示用户u对主题域zi的偏好程度。依据文献[20],本文构建用户对各个主题域偏好时权重计算公式为:

 
 

(5)

其中,Tzi表示主题域zi中的标签集合,Tu为用户u标注过的标签集合,分别由公式(1)和公式(4)得到,Gt为标签t的相似子网络。图2为计算用户u对每个主题域偏好的流程示例图。用户u的配置文件中标签firewall的偏好为0.31,并没有包含标签network,但主题域z1的配置文件中标签network的偏好为0.26。而在标签相似网络中标签firewall和network的相似度为0.82(较大),因而在计算用户u对主题域z1的偏好时也需要考虑其对标签network的偏好,计算方法为:0.31*0.26*0.82=0.066。综合用户u对主题域中各标签偏好权重便可得到其对主题域的偏好。

(4)融合主题域偏好的用户相似度计算。在本文方法中用户的相似度由基于配置文件和主题域偏好相似度两个方面共同决定,计算公式为:

Sim2(u,u′)=Cos(pu,puCos(Zu,Zu)

(6)

其中,Cos(pu,pu)和Cos(Zu,Zu)分别表示用户uu′基于配置文件的相似度大小和基于主题域偏好的相似度大小。

4.3 融合主题域相似的个性化排序

个性化排序方法的关键是计算文档排名得分,依据文献[3,4],文档的排名得分由排名函数Rank(d,q,u)计算得到,该函数包含非个性化和个性化文档排名得分两个部分的计算,按照文档排名得分对检索结果中的文档进行排序返回给用户。本方法中大量采用了向量空间模型。

4.3.1 非个性化文档排名得分计算

该部分考虑了两个方面的因素:(1)查询信息q与文档d内容的相似度;(2)查询信息q与文档d标签信息的相似度。通常这两个因素对非个性化文档排名得分的影响是相互独立的,因此将这两个部分进行线性组合得到非个性化文档排名得分[3,4],其计算公式为:

观察组的胸痛、呼吸困难、消化道症状的比例高于对照组,差异有统计学意义(P<0.05);其他临床症状比较,差异无统计学差异(P>0.05)。观察组的KillipⅠ~Ⅲ级例数少于对照组,差异有统计学意义(P<0.05)。见表2。

康川司法所有限的人员编制无法应对纷繁复杂的社区矫正工作,他们人手欠缺,但矫正的对象却很多。司法所除了要承担社区矫正工作外,还要组织开展法制宣传工作,协助有关部门和乡镇开展依法治理工作;指导管理人民调解工作,参与重大疑难民间纠纷调解工作;指导管理基层法律服务工作,当好乡镇、街道办事处法律顾问,做好法律援助工作;组织开展对刑满释放人员的过渡性安置和帮教工作;参与社会治安综合治理工作;此外,司法所还要完成上级司法行政机关和乡镇(街道)交办的其他有关工作。如此繁多的工作给司法工作人员带来了巨大的压力,他们在处理社区矫正工作时他们往往力不从心。

Score(q,d)=η·Cos(q,Td)+

其中,DtiDtj分别表示标签ti和标签tj标记的网页文档集合。由此构建的标签相似网络如图1所示。

于是个性化排序问题[3,4]通常可以描述为:对原始检索结果文档集合D(q)中的文档按照同用户u的个性化查询需求相关程度大小进行重新排序,得到重排后的个性化检索结果文档集合D(q,u)∈D。一般情况下D(q,u)中的文档排序会遵循一个新序列定义τ′中文档排序的前后关系等价于其中Rank(d,q,u)是一个排名函数,用来计算用户u提交查询信息q时检索结果中文档d的排名得分大小。

然而出书和办展完全是二回事,办展只是应时,短短的时间一过,就烟消云散。而书则会长期流传,故对资料的准确性、覆盖面、重点表现都有更高的要求。加之找一个合适的切入点也需费一番心思。好在图书馆青年教师张凌南对此也有爱好,自告奋勇提出帮我一起整理。又经过一年多的资料补充收集、梳理、核对,书稿总算是基本完成了。在没有资助的情况下出版该书也多亏文化艺术出版社的资深编审沈梅老师,她得知我在编此书后,主动向社里推荐了此书并得到认同,使该书的出版最终尘埃落定。

(7)

其中,Sim(q,d)表示查询信息q和文档d内容之间的相似度,将查询信息q与文档d都映射到同一向量空间,权重采用TF-IDF方法计算,通过计算文档和查询信息向量之间余弦值得到二者的相似度。Cos(q,Td)表示查询信息q与文档d标签信息之间的相似度,同样采用余弦相似度算法计算。Td中标签权重采用修改的TF-IDF方法计算,具体计算过程如公式(1)类似,这里不再赘述。其中η(0≤η≤1)为权重参数。

显然,非个性化文档得分部分只考虑查询信息q与文档d的文本内容及标签信息间的相关程度,个性化文档排名得分则需要考虑用户的兴趣与文档属性(如标签信息)的相关程度。同文献[4]一样采用相似邻居标注文档d的标签对u标注文档d的标签信息进行扩展,得到用户u对文档d的个性化配置文件,计算公式为:

4.3.2 个性化文档排名得分计算

再次,缺少合理的教师流动机制。当前,学前教师的流动受市场机制的影响,是单向的、无序的,民办园、县城幼儿园、农村幼儿园的优秀教师流向公办园、城市幼儿园,很少反向流动,造成优秀教师资源过于集中公办园、城市幼儿园,教师资源配置失衡愈加严重。

 

(8)

采用公式(6)计算用户之间的相似度,式中vui,d为用户ui对文档d的标签经词频统计后得到的向量,在挑选相似用户时设定相似度阈值θ(0≤θ≤1),Su为同用户u之间的相似度大于θ的相似邻居用户集合,Ud表示标注过文档d的用户集合。

在实际情况中,用户不仅标注的文档数量有限,而且标注文档时使用的标签数量也有限。为了更好地概括用户的兴趣,将用户u所有的个性化文档配置文件综合到一起得到用户u扩展配置文件,计算公式为:

 

(9)

其中,Du表示用户u标注的文档集合。通过计算用户u的扩展配置文件和其对文档d个性化文档配置文件带权向量之间的夹角得到文档d对用户u的个性化文档排名得分,计算公式为:

 

(10)

一般将非个性化和个性化文档得排名得分的两个部分看成是相互独立的,使用线性函数整合这两个部分的文档排名得分[3,4]。因此,用户u提交查询信息q,文档d在返回的结果文档集中排名得分计算公式为:

4.3.3 结果排序

Rank(d,q,u)=μ·PerScore(u,d)+

(1-μScore(q,d)

(11)

其中,μ为个性化调节因子。当μ=0时,表示对检索结果排序时完全只考虑非个性化文档排名得分的影响,而忽视个性化文档排名得分的影响。反之,当μ=1时,则只考虑个性化文档排名得分的影响。计算所有搜索到文档的Rank(d,q,u)值,然后按照从大到小的顺序排序返回给用户。

5 实验评估

5.1 数据集构建

实验评估的数据采用公开数据集socialbm0311和deliciousT140结合得到,已有一些相关研究对其进行了描述和分析[21,22]。socialbm0311搜集了从2003年推出社会化书签网站到2011年3月底近200万用户完整的书签活动,但是它只提供了网页的URL,不含有链接相应的网页内容;而数据集deliciousT140含有2008年6月搜集的144 574条URL及其对应的网页文档。因此,实验的数据集由上述两个数据集通过URL匹配得到。实验中对匹配后得到的数据集进行以下预处理:(1)剔除类似于“toread”等无意义和非英文的标签,同时对标签进行了去停用词和词干化处理;(2)剔除所有非英文网页及相应的标签,使用Tika(http://tika.apache.org/.)对网页内容进行解析,去停用词和词干化处理得到相应的文档。最终得到77 248个文档,166 205个用户,125 060个标签,7 312 543条标注行为组成本文实验的数据集,平均每个用户标注的标签数为0.75个,约有0.16%的用户标注超过100(0.12%)个网页。每个用户标注过的网页数量比较少,使用的标签也较少,符合本文的实验要求。

5.2 方法评估

本文首先通过尝试对文档集合进行主题域划分,将表达不同主题的网页以及相应的标签分开。其次通过构建标签相似网络找到标签的同义词,并用来扩展用户对主题域中标签的偏好,综合所有的标签偏好得到其对该主题域的偏好。最后结合用户配置文件和主题域偏好的相似性计算用户相似度。具体包含以下四个步骤:

因此,本文实验分成10次进行,每一次进行10组实验。每组实验都随机从数据集中挑选100对用户查询二元组(u,t)构成个性化查询集。将每一组中每一个用户查询二元组(u,t)视作用户u使用标签t作为查询词进行检索。在每组实验挑选出用户查询二元组后,都将所有的书签(u,t,d)∈A,∀dD剔除,以减小在使用标签t作为查询词时,文档d对结果的影响。本文将10次实验的平均结果作为每种方法的最终结果。本文采用的评估指标为平均排序倒数(MRR)、平均准确率(MAP)、准确率(Precision)以及召回率(Recall),这四种指标的具体计算过程可参考文献[26]。

5.3 实验结果及分析

为了评估本文PRfTDS方法引入主题域相似性的有效性和合理性,将其同最为相近的DPR[4]进行了比较。本文主要旨在验证上述两种方法在个性化文档排名得分部分上的不同对整体检索结果的提升,因此,实验时设置η=1以消除文档文本内容与查询信息相似度部分排名得分带来的影响。同时,为了验证数据稀疏时扩展社会化标注对个性化检索结果的有效性,实验中还与没有进行社会化标注扩展的相近方法SoPRa[3]做了比较。故本文采用的基线系统为方法 SoPRa和DPR。本文在训练LDA模型时设置迭代次数为1 000,设定主题数目K的取值为[50,200],递增区间长度为50。每确定一个K值,k的取值为[60,115],递增区间为15,相似度阈值θ取值为[0.1,0.4],递增区间为0.05进行实验。经过多次实验后,结果表明当K取100,k取85,θ取0.15时社会化标注扩展效果最好。

本文的实验结果如图3所示。从图3a和图3b中可以看出,本文提出的方法PRfTDS在μ取大部分值的情况都优于DPR和SoPRa方法,且在μ取0.9时达到最大值0.233 6 (MRR)和0.229 8 (MAP),分别比baseline中最好的方法DPR的最大值0.211 1 (MRR)和0.208 3 (MAP)提升了约10.66% (MRR)、10.3% (MAP)。从实验结果中可以发现:(1) 当μ从0到0.5变化时,三种方法的结果都很接近,这是由于当μ不是很大的时候,个性化部分对结果的影响还相对较小,实验结果主要依赖于网页标注信息和查询信息的相关程度。(2) 当μ大于0.5之后个性化部分对实验结果的影响逐步凸显出来,本文的方法比DPR上升的趋势快且结果好,且准确率方面表现得更加稳定,这表明当标注数据稀疏时本文计算相似用户的方法比单一考虑基于社会化标注计算得到的结果更加准确。(3) 当μ大于0.9时,三种方法都呈现出下降的趋势,说明过于依赖个性化的部分结果并不理想,网页的文本内容与查询信息的相关程度对于个性化检索结果同样起到不可忽视的作用。(4) PRfTDS和DPR方法在μ取大部分值时都优于SoPRa,说明扩展社会化标注方法在数据稀疏时可以一定程度上提升个性化检索的效果。

试验地海拔2 136 m,年平均气温6~7℃。地块光照充足,肥力均匀,地势平整,为黄绵土。试验地前茬作物为玉米,基础肥力状况经测定:碱解氮144 mg/kg,有效磷 21.7 mg/kg,速效钾 235.1 mg/kg,有机质 15.76 g/kg,pH=8.06。

  

Figure 3 Comparison of experimental results of the three methods图3 三种方法实验结果对比

此外,为了进一步验证本文方法的有效性,对以上三种方法在准确率和召回率上分别进行了对比实验。图3c给出了社会化标注扩展效果最佳且μ取0.9时的实验结果(实验过程中发现其他情况下的结果与其类似,这里不再赘述)。由图3c可知,本文提出的方法在准确率和召回率上都优于其他两种方法,这一结果同上述分析的情况相符。值得注意的是,本文方法在提高检索准确率的情形下,召回率相对基线系统的方法而言仍具有优势。这主要是由于数据集中标注数据稀疏的情况下,用户标注的网页数量有限引起的,这同时也表明本文方法一定程度上可以缓解标注数据稀疏性问题。在标注数据密集的数据中进一步验证本文提出的方法是未来研究的一个方向。

综上所述,实验结果一定程度上表明本文融合主题域相似和标签同义词信息计算用户相似度后扩展社会化标注的方法对于提升个性化检索结果的质量有一定效果。

瓜子花生这种混时间的食物,在绿皮火车汽笛呜呜的年代,还是很受欢迎的。看列车员打扫出的垃圾规模,就能了解到它们在旅行者心目中的地位。尤其在各种包装零食和方便面还没普及的年代,人们用废报纸包一包就带上车了,讲究一点的会用原包装纸包上。沿途的火车站也会有不同风味的瓜子售卖,算重要的旅行零食。现在连方便面偶尔都会被高尚的乘客嫌弃,常常容易侵害环境卫生的瓜子就更别说了,很容易招致旁人的白眼。好像吃薯片之类的零食,在高铁或者动车上更常见一些。

6 结束语

本文针对当前基于社会化标注的个性化排序方法中计算相似用户的不足,提出了一种融合主题域相似的个性化排序方法。首先通过主题域的划分,得到用户对每个主题域的偏好程度。然后结合主题域偏好和标签的相似度找到相似邻居,使用相似邻居的标签信息扩展用户对文档的标签偏好得到个性化文档配置文件,并对用户配置文件进行扩展。最后依据扩展的用户配置文件和个性化文档配置文件的相似性对原始搜索结果进行个性化排序。实验结果验证了本文提出的方法比计算相似用户时单一考虑标签相似的方法效果要好。下一步的研究工作将从标签的语义上着手,在计算相似用户时融入更多的因素,使得根据相似邻居扩展后的用户配置文件可以更加精准地表述用户的兴趣,从而进一步提高个性化搜索的效果;同时,将考虑在标注数据密集的数据集中进一步验证文本所提方法。

参考文献:

[1] Doerfel S,Zoller D,Singer P,et al.How social is social tagging?[C]∥Proc of the Companion Publication of the 23rd International Conference on World Wide Web Companion,2014:251-252.

[2] Xu S,Bao S,Fei B,et al.Exploring folksonomy for personalized search[C]∥Proc of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2008:155-162.

[3] Bouadjenek M R,Hacid H,Bouzeghoub M.Sopra:A new social personalized ranking function for improving web search[C]∥Proc of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval,2013:861-864.

[4] Xu Z,Lukasiewicz T,Tifrea-Marciuska O.Improving personalized search on the social web based on similarities between users[C]∥Proc of International Conference on Scalable Uncertainty Management,2014:306-319.

[5] He Jia,Zhao Hai-yan,Chen Qing-kui,et al.Review of web search algorithm based on social tagging [J].Journal of Chinese Computer Systems,2014,35(6):1281-1285.(in Chinese)

[6] Bao S,Xue G,Wu X,et al.Optimizing web search using social annotations[C]∥Proc of the 16th International Conference on World Wide Web,2007:501-510.

[7] Noll M G,Au Yeung C,Gibbins N,et al.Telling experts from spammers:Expertise ranking in folksonomies[C]∥Proc of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval,2009:612-619.

[8] Huang H C,Kao H Y.CAIS:Community based annotation insight search in a folksonomy network[C]∥Proc of International Conference on Advances in Social Networks Analysis and Mining,2011:353-360.

[9] Romsaiyud W,Premchaiswadi W.Exploring web search behavior patterns to personalize the search results[C]∥Proc of the 3rd International Conference on Intelligent Networking and Collaborative Systems,2011:313-319.

[10] Hotho A, Jäschke R,Schmitz C,et al.FolkRank:A ranking algorithm for folksonomies[C]∥Proc of Workshop on Information Retrieval,2006:111-114.

[11] Abel F,Henze N,Krause D.Optimizing search and ranking in folksonomy systems by exploiting context information[M]∥Web Information Systems and Technologies.Berlin:Springer Berlin Heidelberg,2009:113-127.

[12] Han K, Park J,Yi M Y.Adaptive and multiple interest-aware user profiles for personalized search in folksonomy:A simple but effective graph-based profiling model[C]∥Proc of the 2nd International Conference on Big and Smart Computing,2015:225-231.

[13] Jiang Z,Li J.A tag feedback based sorting algorithm for social search[C]∥Proc of International Conference on Systems and Informatics,2012:1482-1485.

[14] Ye Z,Huang X J,Jin S,et al.Exploring social annotation tags to enhance information retrieval performance[M]∥Active Media Technology.Berlin:Springer Berlin Heidelberg,2010:255-266.

[15] Bender M,Crecelius T,Kacimi M,et al.Exploiting social relations for query expansion and result ranking[C]∥Proc of the 2008 IEEE 24th International Conference on Data Engineering Workshop,2008:501-506.

[16] Zhou D,Lawless S,Wade V.Improving search via personalized query expansion using social media[J].Information Retrieval,2012,15(3-4):218-242.

[17] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.

[18] Cai Y,Han H,Chen J,et al.Integrating tags and ratings into user profiling for personalized search in collaborative tagging systems[C]∥Proc of the 2012 IEEE/WIC/ACM International Conferences on Web Intelligence and Agent Technology,2012:716-723.

[19] Zhang Xiao. Research on probabilistic topic model-based text clustering[D].Beijing:Beijing University of Posts and Telecommunications,2011.(in Chinese)

[20] Zhao Hai-yan,Guo Di,Chen Qing-kui,et al.Multi topic domain hybrid recommendation algorithm fusing similarity network[J].Application Research of Computers,2015,32(10):2901-2904.(in Chinese)

[21] Zubiaga A,Fresno V,Martinez R,et al.Harnessing folksonomies to produce a social classification of resources[J].IEEE Transactions on Knowledge and Data Engineering,2013,25(8):1801-1813.

[22] Zubiaga A,Garcia-Plaza A P,Fresno V,et al.Content-based clustering for tag cloud visualization[C]∥Proc of the 2009 International Conference on Advances in Social Networks Analysis and Mining,2009:316-319.

[23] Carmel D, Zwerdling N,Guy I,et al.Personalized social search based on the user’s social network[C]∥Proc of the 18th ACM Conference on Information and Knowledge Management,2009:1227-1236.

[24] Bischoff K,Firan C S,Nejdl W,et al.Can all tags be used for search?[C]∥Proc of the 17th ACM Conference on Information and Knowledge Management,2008:193-202.

[25] Krause B, Hotho A, Stumme G.A comparison of social bookmarking with traditional search[M]∥Advances in Information Retrieval. Berlin:Springer Berlin Heidelberg,2008:101-113.

[26] Baeza-Yates R,Ribeiro-Neto B.Modern information retrieval:The concepts and technology behind search [M].2nd Edition.Sebastopol, CA:Addison-Wesley Professional,2011:944.

附中文参考文献:

[5] 何佳,赵海燕,陈庆奎,等.基于社会化标注的网页搜索算法综述[J].小型微型计算机系统,2014,35(6):1281-1285.

[19] 张晓.基于概率主题模型的文本聚类研究[D].北京:北京邮电大学,2011.

[20] 赵海燕,郭娣,陈庆奎,等.一种融合相似网络的多主题域混合推荐算法[J].计算机应用研究,2015,32(10):2901-2904.

 
黄进,周栋
《计算机工程与科学》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号