更全的杂志信息网

引入主题链接块因子的候选链接搜索策略研究∗

更新时间:2009-03-28

1 引言

随着Internet的迅速发展,Web上的信息量也呈直线上升,如何高效地从庞大信息中获取有用资源,成为数据挖掘的关键问题。主题爬虫[1]是一种动态的网页采集技术,可在用户提交查询时根据指定主题即时、定向地爬取网页。与传统爬虫不同,主题爬虫追求的不是全面搜索,而是将预设主题视为爬取目标,忽视与主题无关的页面。

用水效率控制红线包括工业指标、农业指标、生活服务业指标和综合指标,主要有万元GDP用水量、万元工业增加值用水量、工业水重复利用率、农田灌溉水有效利用系数、亩均用水量、农业节水灌溉面积比例、城镇供水管网漏失率、城镇公共及生活节水器具普及率和人均综合用水量等指标,也包括各行业用水定额,可以作为宏观控制指标衡量流域、区域或行业以及具体用水户的用水效率。东北四省区节水增粮行动项目涉及面广,种植结构和灌溉方式种类繁多,故此项目的用水效率控制决定着项目用水总量及项目发展的规模和布局。用水效率控制红线,主要体现在农业用水控制指标和用水定额方面,有效改变过去粗放型用水模式,加快推进节水型社会建设步伐。

主题爬虫搜索策略的设计中常用的链接评价算法[2]有pagerank算法、HITS算法、Shark-search算法,这些搜索策略通常是以整张网页作为处理单位,容易受到噪音信息的干扰。除了以上经典爬行算法外,越来越多的新技术结合到爬虫研究中。Ester[3]提出的基于“隧道”问题的主题爬行算法,随着搜索范围的不断扩大,爬虫滤过不相关网页,寻找正确爬行路线。Johnson[4]根据二类分类模型,提出基于支持向量机搜索算法。Menczer[5]提出的基于遗传算法和增强学习程序的Infospider主题爬行器等都在提高爬行效率方面取得了很好的效果。文献[6]中结合了网页内容与网页链接的相似度对shark-search算法进行改进,在计算网页内容相似度时,借助块标题与主题的相似度来计算候选链接权重,通过调查可知,一般除了正文,其他分块的标题信息很少有有价值的信息,一般以“相关链接”,“相关报道”等为标题,这些信息并不能准确地描述该块的主题相关性。

方铅矿块矿取自广东某铅锌铁硫化矿,手捡结晶度和纯度高的块矿,经磁选和重选除杂作试验用纯矿物,其化学多元素分析结果见表1,X射线衍射图谱见图1。

本文在文献[6]的改进Shark-search算法[6]的基础上做进一步研究,先使用分块技术抽取出页面中与主题相关的链接块,然后利用相关块中所有链接锚文本的主题相关度为辅助因子,引入相关链接块权重的概念,提出基于相关链接块的改进搜索策略对网页中的url进行优先级预测。实现了一个在页面搜索准确率和查全率方面有很大程度提高的搜索策略。

2 Shark-search算法

2.1 Shark-search算法介绍

Shark-search算法是 Hersovici,M 等在Fish-search算法基础上提出的改进算法,Shark-Search[7]中引入了相似度度量方法,采用基于连续值的相关度函数预测链接价值,对网页与主题的相关性进行模糊评分,且取值在0~1之间;在计算URL的potential_score上,充分利用了锚文本,链接上下文以及对父网页相关性的继承对候选链接主题相关度的影响。

2.2 Shark-search算法存在的问题

Shark-search算法将链接上下文、锚文本以及父页面继承作为待访问链接主题相关度的评价因素。但存在以下问题[8]

(3)根据现场遗留物及被撞车辆痕迹、人体痕迹等推断逃逸车辆装载物、接触部位和损坏部位,从而使追击、堵截工作更具针对性。

其中,。n′指的是通过url爬取到i的与主题相关的链接数量,n指通过urli爬取到所有子链接的数量。θ为归一化因子,通常取0.5。为动态因子,表示父块对子链接的影响程度(将链接所在链接块成为父块)。由式(2)计算所得,表示继承自父块的主体相关度和已经被爬行过的兄弟链接的平均链接相关度。我们将处于同一链接块中的链接成为兄弟链接,兄弟链接之间具有资源相邻性,即主体相同。

2)WEB页面中包含大量的噪音链接,而链接的锚文本比较短小,在同一网页中可能会存在大量权重相同的网页,以致不能准确地描述链接指向页面的主题相关性。

与传统工艺相比,该工艺占地面积小,投资成本少、自动化程度高、自耗水量少。不计节省土地、阀门耗用、相关维修费用以及减少的人工等运行成本,其自耗水约占2%,而传统工艺为5%~10%。高效节能新工艺在无棣县水厂成功应用证明,研究并把握好每个制水环节,通过强化常规水处理工艺也能处理好水。该水厂的投产运行可为其他新建或改造自来水厂提供借鉴。

当网页被采集下来后,还需要提取网页正文以及网页中的子链接。该部分的提取精度对下一模块主题相关度的计算有直接影响。本文采用基于标签信息和视觉信息的分块方法针对主题型页面进行分块处理。最后基于相关链接块设计页面搜索策略。分块流程如下:

3 相关链接块的提取

3.1 相关链接块特征

1)网页预处理:首先是网页规范化,使用HTML Tidy工具来修正html文件中错误;然后构造当前访问网页的HTML DOM树;第三部分为噪音的处理,主要针对无用标签及多余属性,导航栏、分类栏及广告信息。

5)通常一些网页会在相关链接出现之前使用特殊词进行提示,比如:相关链接,相关主题,更多信息等。

2)绝大部分导航栏中的锚文本会出现“首页”等词,而相关链接的锚文本中不会出现这些词。因此可以用相关链接块中很少或不会出现的词建立一个相关链接停用词表[9]

3)相关链接的链接地址一般是站内地址[10],并且格式通常比较整齐,而广告链接的链接地址通常为站外链接,我们将广告商服务器地址集合起来建立一个地址表成为相关链接停用地址表。

4)相关链接块中的锚文本和主题文本具有相似性。

1)相关链接块中的链接锚文本长度一般占20~30字节,而导航栏中的锚文本较短,一般不到10字节。

2016年,国务院总理李克强在政府工作报告中提出,“鼓励企业开展个性化定制、柔性化生产,培育精益求精的工匠精神”。[1]由此,“工匠精神”首次被政府提出,同时上升到国家发展层面,迅速成为舆论和社会争相关注的热点,并作为各行业严谨精确、锲而不舍的代名词。

3.2 提取规则

针对以上相关链接块的特征,本文使用以下规则从链接块集合中识别出主题相关链接块:将每条链接的特征所对应的属性值表示为四元组形式(TextLen,StopWord,StopAddress,TextSim),其中TextLen表示该条链接的锚文本长度;StopWord表示在对该链接的链接文本分词后,判断相关链接停用词词表中是否含有该链接的特征词,返回结果为布尔型,若存在则取值为真,否则为假;Specialwords同stopword的含义正好相反,是一个统计特殊词的词表,若链接特征词出现在词表中,则取值为真,否则为假;TextSim表示该链接的锚文本与其所在页面标题之间的文本相似度,大于阈值则为真,小于则为假。表示其中相关链接停用词表及相关链接停用地址表,是通过人工采集大量不同网站链接信息分析得到的。相关链接块的提取其实就是噪音块的过滤,通过过滤噪音块来提取相关链接块,更符合实际应用以及更易于算法的实现。

3.3 相关链接块提取步骤

3)在 shark-search算法中,当锚文本anchor_score大于0时,链接上下文anchor_context_score设为1。而在实际情况中,两个锚文本相同的链接出现在同一个网页中的不同链接块,应该具有不同的相关性。

该模块的目标是从一个网页的链接块集合中识别出所有相关链接块,从而过滤掉噪音链接。通过训练集的研究与分析,总结出网页中的相关链接块一般具有以下特征:

2)判断网页类型:Web上的网页一般分为[11]主题型网页和链接型网页,链接型网页主要体现为链接集合,主题网页主要以文本为主体,可以根据网页中锚文本文字数与非锚文本文字数的比值β来判断。首先通过训练集得到阈值μ,若β>μ,则认为该网页为链接型网页,否则为主题型网页。

3)如果该网页为主题网页,使用视觉信息与标签信息结合方法进行网页分块处理。网页制作者一般会使用[12]Table标签或Div标签对划分网页内容,并且用一些特殊标签构造布局以便于用户浏览。如果一个Table或者Div标签中嵌套了另一个Table或Div标签,一般认为这两个标签中的内容主题不一致,若无嵌套,就可以利用视觉信息作进一步讨论;如果整个标签内的视觉信息一致,则认为该部分内容主题单一,不一致则按照视觉信息的不同进行进一步分块处理。除了这两种标签,网页中也包含用于页面布局的frame标签,一般认为frame标签的存在是为了分离那些关系并不紧密的块。所以用frame布局的页面直接进行分块,不管视觉信息是否一致。将以上三种标签构成的标签集{<table>,<div>,<frame>}来对页面进行迭代分块。

5)识别主题相关链接。

4)调用主题文本识别算法获得主题文本内容:在内容块集合中查找文本信息量最大且宽度大于网页宽度三分之一的块放入集合T(T为网页的主题文本),将该块作为主题评价基准。然后在剩余块集合中查找具有与文本信息量最大块宽度相等的块,与T进行相关度计算S。若S大于给定的阈值,则认为该块为主题相关块,将其合并到T;否则视为噪音块放弃。

具体措施为:公共信息平台的系统以IEC6系列为标准,结合 SCADA系统和EMS系统对电力调度网络进行监控数据的采集与分析,建设内网数据平台和外网数据平台。其中,内网数据平台主要管理本电力调度工程的信息,数据具有可读性和可改性,但改动数据需要取得管理员权限。外网数据平台的电力调度信息与各调度工程共享,数据只有可读性。建立公共信息平台后,电力调度中心各系统间的结构变为星型结构,即以公共信息平台为核心,电力市场、电能量计量系统、保护和监控信息系统、水调系统为分支机构,进行数据信息的自动化共享。

  

图1 网页分块流程图

4 引入主题链接块因子的改进Shark-seach算法

获取内容块后,将内容块集合分类,得到文本块集和链接块集,文本块与链接块中候选链接的优先级计算采用不同方法,本文重点研究链接块中候选链接的优先级预测方法,基于主题相关链接块对Shark-search算法进行改进,针对块标题不能准确描述块以及锚文本短小不能充分体现主题[13]的缺点,引入主题链接块的相关性得分增加主题预测的正确率。并且借鉴文献[2]中对改进Shark-search的算法思想,引入链接结构信息对网页价值的影响,降低主题偏移现象的发生率。以下公式表示候选URL的优先级得分:

注 2.2 文献[16]已经证明,F(X)上的度量H和H*是等价的,因此度量空间(F(X),H)与(F(X),H*)的性质是完全一致的。

 

1)未考虑链接结构对链接优先级的影响,容易产生主题漂移问题。

 

LB(urli)表示链接块的主题相关度,urlk表示基于urli爬取到的子链接,N为urli已爬行子链接的数量,所在部分表示链接urli所在父块已经爬取到的子链接的平均相关度得分。γ为平衡因子,用来平衡由继承自父块的影响价值和兄弟结构影响价值所占的权重。

以下为父块相关度得分计算公式:

 

其中anchor_score(urli)指该链接块中每个链接锚文本的相关度得分,B_url_num指该链接块中包含的链接数量总和。由公式可以看出,链接块的相关度得分受两方面因素的影响:块中所有链接的锚文本总和与主题词的相似度以及块中所包含的链接总数。由于使用向量空间模型来计算主题相似度,结果受主题词词频影响较大,因此链接较多的块可能获得的评分较高,为了避免偏向于链接较多的块,引入B_url_num作为调节因子,以此平衡链接数量对评分的影响。

④中纪委主张“监察机关调查职务违法和职务犯罪适用国家监察法,案件移送检察机关后(才)适用刑事诉讼法”。

5 实验结果及对比分析

5.1 实验环境及评价指标

本系统的实验环境为Win7旗舰版64位操作系统,Intel(R)Core(TM)i5-4570 CPU,4G 内存,Eclipse(4.0版本)平台,开发语言为Java,在IDEA工具中搭建webmagic爬虫框架进行功能定制。实验中将本算法与Shark-search算法、HITS算法进行了比较。使用Srinivasan[14]提出的的查全率与抓准率作为评价指标,查准率(harvest-rate)指在用户查询返回结果中,主题相关性页面relevant_pages与提取到的全部页面pages_downloaded在数量上的比值,计算如式(5);查全率(R(t))是指返回结果中所抓取到的主题相关性页面和web上所有与查询主题相关的页面在数量上的比值。两个指标之间是相互制约的关系,计算如式(6):

资源是图书馆提供信息服务的基石。在新媒体环境下,为了高质量地开展信息服务,满足读者多元化的信息需求,高校图书馆应在进行读者调研的基础上制定内容丰富、结构合理、载体形式多样的馆藏资源建设方案,实现馆藏结构、不同载体文献的和谐统一。而民族高校图书馆也担负着文化传承的使命,因此在资源建设方面除了常规资源建设意外,还应根据学校学科建设需求和民族特色文化,重点加强一批具有民族性、地域性的综合性特色数据库的建设,以便更好地服务于民族高校师生读者的科研需求。并在资源构建的基础上重点打造知识服务产品,基于资源进行知识内容的整合和有效的关联,以实现多层次、多方位、多形式的资源传播和信息服务。

 

由于Internet存在巨大的信息量,很难精确计算主题搜索的覆盖范围,查全率的获得显然十分困难,因此在实验中以查准率为主要评价指标。

5.2 实验结果对比

将“旅游”作为搜索主题,首先,确定该领域的主题词,从Google上以主题词为关键词输入查询请求,从返回结果中挑选5个相关度高的页面作为初始种子。系统开启3个线程,在运行5小时后得到以下结果:

 

表1 5小时后页面采集结果

  

New 4786 3752 119页面总数(/页)主题页面总数(/页)平均下载速度(/min)Hits 4630 2050 103 Shark-search 4700 2761 112

从表1中可以看出,由于受到主题搜索算法复杂度以及网络带宽等因素的影响,新算法在页面下载速度上的表现并不突出,但是主题爬虫的目的是有效地抓取网络上与主题相关的页面,而新算法所抓取的主题页面数量相较与HITS算法以及Shark-search算法有很大的优势。另外在系统爬行过程中每隔500个页面记录下该时刻主题相关页面的数量,并计算准确率,结果如图2所示。

  

图2 查准率比较

从图2中可以看出,HITS算法随着网页下载数量的增加,查准率反而处于下降趋势,这是因为该算法的主题漂移现象随着抓取页面数量的增加越来越明显。Shark-search算法在整个抓取过程中的表现趋于稳定,但由于[15]大量噪音链接的存在同时未考虑全局性等缺陷,查准率并不太理想,而新算法经过网页分块过滤掉噪音后,新算法经过网页分块过滤掉噪音后,引入了内容块权重,随着下载网页的增加保持稳定状态的同时查准率也高于前两种算法。实验证明,使用新算法的网络爬虫性能上有了很大的提高。

另外,为了验证改进算法在很大程度上缓和了“主题漂移“问题,另外做了两组实验,分别以”股票“、”体育“、”手机“为查询主题词,在实验中,用抓取到的无关页面与页面总数的比值来衡量主题漂移率,实验进行5h后的结果如图3所示,从图中可以看出,“手机”关键词语义比较明确,不易出现主题漂移问题,而对于“股票”、“体育”这类有歧义的关键词,较易出现主题漂移问题,由于改进算法综合考虑了链接结构和语义信息以及链接聚集成块的特点,相对于其他两种算法,主题漂移率明显降低。

  

图3 主体漂移率比较

6 结语

分析了Shark-search算法在计算候选链接主题相关度时的局限性,提出了基于链接块的改进Shark-search算法。在计算候选链接优先级时,除了依据网页内容、锚文本,引入了链接块相关性和链接结构特性,既弥补了仅仅使用文本内容而缺乏Web全局性的不足,又消除了使用链接结构容易产生主题漂移的问题。实验证明改进算法的确使主题爬虫的搜索效率有了很大提高,但本文的研究工作还有待进一步的深入和扩展,比如链接的上下文很可能出现在网页的不同区块,当一个相关度很高的链接出现在网页正文的顶部或底部时,很容易导致边框部分的链接的倒部分上下文权重,因此如何准确地判断链接上下文对分块处理的链接的相关度影响是需要进一步研究的工作。

参考文献

[1]郭华.基于锚文本上下文和链接分析的主题爬取算法[D].杭州:浙江大学,2014.GUO Hua.Theme crawl algorithm based on the anchor text context and crawl the theme[D].Hangshou:zhejiang university,2014.

[2]Ester M,Grob M,Kriegel H.Focused Web Crawling:A Generic Framework for Specifying the User Interest and for Adaptive Crawling Strategies[C]//Proceedings of the 26thInternational Conference on Very Large Database(VLDB’01),2001:527-534.

[3]J.Johnson,K.Tsioutsiouliklis,C.L.Giles.Evolving strategies for focused web crawling[C]//Proceedings of the 20th International Conference on Machine Learning,2003:298-305.

[4]Menczer F,Belew R K.Adaptive retrieval agents:Internalizing local context and scaling up to the Web[J].Machine Learing,2000,39(2):203-242.

[5]李军,陈君,王玲芳.一种垂直页面分割与信息提取方法的研究[J].计算机应用研究,2013,30(3):844-852.LI Jun,CHEN Jun,WANG Lingfang.A research on vertical page segmentation and information extraction method[J].Computer application research,2013,30(3):844-852.

[6]黄仁,王良伟.基于主题相关概念和网页分块的主题爬虫研究[J].计算机应用研究,2013,30(8):2377-2380.HUANG Ren,WANG Liangwei.Research on topic crawler based on the concept of and page partitioned[J].Computer application research,2013,30(8):2377-2380.

[7]张文跃.基于改进shark-search算法的主题爬虫的研究与实现[D].呼和浩特:内蒙古大学,2015.ZHANG Wenyue.The research and implementation Based on the improved shark-topic crawler search algorithm[D].Hohhot:Inner Mongolia university,2015.

[8]罗林波,陈绮,吴清秀.基于Shark-search和HITS算法的主题爬虫研究[J].计算机技术与发展,2010,20(11):76-79.LUO Linpo,CHEN Qi,WU Qingxiu.The Shark-Search algorithm based on web block[J].Journal of shandong university(science edition),2007,42(9):62-66.

[9]陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报(理学版),2007,42(9):62-66.CHEN Jun,CHEN Zhumin.The Shark-Search algorithm based on web block[J].Journal of shandong university(science edition),2007,42(9):62-66.

[10]常红要,朱征宇,陈烨.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计.2010.31(24):5187-5175.CHANG Hongyao,ZHU Zhengyu,CHEN Ye.Based on the analysis of the HTML tag USES web text extraction technology[J].Computer engineering and design.2010,31(24):5187-5175.

[11]雷军程,黄同成,柳小文.一种基于权重的文本特征选择方法[J].计算机科学,2012(7):45-50.LEI Juncheng,HUANG Tongcheng,LIU Xiaowen.A kind of text feature selection method based on weighted[J].Journal of computer science,2012(7):45-50.

[12]熊忠阳,蔺显强,张玉芳.结合网页结构与文本特征的征文提取方法[J].计算机工程,2013,39(12):200-203.XIONG Zhongyang,LIN Xianqiang,ZHANG Yufang.Combined with the feature of structure and text page essay extraction method[J].Computer engineering,2013,39(12):200-203.

[13]罗林波,陈绮,吴清秀.基于Shark-search和HITS算法的主题爬虫研究[J].计算机技术与发展.2010,20(11):76-79.LUO Linbo,CHEN Qi,WU Qingxiu.Topic crawler based on Shark-search and HITS algorithm study[J].Computer technology and development,2010,20(11):76-79.

[14]Du YaJun,Hai YuFeng,Xie ChunZhi,et al.An approach for selecting seed URLs of focused crawler based on user-interest ontology[J].Applied Soft Computing,2014,14(1):663-676.

[15] Punam Bedi,Anjali Thukral,Hema Banati.Focused crawling of tagged web resources using ontology[J].Computers and Electrical Engineering,2013,39(2):613-628.

 
周雪,刘乃文
《计算机与数字工程》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号