更全的杂志信息网

高校图书馆信息咨询自动问答系统技术概述

更新时间:2016-07-05

信息咨询作为高校图书馆的核心业务,为用户提供专业、全面的咨询服务。传统的信息咨询受时间、空间、人力资源等因素的制约,在工作时间能很好的开展咨询服务,但在非工作时间则不能及时对用户提出的问题做出回应,降低了服务效率,也降低了用户满意度。

自动问答系统能够有效克服时间、空间、人力资源等因素的制约,为用户提供不限时间、不限地点的自助化、专业化、准确化服务。通过分析用户提出的以自然语言形式描述的问题,根据问题查找资源库,筛选有效信息,回答用户问题。

图书馆信息咨询自助问答系统是限定领域的问答系统,为用户提供信息查询、资源使用、常见问题、联系方式等服务。一般的问答系统主要包括问题分析、信息检索、答案抽取三个子系统。

1 问题分析

问答系统能否准确“理解”用户问题的意思是影响回答准确率的重要因素[1]。问题分析是问答系统的第一阶段,这一阶段的分析结果将作为已知信息参与后续阶段的数据处理,错误的问题分析结果会直接导致后续工作的无效性。问题分析包括:问题预处理、问题分类、获取关键词等。

总而言之,在我国当前的初中学校中,初中化学的实验教学没有得到足够的重视,“重理论而轻实验”的落后教学思想,严重影响了我国初中化学教育质量的整体提升。我们根据当前我国初中化学实验教学现状,在转变教学观念的同时,利用自主探究实验以及信息化实验的方式,有效解决了存在于初中化学实验教学中的具体问题,使学生在发展了化学的学科知识的基础上,培养出了真实可用的动手操作能力与自主探究意识,从而真正促进了学生的全面发展。

通过分析输油管道周围温度场及大地温度场的变化,并把大地视作一个有限的区域,这样一来问题的复杂度大大降低,模型求解也变得相对简单。图1为西部同沟敷设管道二维物理模型。

1.1 问题预处理

问题预处理是对问题进行分词、词性标记和去停用词等处理。

自我接纳是评估一个人心理健康的重要指标之一.高文凤等[13]研究表明,大学生在社交方面存在一定的社交焦虑,自尊与自我接纳是影响大学生社交焦虑的重要因素之一.Bolier等[14]对“积极心理学”干预的论文元分析发现,积极心理学干预技术能有效提升主观幸福感和心理幸福感.因此本研究旨在探索以积极心理学理论为指导的结构式团体辅导对社交焦虑研究生的干预效果.研究假设:与无结构式的团辅形式相比,积极心理取向的结构式团辅可以改善社交焦虑研究生的心理状态,降低社交焦虑水平,提高主观幸福感和自我接纳程度.

抽水蓄能电站被称为水电“皇冠上的明珠”,主要研发难点集中在效率与稳定性同时兼顾的问题上。哈电电机打破传统的思维方式,用水力设计方法解决了水泵水轮机不稳定区域并网难题,提高了机组的安全可靠性。从我国首台自主知识产权的响水涧抽水蓄能机组,到国内单机容量最大的仙居抽水蓄能机组“一年四投”,再到“分数极路比绕组”技术应用于荒沟抽水蓄能机组,哈电电机真正具备了自主完成大容量、高转速抽水蓄能机组的研制能力,实现了根本性跨越。

词是研究文本信息的最小单元,中文文本分析通常以词为单位进行数据处理,因为词与词之间不存在如英文中空格这样的分隔符,所以分词成为快速、准确地分析问题的基础[2]。词性标记,就是为每一个单词标注词性。“图书馆/n 什么/ry 时候/n 开馆/v ?/ww”是“图书馆什么时候开馆?”进行分词和词性标记之后的结果,“n”代表名词、“ry”代表代词、“v”代表动词、“ww”代表标点符号。

停用词通常是对后续信息检索无明显作用的单词,如:“我/是/本科生/,/我/想/了解/一下/远程/访问/的/使用/方法/。/”,这里的“我”、“是”、“想”、“了解”、“一下”对分析问题没有影响,也不是问题分析的必要条件。一般助词、叹词、语气词、拟声词等单词也是停用词。去停用词可以获取有效的关键词,降低特征向量空间维度,减少系统资源消耗,提高后续系统的处理效率。

1.2 问题分类

问题分类是问题分析中最重要的一步,问答系统根据问题类别进行相应的答案抽取,问题类别的判定直接影响答案抽取的准确性。将询问时间的问题错认为询问地点的问题,在信息检索中检索地点信息,答案抽取返回的最终答案也一定错误的[3]。不同类别问题的描述不同、疑问词、关键词也不相同。

(5)针对返回的句子按照问题类型对应的答案类型进行抽取。

如此在故事的世界里漫游,真的是最低成本、又很高效的认识世界多样化、游历与探险的方式。再回到之前那个问题:故事是什么?它还可以是我们进入世界之前的准备与练习。当孩子在故事中学习并掌握到不断开拓、寻找多种可能性的思维方法,将来他也会很自然地应用到现实的生活中去。

表1 基于规则的问题分类举例

问题分类疑问词与相关词组合答案类型问题举例时间问题什么时候时间名词图书馆什么时候开馆地点问题哪里地点名词查收查引结果去哪里取人物问题哪位人名馆际互借图书找哪位老师网址问题网址是什么网址“图书馆记忆”的网址是什么电话问题电话是什么电话信息咨询部的电话是什么邮箱问题邮箱是什么邮箱图书馆信息检索课的公共邮箱是什么方法问题怎么用使用方法介绍自助借还机怎么用其他……情况复杂《文献信息检索与论文写作》怎么样?

1.3 获取关键词

单词词典是倒排索引的重要的组成部分,使用词典记录文档集合中出现过的所有单词信息,包括单词对应的倒排列表在倒排文件中的位置。搜索时,首先在单词词典中查询要搜索的单词,获得相应的倒排列表信息。

获取关键词还包括扩展关键词。汉语词汇丰富,表达形式多样,问题中出现的单词往往不能与原有关键词完全一致,但意思、指代一致,这就需要将原有关键词进行扩展,提高关键词查询的成功率。“知网的网址是什么?”、“中国知网的网址是什么?”、“CNKI的网址是什么?”、“中国期刊网的网址是什么?”,这当中的“知网”、“中国知网”、“CNKI”、“中国期刊网”均指“中国知网”。

2 信息检索

信息检索在问答系统中起到了承上启下重要作用,它利用问题分析系统输出的关键词、关键词组及其扩展在资源库中进行检索,返回一些最相关的文档或片段,完成了由海量文本到精准信息的定位和细化,缩小了答案抽取系统的搜索范围。

图书馆问答系统中信息检索范围是图书馆网站上发布的所有信息,文档量较大,为提供良好的用户体验,需要一个高效、快速的信息检索系统。信息检索系统需要收集并整理文档,建立文档索引;存储并表示文档,建立文档资源库;整理并修改用户问题,生成检索表达式,并分析和扩展表达式,以满足检索要求;使用文档索引从资源库中找出相关文档或片段;按相关性将检索结果输出。

倒排索引是搜索引擎常用的技术,可用于信息检索系统。倒排列表中记录有哪些文档包含了某一单词。在文档集合中,很多文档都包含某一单词,将每篇文档记录文档编号(DocID),该单词在这篇文档中出现的次数(TF),以及该单词在文档出现的位置(pos)等信息。这样单词与一篇文档相关的信息被称为倒排索引项,包含这个单词的一系列倒排索引项构成的列表结构,为这个单词对应的倒排列表。倒排索引包含有效单词的倒排列表。

利用倒排索引可以快速的地响应查询。对于关键词“远程”,信息检索系统通过查找倒排索引,将包含“远程”关键词的文档1、文档2筛选出来,同时可用记录的单词频率等信息对候选文档进行排序,返回文档信息如表4所示。

表2 文档集合

文档编号文档内容1远程访问登录失败是怎么回事2远程访问提示:远程访问用户名密码错误3信息检索课的上课时间是什么时候4信息咨询的电话是多少

表3 倒排索引

单词ID单词倒排列表[DocID, TF,pos……]单词ID单词倒排列表[DocID, TF,pos……]1远程[1,1,1][2,2,1,8]9信息[3,1,1][4,1,1]2访问[1,1,3][2,2,3,10]10检索[3,1,3]3登录[1,1,5]11课[3,1,5]4失败[1,1,7]12上课[3,1,7]5提示[2,1,5]13时间[3,1,9]6用户名[2,1,12]14咨询[4,1,3]7密码[2,1,15]15电话[4,1,6]8错误[2,1,17]

如表2所所示,有4篇文档构成文档集合,将4篇文档分词,获取关键词构建倒排索引,结果如表3所示。

表4 返回远程相关文档

文档编号文档内容2远程访问提示:远程访问用户名密码错误1远程访问登录失败是怎么回事

关键词代表了问题的主体含义。关键词获取的准确性既影响信息检索阶段检索的准确程度,也对答案抽取阶段中候选答案选择有影响。常见的关键词为名词、动词、形容词等词性。

基于统计的问题分类是将经过类别标注的问题作为训练语料,使用KNN、SVM等分类方法,训练并构建分类模型,实现问题的机器分类。或是通过计算问题与已知类别问题的相似度,相似度越高,问题属于该类别的可能性越大,相似度越低,问题属于该类别的可能性越小。

与此同时,另外五辆跑车正在雄伟的皮兰市的中央广场接受着当地居民和世界各地游客的关注。对于一座只有5000居民的小镇来说,皮兰却是一座有故事的地方。16世纪,这里曾是威尼斯共和国抵御土耳其侵略者的一线战场,这座城市始终保持着原有的风貌并延续至今。俯瞰全城,整个城镇呈对称的九角星形状,以老城为中心,向各个方向延伸。

3 答案抽取

答案抽取是问答系统产生最终答案的关键一步,问题分析、信息检索都是为答案抽取提供服务的,答案抽取的范围是信息检索输出的检索结果,信息检索返回的是文档或片段,而问答系统需要返回精确、简短的答案,所以需要由答案抽取系统抽取信息检索返回的结果中的问题答案。根据问题类别的不同,答案的形式也不同,时间问题,返回简短的时间信息,人物问题,返回人员名称,而对于询问方法等问题则需要返回较长的语句才能将解决问题的方法描述清楚,因此答案抽取依赖于问题分析中的分类,针对不同问题类别采用不同的

答案抽取策略。

模式匹配的原理是根据问题的类型制定相应问题类型的答案模板。

3.1 相似度计算

应用相似度计算的答案抽取基于这样一种假设:包含正确答案的句子和问题的相似度应该高于不含正确答案的句子和问题的相似度。

(1)将信息检索输出的检索结果文档或片段分句;

(2)筛选出可能包含正确答案的句子;

(3)将每个句子分词构造向量,分别与问题计算相似度;

(4)返回相似度满足阈值的句子;

基于规则的问题分类是提取各类别问题的疑问词与其它相关词组合的特征规则,根据规则判定问题类别。“法渊阁什么时候开馆?”中“什么”、“时候”作为时间的疑问词与相关词组合出现,该问题询问的是时间,属于时间问题类别。表1是基于规则的问题分类举例。

常用的相似度计算方法VSM(空间向量模型)、编辑距离等。

2.5 建立科学考核体系 传统的闭卷一卷式考核方式,使学生由于考试压力而只关注背诵书本和课件上的重要知识点,而忽视了课堂上的投入和课后的延伸。为此,改变了过去一卷式闭卷考试的考核方式,建立了“开卷考试+课程论文+课堂讨论参与度+开放性实验完成情况”的考核评价体系,使学生的综合能力得到最大限度地展现。在100分的满分中,各指标所占分值如下:开卷考试(50分)>课程论文(25分)>开放性实验完成情况(15分)>课堂讨论参与度(10分) 。从题型上,摒弃了具有较强客观性的选择题、填空题、简答题题型,设置了更为主观性的词组比较题、简答题和论述题题型。

保利滨湖广场5~27层为客房层,共设客房437间,客房设计采取的是功能与艺术风格融合的方式,并且为客户保证了空间上的隐私性。卫生间配置为四件套,淋浴间和坐厕采用单独隔间,卫浴设施可供多人同时使用,便利性和私密性兼顾。商务工作与休闲区整合在一起,以沉稳大气为基调,增添年轻的色调与轻松的氛围,创造更舒适愉悦的空间感受。

3.2 模式匹配

常见的答案抽取方法有相似度计算、模式匹配、统计学习等。

(1)制定各类问题的答案模板;

摘 要:职业教育在日本教育体系中占有重要地位,在日本经济社会发展中起着无可替代的作用。日本在完成工业化进程及进入知识经济社会前后,不断完善职业教育体系建设,形成了与其经济社会发展相适应的具有特色的发展道路。当前,中国职业教育也处在发展关键期,认真分析日本职业教育体系中产学结合的经验,对于职业教育中建构合理科学的校企合作模式有着深刻的实际意义。

(2)根据问题类型使用相应的答案模板匹配信息检索返回的文档或片段。

模板制定有手工方式和机器学习方式两种。利用手工编写答案模板,操作简单、准确率高,但模板编写过程耗时,而且很难写全所有答案模板。表5为手工方式编写的部分答案模板。机器学习的方式是利用训练语料从相关文档或片段中提取包含关键词、关键词组及扩展和答案的子串,用变量替换子串中的关键词、关键词组及扩展和答案词,得到答案模板。

表5 手工方式编写的部分答案模板

问题类型问题举例答案模板答案举例时间问题开馆时间d{1,2}:d+-d{1,2}:d+6:00-22:00网址问题图书馆主页网址是什么((http |ftp |http s)://)?([0-2]?[0-5]?d .){3}([0-2]?[0-5]?d)([w-.,@ ?^=%&:/~+#]*)?http://library.cupl.edu.cn/电话问题图书馆电话咨询是多少(010)*(-)*(5890)d{4}010-58908311邮箱问题远程访问的咨询邮箱是什么[a-z0-9_+-]+(.[a-z0-9_+-]+)*@[a-z0-9-]+(.[a-z0-9-]+)*.([a-z]{2,4})cupl_libvpn@163.com

3.3 统计学习

利用统计的方法是考虑句子与问题之间的相关性,计算句子为正确答案的概率。

获取训练语料中句子的关键词、关键词组及扩展与对应问题的关键词、关键词组及扩展训练分类模型。当有新的问题出现时需构建新的分类器。马尔可夫模型、或支持向量空间模型的方法使用得最为普遍。

3.4 结构化数据答案抽取

以上的答案抽取方法主要针对半结构化、非结构化数据,而结构化的数据答案抽取较为简单。结构化数据,往往是已经构建了较为完整的结构化数据库,使用由问题的关键词、关键词组合及扩展精确转化的查询形式的语句,在结构化数据库中查询,返回的查询结果即为问题答案。该方法一般只能用在限定领域[4]

4 高校图书馆信息咨询自动问答现状

清华大学图书馆姚飞[5]等人以XML格式存储语料,使用中科院ICTCLAS分词系统,同时去掉了停用词,利用倒排索引技术构建信息检索的索引,将经过问题分析处理的问题与索引中的记录利用余弦相似度等进行相似度匹配,输出最终结果。

重庆文理学院图书馆陈诗琴[6]等人整理问答系统中问题和对应答案,分别将问题和答案分词构成问题模式和答案模式,对问题模式进行索引。问题分析阶段对问题进行分词、去停用词,获得关键词操作。信息抽取阶段将用户问题用已有问题的表达形式代替:使用问题关键词在索引文件中检索,得到问题集合的检索结果,再将用户问题与问题集合中的每个问题进行相似度计算,选取相似度超过阈值且为最高阈值的问题。答案抽取阶段将信息检索阶段获取的问题与已知的问题模式进行匹配,找到最佳匹配,再调取该问题模板对应的答案模板,从而获得最终答案。

南京大学图书馆沈奎林[7]等人整理并利用原有的FQA数据定义数组,其中键为关键词,值为对应的回复。使用Mysql存储检索数据,建立检索。问题分析阶段对用户问题进行分词、获取关键词;信息检索阶段,检索问题与数组中的关键词匹配情况;答案抽取阶段将匹配的关键词对应的内容作为答案输出。当用户问题的关键词有多个时,则一次性输出多个关键词对应的内容。

水权交易市场的发展一定程度上得益于水资源商品说的影响,而水资源商品说则受到水市场理论的影响。水市场理论以新自由主义为导向,认为水与其他产品一样也是一种经济商品,政府应该用经济原则制定水权的分配。随着这一思想的影响范围越来越大,水资源法律与政策越来越多地强调水的商品属性。人们之所以越来越接受水资源的商品化,大致受到如下因素的影响:第一,水资源越来越稀缺,使得水资源的高效使用日趋迫切,要实现这一目标需要借助水资源的价格机制,并配以合理的水资源管理制度。第二,不断发展的城镇化导致政府需要将农业用水用于满足不断增加的城市需要,这种情况下市场机制看似是政治上最可行的水资源分配机制。

哈尔滨工业大学图书馆李雪婷[8]等人在问题分析阶段针对用户问题进行分词、句法分析、语义分析、分类问题,并通过复述技术寻找语料中相似的问题描述,构建答案抽取模板,并添加了问题情感分析。信息检索阶段使用传统信息检索技术获得答案可能所在的文档,并对文档进行排序。答案抽取阶段包括答案抽取和答案排序,将信息检索阶段得到的结果根据问题类型抽取并获得最终答案。

5 结论

本文介绍了高校图书馆信息咨询自动问答技术。问答系统包括问题分析、信息抽取、答案抽取。问题分析提取用户问题中的关键词、关键词组合及扩展,为信息检索和答案抽取指明正确的方向。信息检索利用关键词、关键词组合及扩展获取资源库中可能包含答案的文档或片段,为答案抽取缩小、精确答案抽取范围。答案抽取从可能包含答案的文档或片段中为用户抽取简洁准确的答案。三个子系统功能各自独立,但又相互联系。

使用自动问答系统能够为用户提供7*24的咨询服务,提高咨询服务效率和质量,延长服务时间。

环境经济方面的政策则主要包括资金投入和税收优惠政策。政府对于列入国家重点污染防治和生态保护的项目给予资金支持;城市政府将城市维护费用于环境保护设施建设;国家征收的排污费用于污染防治。

参考文献

[1]张晓孪. 中文问答系统中问题理解与信息检索的研究与实现[D]. 西北大学, 2007.

[2] 晋月培. 基于关联分类的短信分类研究[D]. 北京工业大学, 2015.

[3] 刘增健. 基于网络搜索的问答系统[D]. 哈尔滨工业大学, 2013.

[4] 毛先领, 李晓明. 问答系统研究综述[J]. 计算机科学与探索, 2012, 06(3):193-207.

[5] 姚飞, 纪磊, 张成昱,等. 实时虚拟参考咨询服务新尝试——清华大学图书馆智能聊天机器人[J]. 现代图书情报技术, 2011, 27(4):77-81.

[6] 李文江, 陈诗琴. AIMLBot智能机器人在实时虚拟参考咨询中的应用[J]. 现代图书情报技术, 2012(z1):127-132.

[7] 沈奎林, 邵波, 赵华. 利用微信构建图书馆智能问答系统[J]. 图书馆学研究, 2015(8):75-80.

[8] 李雪婷, 李莘. 图书馆微信平台自动问答机器人语言体系研究[J]. 现代情报, 2016, 36(10):99-101.

晋月培
《法律文献信息与研究》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号