更全的杂志信息网

面向地理课程自动解题的本体知识库构建

更新时间:2016-07-05

自动解题技术是当前自然语言处理领域的一个研究热点,主要集中在数学领域,如Shi[1]等通过构造语义分析器自动求解代数文字题,Hosseini等[2]通过从训练语料中学习动词的类别自动求解算术文字题,Kushman等[3]通过训练一个概率模型自动求解代数文字题,Roy等[4]通过使用表达式树自动求解一般的数字文字题,Zhou[5]等利用二次规划来自动解答代数文字题。而对于其他课程的自动解题研究则偏少。漆桂林[6]以本体作为知识库,构建了一个高考地理智能问答系统。本文针对地理课程自动解题,对本体知识库的自动构建进行研究。

传统的本体构建方法有TOVE法、骨架法、IDEF5法、METHONTOLOGY法、SEN-SUS法、KACTUS工程法、七步法等[7]。在国内外研究中,尝试在本体构建过程中尽量减少人工参与成分的研究主要有以下几类:第一类,在概念实体抽取阶段主要通过手工方法实现,但在概念实体关系构建阶段,部分通过自动方法实现,例如马捷[8]借助《教育主题词表》的主要概念实体关系,利用本体编辑开发软件protege3.2.1构建出面向网络应用的教育领域本体。第二类,在概念实体抽取阶段主要通过手工方法实现,但在概念实体关系构建阶段完全通过自动方法实现,例如邱均平[9]利用情报学资源本体类目及等级体系,定义类的属性、添加实体及定义实例属性,通过统计分析、共现分析和语义相似度计算等方法,构建实体概念间的关系。第三类,在概念实体抽取阶段和概念实体关系构建阶段均完全通过自动方法实现,如王超[10]通过对文献资源的分词和清洗,自动提取领域概念实体,并用关联分析和改进的层次聚类发现领域概念实体间关系,构建农业领域本体。

歌词一:清明的风/吹绿了你的胡同/梨花雨/淋湿了书生的梦/树叶儿落/头顶上秋雁呢哝/城门外/没贴你名字

本文针对地理课程自动解题,研究地理课程试题本体知识库的构建。

1 地理试题本体知识库的构建

参照传统本体构建方法,本文在构建地理试题本体知识库时分为以下几个步骤:概念实体提取、概念实体关系构建、OWL文档规则化、protege编辑完善等,总的实现流程如图1所示。

图1 地理领域本体构建流程

1.1 概念实体抽取

利用计算机自动解题时,关键的一步便是对整个试题文本进行理解。本文对地理试题文本进行分词和结合TFIDF算法提取概念实体,用于后续的概念实体关系构建。下面以一道地理试题为例,说明地理试题本体的具体构建过程:

例 下列节日中,北京市的白昼时间最短的是()

TF-IDF算法中的词频(TF)指的是某个词在文件中的出现次数与文件中所有词的出现次数之和的商:

A.元旦 B.教师节 C.国庆节 D.国际儿童节

分析 北京位于北半球,北半球白昼时间最短的一天是冬至日(12月22日前后)。4个节日中,距离冬至日最短的那天就是北京市白昼最短的一天。元旦(1月1日)、教师节(9月10日)、国庆节(10月1日)、国际儿童节(6月1日),这4个节日中,元旦距离冬至日时间最短,故白昼时间最短,因此选“A.元旦”。

首先利用中科院所开发的ICTCLAS分词软件对试题进行分词,目前在系统里加入一个包含400个地理概念词汇的用户词典以提高分词效果,并构建停用词表,在系统进行TF-IDF前对分词结果进行预处理,去除试题分词结果中的通用字,以提高TF-IDF的准确性。

C++面向对象程序设计作为一门实践性较强的专业基础课,在电子和计算机类学科的教学体系中起着非常重要的地位,也是后续课程学习的基础。结合独立院校培养人才的目标和时代对人才的需求,我们对C++课程教学方式和体系和进行了新的探索,提出新的改革,旨在提高学生的动手实践以及自发学习的能力。为达到更好的改善教学质量的目的,将进一步深化C++教学的改革,不断引入适合独立学院的新的教学模式,以不断提高学生的软件开发和编程的能力,为培养更多顺应时代发展要求的优秀编程学生而奋斗。

TF-IDF算法中的逆向文件频率(IDF)是指总文件数目与包含该词语之文件数目的商的对数:

TF-IDF的值就是TF与IDF的乘积:

根据冯志远、杨国旗等学者对发动机连杆在不同工况下,用有限元软件进行疲劳寿命分析可知,连杆在交变应力的作用下,杆身部位处于单轴应力状态。连杆小头油孔、小头与杆身过渡部位、大头与杆身过渡部位、连杆盖螺栓沉孔部位均处于多轴应力状态,这些都是极易发生疲劳断裂的潜在区域[17-18]。有限元分析结果如图2所示。

结合上述分词及通用字预处理的结果,将收集的3 000多道地理试题作为试题库,从中随机抽取50,100,200道试题作为样本,分别计算每道试题中关键词所对应的TF-IDF值,将样本试题中每个关键词分别放入所构建的基本术语层次关系表中进行检索,分别保留50,100,200道试题中TF-IDF的最大值与最小值,如表1所示。

为提高TF-IDF阈值设置的准确性,将阈值范围设为0.111 965 16~0.207 313 95。利用分词及相关预处理和TF-IDF算法,可以得到上面例题的分析结果,如表2所示。

利用上述阈值所设置的范围,可以提取出例题文本的所有概念实体。

(e)The reason why we can sell so cheaply is that we buy in bulk

表1 不同试题数目下TF-IDF的最大值与最小值情况

试题数目50 100 200 TF-IDF_MIN 0.112 375 86 0.116 870 89 0.111 965 16 TF-IDF_MAX 0.194 354 6 0.207 313 95 0.184 257 34

表2 例题文本的分词和TF-IDF值

分词结果下列节日日中北京市白昼时间TF-IDF值0.0722 667 35 0.144 222 51 0.144 222 51 0.144 222 51 0.100 900 814 0.059 595 946分词结果最短A元旦教师节国庆节国际儿童节TF-IDF值0.144 222 51 0.000 942 282 0.144 222 51 0.144 222 51 0.144 222 51 0.144 222 51

1.2 概念实体关系构建

首先给出基本术语层次关系表的构建。对于上面的例题,其对应的基本术语层次关系如表3所示。

利用自制的护理满意度调查报告对患者进行调查,让患者对护理人员的工作进行评分,护理满意度分为满意和不满意两种,满分100分,80分以上为满意,其余为不满意,计算患者的护理满意度。记录两组护理人员工作过程中出现的不良事件,记录护理安全事故和护理纠纷的发生率,并进行对比。

表3 基本术语层次关系表

ID Parent_ID ID Parent_ID 12345 Name节日元旦节气教师节国庆节12122 67891 0 Name国际儿童节夏至春分秋分冬至22222

本文中所用的基本术语层次关系表是通过手工方法构建的,主要考虑:一方面,由于本文试题规模有限,统计学、聚类等方法难以到达明显的效果;另一方面,所构建的本体目标是用于自动解题,从解题准确率出发,通过手工构建基本术语层次关系表辅助实现概念关系的自动抽取。

在构造基本术语层次关系表时,根据所收集的3 000道地理课程试题的22个不同类型分类,针对不同类型的试题,分别构造对应的基本术语关系表。利用开源的搜狗地理词库,构建基本术语关系表。目前基本术语关系表中包涵1 700多个术语词,试题分布及基本术语层次表的具体情况如表4所示。

表4 试题分布及基本术语层次表的具体情况表

试题类型试题数量术语表层数试题类型试题数量术语表层数水文217 4经济147 6气候150 6旅游200 5地形120 7风向35 5岩石76 6交通118 6板块55 5文化45 6天气64 6环境55 7人口190 5时间143 6农业200 6位置153 7工业210 5灾害155 5宇宙178 8资源73 4聚落198 5其他218 4

例题文本的OWL本体文件(geo.owl)在protege中的展示如图2所示。

算法1概念实体关系构建算法

输入:TF-IDF提取出的概念实体与解题所需的隐含概念实体。

城乡空间之间进行联系是通过小城镇来完成的,小城镇对于促进乡村城市化非常重要。许多乡村小城镇出现了分散发展和小型化的特点,严重影响了小城镇城市化质量的提高,不利于城乡空间融合发展。因此,对重点小城镇发展空间的整合,有利于城乡空间的整合与发展。

Step3:查询该概念实体所处节点的父亲节点,将该节点与父亲节点构建成三元组关系,并将关系写入result文件中;

Step1:根据试题类型,选择对应的基本术语层次关系表,进入Step2;

Step2:依次选择提取出的概念实体与解题所需的隐含概念实体,扫描整个数据库,若概念实体存在于数据库中,则进入Step3,否则进入Step4;

输出:构建好的概念实体关系文件result与待处理概念实体文件pending。

输入:三元组关系文档result.txt

对于例题文本,以“元旦”进行扫描时,其父亲节点为“节日”,则将“元旦subClassOf节日”语句写入result.txt文件。

1.3 概念实体关系规则化

在抽取试题文本中的概念实体关系后,可以利用Jena所提供的Java API,将得到的概念实体关系(result.txt文件)转换成为OWL本体文件(geo.owl),该OWL文档就是可被编辑的本体原型,这个过程称为概念实体关系的规则化。算法2给出了概念实体关系的具体规则化过程。

预混胰岛素在2型糖尿病治疗中的地位综合评价…………………………………………………… 卢 岩等(4):571

Step4:将该概念实体直接写入pending文件。

输出:OWL本体

Step1:OntModel m=ModelFactory.createOntologyModel();

Step2:String ontoURI="http://www.semanticweb.org/geo";

Step3:while(result.txt的一行不为空){

String firstString=ontoURI+strings[0];

OntClass class1=m.createClass(firstString);

//第一个概念实体转换成一个类

String secondString=ontoURI+strings[1];

OntClass c2=m.createClass(secondString);

文献数量的变化情况是衡量该领域研究进展的重要指标[4]。为追踪我国武术文化研究的起源与发展情况,在对文献数量分布进行统计时,本文将CSSCI数据库中2007年以前的武术文化研究相关文献也进行了统计,从而得到我国武术文化研究年发文量趋势图(图1),呈现出如下特征:(1)我国武术文化研究年发文量呈现出波浪式发展趋势。(2)最早的研究成果分布在1998年,2007年是武术文化研究年发文量的分水岭,在2007年之前年发文量较少,增长幅度较小。2007-2009年三年来,发文增长速度飞快,2009年后武术文化研究的发文呈现波浪式增长趋势,并在2017年达到目前的峰值。

//第二个概念实体转换成一个类

class2.addSubClass(class1);//构建两个概念实体关系

}

Step4:m.write(write,"RDF/XML-ABBREV");//输出成为OWL本体文档

对于例题文本,利用该算法所得的geo.owl文档中对应概念实体关系“元旦subClassOf节日”的描述为:

<owl:Class rdf:about="http://www.geo.com41/ontology-#元旦">

<rdfs:subClassOf>

乡村是县域的根本,乡村振兴有赖于县域经济的发展壮大。因此,加快推动县域经济发展,为乡村振兴战略打下坚实基础。

在8月20日国务院新闻办公室举行的新闻发布会上,中央农村工作领导小组办公室副主任韩俊表示,打赢脱贫攻坚战必须要做到“七个坚持”:要坚持严格执行现行扶贫标准,坚持精准扶贫精准脱贫基本方略,坚持把提高脱贫质量放在首位,坚持扶贫同扶智相结合,坚持开发式扶贫和保障性扶贫相统筹,坚持脱贫攻坚与锤炼作风锻炼队伍相统一,坚持调动全社会扶贫的积极性。

<owl:Class rdf:about="www.geo.com41#ontology-节日"/>

</rdfs:subClassOf>

</owl:Class>

算法思想:读取关系文档的每一行,将其中的概念实体转换成本体的一个类,将关系转换成本体中的关系属性后,构建出两个概念实体的关系,直至读完整个文档。

在基本术语层次关系表的基础上,通过设计相应的概念实体关系自动构建算法,进一步实现地理试题文本中的相关概念实体关系的构建。算法1给出了概念实体关系的具体构建过程。

1.4 protégé编辑

利用protégé对自动构建的试题本体进行编辑,进一步补充试题文本中所蕴含的其他概念实体关系。利用protégé编辑后的例题本体如图3所示。

图2 自动构建的例题本体

图3 编辑后的例题本体

例如,在利用protégé对原来自动构建的例题本体进行编辑时,添加了“节日元旦接近于节气冬至”,由于试题文本中无法直接描述这一关系,所以需要人工进行添加,以方便后期进行实际的推理解题工作。

本文原先从例题文本中提取出17个概念实体,并将其中6个概念实体构建出5条关系,加入隐含概念实体后,一共构建出包含16个概念实体、15条关系的本体。

1.5 基于本体的自动解题

利用Jena所提供的推理子系统,通过书写相关规则文档,结合所构建的本体文件进行自动解题。

根据对试题的理解,可以构建如下规则:

[rule:(?a http://www.semanticweb.org/geo.ow l#位于?b)

(?bhttp://www.semanticweb.org/geo.owl# 白昼时间最短的是?c)

旅游精准扶贫的新媒体营销运作模式初探 ………………………………………………………………… 任传阳 杨永德(2/21)

(?c http://www.semanticweb.org/geo.owl# 接近?d)->

(?a http://www.semanticweb.org/geo.owl# 白昼时间最短的节日是?d)]

切缝要随时复核是否满足设计要求,包括进刀深度、切割方向、刀片与机身中心是否在同一条直线上,切缝过程中在WQF-500汽油切缝机作业的情况下,行进时每小时速度把控在47~59m为宜(不考虑辅助作业等待时)。切缝锯片选用优质合金锯片,以市面上A品牌合金锯片和B品牌普通锯片同样切割缝深60~80mm的渠道衬砌板为例,A为450元一片,可切割600m,B品牌锯片200元一片,可切割200m。优质合金锯片有更好的经济效益。

该条规则所表达的含义:若存在一个城市a,其位于半球b,而半球c白昼时间最短的一天是c,节气c接近于节日d,则可以称为城市a白昼世界最短的节日就是d。

然后书写如下搜索语句,完成搜索,得到结果:

在CPIKN中,将协同成员节点pi的点权权重作为其重要程度的衡量指标。然后,定义协同成员节点pi重要程度排序序号为xi,协同成员节点pi的重要程度信息获取状态为εi,若协同成员节点pi的重要程度信息已知,则εi=1,反之εi=0。

SELECT?节日

WHERE{daylong:?城市 daylong:白昼时间最短的节日是?节日}

利用上述搜索语句,结合规则文档,便能够通过本体得到问题的答案。

2 实验结果与分析

实验数据主要来自亿库地理试题网(http://www.eku.cc/sj/dili/)、菁 优 网(http://www.jyeoo.com/)以及中学地理课程教材,收集3 000多道地理选择题,该题型涵盖了地理试题中的22个不同的类,主要分布情况如表4所示。

为验证所提出的本体构建方法对各类试题的知识库构建是否有明显的效果,利用以下公式进行验证:

表5给出了本文所提出的本体构建方法在所收集试题集的各类试题上的相应分析结果。

算法2 概念实体关系的规则化

表5 本文的本体构建方法在各类试题上的应用效果

试题数可构建有效本体的试题数占比图表类试题526 183 34.80%评价类试题170 64 37.65%数值计算类试题40 13 32.5%试题总数728 259 35.58%

实验结果表明:1)以第2节中所例举的试题为例,当解答试题需要较强的关系推理,运用本体作为知识库时,解题效率较高;2)高考考试中包含大量图片及表格,目前只能通过手工描述图片信息,结合试题进行本体构建,由于图片信息的局限性,构建出的本体并不能帮助解题;3)当解答试题要进行评价判断如“下列选项中说法正确的是”或者“地年平均气温的年际波动不一致说明”时,由于试题中多为关系性不强或者为评价性短语,无法正确构建出相应合适本体,解题较为困难;4)当试题中包含数值计算时,例如对于试题“世界上最高的珠穆朗玛峰海拔8 848米,最低处死海的海拔-400米,两地的相对高度是多少”,单纯利用Jena推理也无法保证题目的自动解答。

3 结束语

针对在传统的构建本体方法中人工参与成分较多,本文提出半自动的本体构建方法。首先利用开源的ICTClAS分词工具对输入试题文本进行分词,针对分词结果运用TF-IDF算法通过阈值设置提取试题文本中的概念词,利用构建的基本术语关系表构建概念词间的实体关系,并结合Jena的相关算法将所得到实体关系规则化得到解题所需本体,最后利用protégé对自动构建出的本体进一步编辑,得到解题所需本体。本方法在很大程度上减少了构建本体知识库的人工成本。在后续研究中,我们将在如下几个方面进一步开展研究:逐步扩大和筛选文本量,从而进一步优化TF-IDF算法的结果,并通过反复实验筛选出更优阈值,提高概念实体提取的准确率;随着所收集试题规模的扩大,我们准备考虑使用机器学习的方法,实现基本术语层次关系表的自动构建;由于地理题中包含大量含有图片信息的问题,考虑利用图像识别等技术进一步帮助系统理解图片信息,减少人工读图开销。

参考文献:

[1]SHI S,WANG Y,LIN C Y,et al.Automatically solving number word problems by semantic parsing and reasoning[C].In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1132-1142.

[2]Hosseini M J,Hajishirzi H,Etzioni O,et al.Learning to solve arithmetic word problems with verb categorization[C].In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing,2014:523-533.

[3]KUSHMAN N,ARTZI Y,ZETTLEMOYER L,et al.Learning to automatically solve algebra word problems[C].In Proceedings of the 52ndAnnual Meeting of the Association for Comput-ational Linguistics,2014:271-281.

[4]ROY S,ROTH D.Solving general arithmetic word problems[C].In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1743-1752.

[5]ZHOU L,DAI S,CHEN L.Learn to solve algebra word problems using quadratic programming[C].In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing(EMNLP2015),2015:817-822.

[6]漆桂林.面向地理智能问答的知识表示和推理的初步探索[C].上海:第三届中国图谱学术研讨会,2015.

[7]徐剑波.基于本体的电子政务资源管理系统研究[D].上海:东华大学,2006.

[8]马捷,刘小乐,黄岚,等.教育领域本体构建研究[J].情报理论与实践,2012(07):104-108.

[9]邱均平,楼雯.基于CSSCI的情报学资源本体构建[J].情报资料工作,2013(03):57-63.

[10]王超,李书琴,肖红.基于文献的农业领域本体自动构建方法研究[J].计算机应用与软件,2014,31(8):71-74.

沈盛宇,杨思春,王一宾
《安庆师范大学学报(自然科学版)》2018年第1期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号