更全的杂志信息网

面向数字地方志的文本可视化应用研究∗∗

更新时间:2009-03-28

1 引言

地方志,也称“方志”,是我国特有的一种地方文献,凡是某一地域的建置、历史沿革、名胜、物产、赋税、灾害、驿站、人口、气象、人物、风俗、语言等等情况都包含在内,是一类综合性的资料文献。地方志具有地方性、时代性、系统性、资料性、科学性等诸多特征,是汇集了一方基本知识和系统资料的地方百科全书,所以又有“一方之全史”的称号,保护和传承地方志这一文化瑰宝具有非常深远的意义[1]

在互联网时代,对地方志文本进行可视化是满足用户对历史文化知识服务多样化、个性化的迫切需要的重要手段,同时也是方志数字化建设的一个重要部分。我国不仅有大量的旧方志,还有不断增加的新方志,海量的地方志资源使人们处理和理解地方志中的信息变得更加困难,传统的文本分析技术已经难以满足人们对地方志信息资源的利用需求。而面向数字地方志的文本可视化技术可以对文本进行有效组织、信息推理、关联挖掘,针对地方志的地方性、时代性、系统性、资料性、科学性等特征,将复杂、隐蔽、难以表述的信息以视觉形式直观地表现出来,改变传统的单一的认知模式,从而帮助人们发现地方志文本中存在的规律,更加快速精准地找到所要的地方志信息。

2 文本可视化方法概述

目前,文本可视化方法主要有基于词频统计的文本可视化、基于语义的文本可视化、基于聚类的文本可视化以及基于时间序列的文本可视化。

基于词频统计的文本可视化针对文本中的词汇集合进行词频统计,从而发现某种特殊的词汇,比如高频率词汇,通过对不同词频的差异可视化来区分文本的不同特征[2-4]。该方法直观地揭示出文本中词汇的分布状况,运用颜色、大小、字体等属性来凸显某些词汇,借此可以发现文本片段所涉及的基本对象以及某种特殊规律,但是不能够很好地表达文本之间的语义关系。

刘真表示,掺混肥以其受环保影响小、配方调整快等特点,产量及需求量或有一定程度的增加。与此同时,刘真也表示,终端经销商自行配制掺混肥料并不具有优势,前期的设备投入和并无成本优势的原材料采购,使其生产成本高且价格优势不明显,目前多以为农户“量身定做”进行营销,基层经销商生产掺混肥还会面对政策及环保等压力,转型需谨慎。

地方志文本可视化的核心是运用自然语言处理技术和自然语言理解技术对地方志文本进行分析,特别是对古汉语进行分词、实体抽取和挖掘分析。文本分析场通过对地方志语料库进行分析和特征提取,识别出时间、地名、人物、详异(吉祥与灾异)等信息,构建相应的本体库,形成地方志文本可视化的数据基础;同时,对不断扩充的新知识进行融合处理,建立模糊知识推理机制,从而为地方志知识发现提供可能。

针对各种地方志数据的关联具有隐蔽性、难以显性呈现等问题,本文基于知识地图开展地方志数据的关联可视化。在引入知识地图的基础上,标注地方志数据概念、数据关联关系,构建地方志知识地图,实现地方志的数据关联可视化。

第三,新媒体赋予我们行动与实践的权力。表达本身就是一种行动,这里的行动强调表达与现实的行动相结合[9](P13),强调虚拟与现实的结合与行动。新媒体通过信息赋权使得每个个体都有可能成为自由表达的主体,然后通过交互行为快速地将表达转化为实践,线上活动和线下活动的结合,最大可能地打开了现实行动的空间,推动了传统信息传播中难以达到的实践改革。

基于时间序列的文本可视化方法专门针对时间维度进行文本分析,以获得某一事件或者某一领域的发展变化规律。时间轴是该方法的重要表现形式和特征,用户可以按照时间轴进行文本信息的浏览梳理。姜婷婷等人运用基于桑基图的时间序列文本可视化方法对金融文本数据进行分析和可视化,以辅助决策[11]。基于时间序列的文本可视化方法运用流动、翻转、滑动、缩放等人机交互模式,使文本信息展现得更加丰富灵动。该方法通常会与基于词频、语义、聚类的可视化方法结合使用,从而充分发挥时间序列分析可视化方法对事物随时间发展变化情况的表现力,突破单一的文本可视化方法表现不足的局限。

1.3.1 术后患者恢复情况 患者术后下床活动时间、术后胃肠道恢复时间、胸腔引流管放置时间及住院时间。

3 地方志文本可视化模型

与凯美瑞混合动力车类似,2016款雅阁混合动力车在发动机飞轮与电控变速器的输入轴之间安转了扭转减振器。飞轮通过1个定位销以及8个螺钉与曲轴凸缘连接,扭转减振器通过6个螺钉固定在飞轮后端面上,电控变速器的输入轴通过外花键插入扭转减振器的内花键孔中,将发动机的动力输入到电控变速器内(图6)。

文本可视化在空间场上将文本信息转换成视觉编码,进而表现文本之间的内在关系以及潜在的发展规律[12]。无论是基于词频统计、语义分析、文本聚类的文本可视化方法,还是基于时间和空间的文本可视化方法,都着眼于发掘文本中隐含的某种特征。文本可视化技术通过对文本分析结果的可视化展现,使用户对不熟悉的文本更加容易理解和接受,这也正是对地方志文本进行可视化的目的。

  

图1 地方志文本可视化模型

3.1 文本分析场

基于语义的文本可视化需要对大量的标注文本进行计算、统计和推理,发掘出潜在的、隐性的语义关联,从而使用户能够更全面、更深层次地理解文本[5-7]。 该方法能够比较充分地揭示文本的主旨思想以及内在的逻辑关系,但依赖于海量的带有语义标注的文本以及复杂的语义分析处理技术。这对于古代地方志文本来说是一项非常大的挑战,因为古代地方志文本与现代汉语在词义和语法结构上具有很大的差异。

3.2 可视映射场

《大清一统志》中关于“走西口”相关事件的记载,以时代、地区等为索引,分卷记载了各方面信息。通过WebGIS的时空信息融合,本文案例对这一事件进行了可视化分析和展示,图2展现了人口迁徙情况的局部视图。案例选取人口、田赋、人物、祥灾、特产、测绘专题信息进行抽取和整理,并将其内容以合适的方式在GIS上呈现。针对有具体数字记载的专题(人口、田赋),采用图表进行可视化。该图将人口迁徙事件的过程在GIS上进行标注,同时对事件进行知识推理,通过气泡图将该事件发生的时间、地点、原因等元素在地图上予以直观地呈现,并与地方志数据资源进行关联,将地方志数据、知识和GIS信息进行融合可视化,从而满足用户多维度浏览的需求。

图1为地方志文本可视化模型,主要包含了文本分析场、可视映射场、心理认知场三个部分。

3.3 心理认知场

心理认知场是用户对知识进行内化的最终阶段,视觉编码将在这里转换为用户对地方志的认知。而具有良好体验的人机交互是用户有效获得对地方志可视化文本信息的心理认知的最佳途径,常用的交互方式包括缩放、平移、拖拽、动态转换、关联更新等。同时,利用先验知识帮助用户建立完善的知识体系,有助于其发掘出深层次的信息,对地方志相关知识形成更加直观和全面的了解。

4 地方志文本可视化系统

4.1 基于WebGIS的时空信息融合可视化

地方志记载内容涵盖了地理、人口、事件等诸多方面,传统的地方志文献多以纸本文字、图像文件等为载体进行保存,在信息的获取和传播上存在着很多障碍。随着信息化的推进,各种图书文献,包括地方志,都进行了数字化。经过数字化的地方志资源,多以碎片化的文本形式按照不同的属性存储于文件中,形成地方志语料库。由于地方志资源具有非常显著的地方性和时代性,记载着一系列的时间、地理信息,要对这些资源进行存储、管理和展示,需要对地方志文本中的时空信息进行融合。

WebGIS提供了地理信息采集、编辑、计算、查询、展示、标注等多种功能,并且具有良好的可扩展性和跨平台性,它将主要的数据管理与分析等工作分配给服务器,直接将生成的结果返回给用户,用户只需要打开浏览器解析返回的数据文件即可获得需要的信息。基于WebGIS的时空信息融合可视化首先需要提取相关语料文本进行组合,形成关于客观事件的描述信息;然后将信息中的地理位置、发生时间等因素提取出来,对比地图数据,通过WebGIS接口和Javascript技术让信息在地图上呈现。而在WebGIS中最重要的因素是地图数据,拥有完整而精确的地图数据和图像是地理信息系统的目标。本文案例采用栅格地图技术,将地理信息采集技术与地图出版技术融为一体,从而实现地图的快速加载和展示,使交互更加流畅。

文本可视场是对文本分析场的分析结果进行视觉编码的阶段。为了充分展现地方志文本中的各种显性和隐性知识,需要结合地方志知识的特点,绘制不同的信息图表及其他视觉表现形式,包括元素的大小、色调、形状、位置、纹理映射等,这是文本可视化视觉编码的核心。例如,地方志实体之间的关系可以采用知识地图、主题图、坐标轴、散点图、标签云等进行刻画;不同的地方志实体用不同的颜色和大小标识,从而完成知识元素到视觉编码的转换。

  

图2 “走西口”事件人口迁徙情况可视化(局部视图)

4.2 基于本体的关联知识融合可视化

基于聚类的文本可视化通过计算文本中词汇的相似度,对文本进行聚类分析,从而划分出若干个主题领域,发掘潜在的主题领域。该方法采用多维视角,结合多种视觉交互元素来表现聚类结果,反映主题领域内部以及主题领域之间的逻辑关系[8,9]。 基于聚类的文本可视化方法适用于专题知识库挖掘、主题发现、热点分析、趋势演变等,如许鑫等人提出了一种用于中华烹饪文化专题知识库的中文文本聚类结果的可视化方法,为用户提供直观的导航方式[10]。这对地方志文本可视化有着非常重要的借鉴意义。

构建地方志知识地图,基于本体的关联知识融合是关键。本体由概念、实例、关系三元组表示,知识地图是以概念或实体为节点、以有向箭头为关联线组成的力导向布局图,运用不同的图标、颜色、大小等视觉符号来区分不同的数据类型。同时,知识地图提供了基于图的检索机制,在加载地方志本体模型后,通过与图节点的交互完成检索式的输入,利用模糊集算法对多源知识进行融合和推理,将检索结果返回前端,对知识地图进行动态更新,从而使得检索更加智能化。

以图3基于本体的关联知识融合可视化(人物关系图)为例。对《大清一统志》中三国时期的人物关系数据进行系统和全面的分析,比如对某一人物在不同阶段、不同时期、不同君主统治下,从横向、纵向、多维度等方面进行比较,生成相关的可视化关系图谱,根据关系图谱反映人物关系及结果。例如,可以通过数据分析出曹操、刘备、孙权三者的敌对关系,也可以分析出像曹丕、曹彰、曹植、曹真与曹操这样的父子关系;分析报告显示,类似关系还有文臣、武臣、同乡、夫妻、同僚 等,点击相应人物则会显示人物生平详细介绍。

设计意图 本环节从学生易于解决的问题入手,在解决之后,并未像前两题一样稍作总结就结束了,而是将问题一般化,把特殊点变为任意点,引导学生用类比的方法思考直线和圆方程中的类似问题,在动手实践的基础上发现并提出新问题,从而尝试对新问题进行描述和动手探究,意在使学生体会发现问题和提出问题的方法.

为了进一步考察27个二级指标与党建工作的评价之间的关系,项目组采用回归分析中有序回归方法。回归分析适用多变量的大数据分析,多元logistic适用于以等级变量做因变量的模型〔2〕。开始将27个指标全部进入,发现拟合效果不佳,逐步剔除,最后留下党组织换届及书记选配、总支部(直属党支部)的设置、基层党组织支部委员会设置、党内民主决策、以权谋私现象、漠视和侵害师生员工利益现象、作风建设和学校精神文明创建工作这8个指标对党建工作的影响显著。将上面8个指标引入模型,模型拟合度好,模型拟合信息见下表。

  

图3 三国时期人物关系图谱可视化

5 结语

分析应用场景能够得到基于大量地方志文本的人物事件关系图谱,以及地方志文本与地理信息融合展示专题。针对地方志资源呈现形式单一、地方志隐性知识难以可视等问题,本文设计开发了地方志可视化演示平台,集成以上地方志文本可视化系统案例和地方志文本数据,对地方志文本进行可视化展示。该平台的建设实现了对地方志文本可视化应用模式创新的初步尝试。当然,系统还存在着标准化、规范化等诸多问题,仍需要加强历史文化与科学技术的跨领域合作,充分挖掘地方志的价值。

参考文献

1 衡中青.地方志知识组织及内容挖掘研究[M].芜湖:安徽师范大学出版社,2012:1-5.

2 欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016(2):66-80.

3 唐家渝,等.文本可视化研究综述[J].计算机辅助设计与图形学学报,2013(3):273-285.

4 朱巧.基于词频统计的文本可视化实现[J].软件,2016(11):114-117.

5 赵琦,等.文本可视化及其主要技术方法研究[J].现代图书情报技术,2008(8):24-30.

6 刘晓娟,等.文本可视化在新闻事件演变中的应用[J].图书情报工作,2010(18):67-71.

7 马创新,陈小荷.文本的可视化知识表示[J].情报科学,2017(3):122-127.

8 江美辉,等.基于复杂网络的食品安全事件新闻文本可视化及分析[J].情报杂志,2015(12):121-127.

9 胡悦融,等.数字人文背景下“远距离可视化阅读”探析[J].图书馆论坛,2017(2):1-9.

10 许鑫,洪韵佳.专题知识库中文本聚类结果的可视化研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2014(10):25-32.

11 姜婷婷,等.基于桑基图的时间序列文本可视化方法[J].计算机应用研究,2016(9):2683-2687.

12 欧阳剑.大规模古籍文本在中国史定量研究中的应用探索[J].大学图书馆学报,2016(3):5-15.

 
张浩,陈云,杜立功
《国家图书馆学刊》 2018年第02期
《国家图书馆学刊》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号