快捷分类

国内数字出版研究的知识图谱与热点主题——基于文献计量学共词分析的视角*

更新时间：2009-03-28

文献计量学以文献为研究对象。它采用数学、统计学方法，对各类文献的计量特征进行统计分析，进而揭示和研究文献情报规律、文献情报科学管理以及学科发展趋势。[1]为总体上定位数字出版研究热点和焦点领域，本文引入文献计量学的共词分析方法和知识图谱可视化技术，分析国内最近10年的新媒体研究学术文献，用图形的形式展现出新媒体领域的研究热点、主题与结构。通过对图谱的深入挖掘，结合关键词分析和文献分析，对图谱进行解读，从而得出了国内数字出版研究的热点主题。

当前我国经济不断的向前发展，市场环境也是不断变化。建筑行业通常都是大型工程，其整个过程耗费的时间长，材料多，这样工程造价的预算工作就很难适应不断变化的市场环境，无法猜测未来市场的发展趋势。项目工程造价预算的相关工作人员在预算过程中可能会考虑到市场环境因素，但是并不能精确的进行预算，只要市场环境稍微发生变化，预算结果就会变化，就可能导致工程造价超预算。

一、数据获取与研究方法

CSSCI 数据库是我国人文社会科学界进行引文分析和评价研究的主要数据源。在CSSCI数据库中进行数据检索时，以“数字出版”、“互联网+出版”、“网络出版”为关键词进行检索，选择的逻辑关系式为“或者”，文献类型为“论文”，学科类型为“新闻传播学”，对2006—2016年间CSSCI数据库中所收录的文献进行检索，经过去重、辨别、整理，获得数字出版研究相关论文1634篇，主要包括文章题名、作者、关键词等。

本文采用的研究方法主要包括文献计量法、共词分析法、数学统计法、聚类分析法和多维尺度分析法；用到的软件包括数据统计软件SPSS19.0，以及文献分析与可视化工具SATI3.2、Ucinet、NetDraw。共词分析（Co-Word Analysis）是一种内容分析技术，主要是分析一对词两两在同一篇文献中出现的次数，以此为基础对这些词进行分层聚类，揭示出这些词之间的亲疏关系，进而分析它们所代表的学科和主题的结构变化。[2]通过统计一组文献中高频主题词或关键词两两在一篇文献中出现的频数，便可形成由这些主题词或关键词组成的共词网络。同时结合文献题录信息统计分析工具SATI对题录数据进行提取，借助SPSS19.0进行数据统计和相关分析。

笔者主要探讨医药市场营销专业课程体系应该如何完善、人才培养模式应该如何改革，参考标杆院校市场营销专业的人才培养模式与课程体系设置，目的在于引进标杆院校的先进教学管理理念，进一步完善医药市场营销专业的培养方案。

到目前为止，还没有一种方法可以观察到整个大脑突触的形态和功能，作者解释道。当然啦，我们也一直致力于在小范围内绘制这些关键连接点。

二、国内数字出版研究的整体概况

（一）文献年代分布

数字出版作为一门新兴研究领域，参与研究的学者众多，但研究内容分散，被引用情况不稳定，因此，更适合采用共词分析法，对关键词进行统计分析来揭示数字出版领域的研究热点。笔者选取前33个高频关键词（表4），将关键词共现矩阵并输入Ucinet6.0，基于中间中心度确定节点大小，用NetDraw生成数字出版研究高频词的共现关系网络图谱。图3中，每一个不同的节点都表示一个不同的关键词，其中面积较大的节点表示该关键词与其他关键词共现频率较高，节点越大意味着在网络中的地位越重要，每两个节点之间的线条连接表示二者有关联，线条的长短表示关系强度。可以看出：“数字出版”、“网络出版”、“学术期刊”和“商业模式”等节点的面积较大，说明这些关键词与其他关键词共现关系最强。

图1 2006—2016年CSSCI来源期刊数字出版相关文献数量分布

（二）核心作者和研究机构分布

对全体文献进行关键词的统计，通过编程统计它们在论文中同时出现的频率，将总频次前33位关键词的共现关系总结成为一个33×33的关键词共词矩阵（见表5）。共词矩阵是一个相关矩阵，对角线上的数据为该词出现的频次，如关键词“数字出版”共出现了1064次，它与“传统出版”同时在47篇论文中出现，也就是说，有47篇论文的关键词中同时含有上述两个关键词。通过分析显示，该共现网络的密度为0.8163，标准差为3.5068，网络联系紧密。

表1 作者发文数量分布表

发表数量作者人数所占比例发表1篇 890 78.6%发表2篇 152 13.4%发表3篇 48 4.3%发表4篇 23 2%发表5篇以上 19 1.7%合计 1132 100%

根据普莱斯定律，依据文献计量学中著名学者普赖斯（ PRICED）所提出的计算公式，核心作者人数为该领域全部作者人数的平方根（本研究应为34人左右），核心作者发文量应占所有专业论文数的 50%。根据最低产核心作者发文量M与发文最多作者发文量Nmax的关系式M=0.749× Nmax 1/2 来确定核心作者，[3]其中Nmax为核心作者的最高发文量即25，带入公式得4，即发文量超过4篇的作者可以作为核心作者候选人，由于本研究中发文量超过4篇的作者仅为23，未达到普莱斯定律的数值34；他们的发文量共计417篇，占全部论文1634篇的26%，与50%的目标差距很大。可见，目前我国该主题研究尚未形成稳定的核心作者群（见表2）。

表2 2006—2016 年数字出版研究核心期刊发文量前19位作者及其单位

序号作者发文量作者单位序号作者发文量作者单位1 严晨 25 北京印刷学院 11 方卿 6 武汉大学2 肖洋 16 华东师范大学 12 廉同辉 6 南京大学3 黄先蓉 13 武汉大学 13 赵文义 6 长安大学4 余庆 9 华中科技大学出版社 14 曾建勋 6 中国科学技术信息研究所5 刘锦宏 9 武汉理工大学 15 聂震宁 5 中国出版集团公司6 刘灿姣 8 湘潭大学 16 杨海平 5 南京大学7 吴江文 7 重庆工商大学 17 周敏 5 北京师范大学8 陈丹 7 北京印刷学院 18 谢文亮 5 广东财经大学9 张立 6 中国出版科学研究所 19 汪新红 5 中国学术期刊杂志社10 陈邦武 6 景德镇陶瓷学院

在高产作者中，使用SATI生成80×80的作者共现矩阵（见图2），并将共现矩阵导入社会网络分析软件Nodexl 中，选择 Clauset-Newman-Moore 对节点进行聚类，最终得到数字出版研究的作者合作网络图谱。图2显示，研究作者群体在整体上呈现出显著的分散特征，作者之间开展横向合作研究较少，仅有肖洋、方卿等作者开展了较多的合作研究。

一般而言，关键词或主题词作为文章的核心内容，是作者学术观点和思想的高度概括，高频出现的关键词或主题词能够表征某一特定时期的研究热点。在共词分析法需要用到的多元统计方法一般有三种，是共词分析法的核心内容，包括：聚类分析、因子分析和多维尺度分析（知识地图法）。

图2 国内数字出版研究作者合作网络图

从作者发文机构来看（见表3），数字出版研究的作者主要来自519家不同的机构。发文量上，武汉大学共计103篇位列首位，其次为北京印刷学院73篇，南京大学发文44篇位列第三。这三所高校之所以能在数字出版研究中处于遥遥领先的地位，主要原因在于开展数字出版研究较早，有较为成熟的研究团队。

三国时期的荀攸，他自谦避祸，很注意掩蔽锋芒。他自从受命军师之职，随曹操征战疆场，筹划军机，克敌制胜，立下了汗马功劳，曹营中众多谋臣策士之中，他的地位数一数二。后来，曹操做了魏公，更是任命他为尚书令，可谓恩宠之极。但他从来都懂得功高不可震主，锋芒不可凌人。他凭借着自己超人的智慧和谋略，在朝二十余年，能够从容自如地处理政治漩涡中上下左右的复杂关系，在极其残酷的人事倾轧中，始终地位稳定，立于不败之地。原因为何？盖因他对内对外，对敌对己，迥然不同，判若两人。

综合来看，国内从事数字出版研究的作者主要集中在两类机构：一是高等院校和科研院所，如严晨、方卿、黄先蓉等，高等院校及科研院所长期从事社科学术研究，对数字出版等问题具有较高的敏锐度；同时高校和科研院所具有良好的学术氛围和丰富的文献信息资源，能够为研究者提供良好的科研环境。二是编辑出版领域的一线科研工作者，如余庆、汪新红等，他们不仅具有较高的专业素养和科研能力，而且面临着传统出版数字化转型的现实问题，数字出版研究逐渐成为他们关注的重点。

三、热点高频词的共词分析

建立养护成本的管理模型的目的是为了科学合理的制定养护的方案和计划，合理安排相关的养护工序，从而实现经济效益的最大化。我国的养护成本管理模型主要有养护费用模型和养护管理模型。成本养护的费用模型是根据分析同一个养护的路段的工程单位造价得出的，我们建立一个坐标轴，以PCI为纵坐标，即Y轴，以不同的造作为横坐标，即X轴，通过分析这一模型，我们不难看出，在临界点之前采取预防性的养护措施是最有效的。

感官评价：依据SB/T 10416—2007的感官要求进行评价，感官评分由在浙江圣塔绍兴酒有限公司有品酒经验的技术人员和外聘评酒师10人完成，分别以色泽、香气、滋味和体态各25分的评分标准对其进行评价，采用百分制，以平均值计。

（一）建立高频关键词共词矩阵与相异矩阵

检索数据库全文，发现与之相关的学术论文共计1634篇，平均每年149篇，主要发表在《科技与出版》《出版发行研究》《中国出版》等相关期刊上。从2006—2008年，数字出版研究数量逐步递增，初具规模，这一时期数字出版研究主要停留在传统出版的网络化阶段。2009年开始，数字出版研究急剧上升，不管是从数量上看，还是从内部关系看，数字出版研究的真正兴起应该是在2009年。2011—2016年这五年期间，我国数字出版研究呈现出一派欣欣向荣的景象，尤其是在2013年时达到顶峰，数字出版研究逐步向纵深发展，具体数据见图1。从整体上讲，论文发表数量呈现出增长的趋势和倾向，体现学界对于该问题研究的重视。

随着信息化的浪潮，小学英语课堂注入了更多新鲜元素，焕发出了新的活力。针对调查中出现的管理制度上的问题，理应在多媒体课堂的管理理念上进行更新和跟进。首先应该全面理顺教学管理制度，制定新的规章制度，改正一些不和趋势的制度，废除一些陈旧的制度。其次应该强化多媒体教学课堂的现代绩效考核，通过“听”、“查”、“评”，加强管理创新、制度创新，创建特色，构建符合农村多媒体教学的现代绩效评价体系。再次逐步取缔转岗教师，让教师业有所长。

表3 论文第一作者附属机构发文数量表

序号机构篇数序号机构篇数1武汉大学 103 11 北京大学 18 2北京印刷学院 73 12 清华大学 17 3南京大学 44 13 北京师范大学 17 4上海理工大学 28 14 华东师范大学 17 5陕西师范大学 24 15 浙江大学 16 6中国人民大学 23 16 中国科学技术信息研究所 15 7华中科技大学 23 17 中国新闻出版研究院 14 8四川大学 21 18 湘潭大学 14 9武汉理工大学 19 19 重庆工商大学 14 10 河南大学 18 20 中央财经大学 14

将题录导入 SATI 按照第一作者进行统计，笔者发现共有1132位不同作者，其中发表1篇论文的作者有890位，占78.6%；发表2篇的作者有152位，占13.4%；发表3篇的作者有48位，占4.3%；发表4篇的作者有23位，占2%；发表5篇以上的作者有19位，占1.7%（见表1）。显而易见，发表1篇论文的作者占很大比例，可以看出他们大都是偶尔涉及，属于瞬间性研究发表，对数字出版缺乏持续深入的研究。以发文量5篇为阀值得出的数字出版研究核心期刊发文量前19位作者及其单位如表2所示。可以看出，高等院校及其研究机构是数字出版研究的主要阵地。

相异矩阵中的数据为不相似数据，数值越大表示两关键词距离越远、相似度越差；相反，数值越小表示两关键词距离越近、相似度越好。不同的矩阵结构适用于不同的多元统计方法。[4]表6为我国数字出版研究的相异矩阵。

图3 2006—2016 年数字出版领域社会网络分析图谱

表4 数字出版高频关键词统计表

表5 共词矩阵（部分）

数字出版网络出版学术期刊科技期刊传统出版数字出版物互联网+ 商业模式数字出版 1064 9 47 40 47 1 6 34网络出版 9 138 11 14 10 2 0 1学术期刊 47 11 70 1 1 0 5 0科技期刊 40 14 1 67 0 0 0 0传统出版 47 10 1 0 59 0 1 1数字出版物 1 2 0 0 0 53 0 0互联网+ 6 0 5 0 1 0 39 1商业模式 34 1 0 0 1 0 1 38

表6 表征数字出版研究方向的关键词相异矩阵（部分）

数字出版网络出版学术期刊科技期刊传统出版数字出版物互联网+ 商业模式数字出版 0 0.9994 0.9703 0.9776 0.9648 1 0.9991 0.9714网络出版 0.9994 0 0.9875 0.9788 0.9877 0.9995 1 0.9998学术期刊 0.9703 0.9875 0 0.9998 0.9998 1 0.9908 1科技期刊 0.9776 0.9788 0.9998 0 1 1 1 1传统出版 0.9648 0.9877 0.9998 1 0 1 0.9996 0.9996数字出版物 1 0.9995 1 1 1 0 1 1互联网+ 0.9991 1 0.9908 1 0.9996 1 0 0.9993商业模式 0.9714 0.9998 1 1 0.9996 1 0.9993 0

（二）因子分析和聚类分析

将共词矩阵导入SPSS，根据“特征值＞1的因子保留，特征值＜1的因子舍弃”的原则，[5]通过因子分析，本研究共萃取8个公共因子，累计解释方差变异量高达55%。

尽管聚类分析能将零散的关键词聚合成若干个研究词团，但无法表示每个热点在整个数字出版研究图谱中所处的位置。多维尺度分析（Multi-Dimension Analysis，ALSCAL）作为共词分析绘制知识图谱的主要方法，对数据信息的要求较低，对数据的分布假设也没有严格要求。因此本文利用SPSS19.0 统计软件对共词相异矩阵做二维尺度分析，以“平方Euclidean距离”为度量模型，以此来发现研究热点的空间结构关系。多维尺度分析利用降维的思想，通过低维空间（通常是二维或者三维空间）展示对象之间的联系，并利用平面距离来反映对象之间的相似程度，被分析的对象以点表示，不同对象的空间距离远近体现了关键词之间的相似性，高度关联和相似性的对象聚集在一起形成一个类团，越在中间的对象越核心。

图4 分层聚类树状图

（三）多维尺度分析

聚类分析（ Cluster Analysis）是一种建立分类的多元统计分析方法，它能够将一批变量根据其诸多特征，按照性质上的亲疏程度在没有先验知识的情况下进行自动分类，产生多个分类结果。本文运用统计软件SPSS19.0，采用相异矩阵进行聚类分析，用消除共词频率影响后的相异矩阵进行聚类分析，采用分层聚类（Hierarchical Cluster）的方法，通过个体与小类间的“组间平均链锁（between——groups linkage）距离”进行分析，该方法利用了个体与小类的所有距离的信息，克服了距离易受极端值影响的弱点，得到聚类分析结果的树状图。对高频关键词的33×33共词矩阵做聚类分析，将关联度高的词语聚合成类团，使同组数据内部具有较高相似性，而组间具有较大差异性（见图 4）。

根据多维尺度分析与聚类分析结果，运用数字出版专业知识，并结合专家意见，绘制出热点知识图谱，从图中我们可以看出高频关键词呈区域聚集分布的态势。根据各组团内部关键词的含义及联系，笔者将图中顺时针方向的五个组团的主题依次概括为数字出版人才、数字出版产业赢利模式和商业模式、科技期刊数字化和优先出版、网络出版，以及互联网思维下的出版业（见图5）。

图 5 多维尺度分析图谱

四、我国数字化出版研究热点及主题探讨

本文根据 2006—2016年数字出版领域相关文献高频关键词的聚类分析图和多维尺度分析图，再结合表4 所示的数字出版领域高频关键词表，分析得出目前国内数字出版领域存在五个研究热点，概括如下：

热点一为传统出版转向数字出版的商业模式和版权保护等研究，类目包括：数字出版、传统出版、商业模式、电子书、产业链、赢利模式、版权保护。这些关键词在整个竞争情报领域高频关键词表中的词频都是排在前几位的，说明对于企业竞争情报的研究已经比较深入。新媒体技术及数字技术冲击下，出版从阅读介质到受众阅读模式、消费习惯都发生了巨大转变，数字出版的概念应运而生，数字出版的本质属性是经济属性，作为一种新生事物，其赢利模式、商业模式、价值链是亟需解决的重要问题。

热点二为数字出版产业人才培养研究，类目包括出版产业、人才培养、转型、大学出版社。信息技术革命和资本的重构，使得数字出版从“生产—分发—营销—消费”等环节全面变革，特别是数字阅读介质的电子化趋势以及受众阅读模式的个性化需求，使得数字出版行业亟需掌握高新技术的复合型人才，如精通AR及VR技术的高级人才。

热点三为新媒体时代的出版业，类目包括云出版、新媒体、出版业。数字出版作为一种技术与内容融合的产业形态，新媒体技术以及数字技术等对数字出版均产生了变革性的影响。[6]这一阶段文献主要集中探讨出版业应该如何互联网化的问题，仍然停留在被动触网的“+互联网”发展阶段，一方面由于赢利模式与商业模式尚未成型；另一方面，受众的数字阅读习惯尚未成型。其中，随着云计算技术的出现，数字出版与云计算开始融合，基于技术创新的模式也非常具有竞争力，对此，云出版作为一种新的内容存储技术，开始受到业界的广泛关注。

热点四为期刊数字化研究，类目包括网络出版、科技期刊、优先数字出版、学术期刊、出版模式、数字出版平台、数字出版物。作为数字出版的创新形式——优先数字出版，解决了长期以来困扰学术期刊发展的出版时滞难题。优先数字出版改变了组版—印刷—发布的常规次序，强调在保证出版内容质量的前提下将发布电子版，这不仅确保了作者成果的时效性和前沿性，而且便于读者及时获取最新学术动态，现已成为国际上各类学术期刊出版的重要方式。

热点五为互联网思维下出版转型研究，类目包括版权、互联网思维、数字出版产业等。2015年，随着“互联网+”上升为国家战略，“互联网+出版”方面的文献开始增多。区别于以往“出版+互联网”，互联网+作为一种思维方式，是一种“开放、共享以及内容协作共生”等理念范式，这要求以往的出版产业从被动触网的“+互联网”转向积极互联网化的“互联网+”，传统出版产业的数字转型需求面临着从思维向战略执行层面的深层变革。此外，“互联网+”作为深入社会各个领域的战略，要求数字出版行业转变思维定势，依托自身内容版权的优势，积极向互联网平台延伸，打造多元化的赢利模式，如IP版权的网状价值链、“内容+平台”的赢利模式。

五、我国数字化出版研究前沿

研究前沿是正在兴起的理论趋势和新的主题，关键词突现是指其活跃程度显著提升，正作为领域研究的新兴趋势。通过Citespace V进行关键词统计，2006—2016年数字出版领域检测出的前 10个突现词信息如表7所示。从时间上看，互联网出版2007年成为研究热点；新媒体、大数据2014 年研究量突增，成为数字出版领域的研究热点，一直持续到2016年；随着研究热点的更迭，研究趋势也在不断的改变，热点引出研究前沿，大数据、数字化转型、产业链、人才培养将成为未来研究趋向。

根据Citespace V时间线视图（Time zone view）显示（见图6），数字出版领域研究主要集中于传统出版的互联网转型、数字出版商业模式以及全媒体出版三个聚类，时区图显示数字出版研究间存在层层递进、紧密联系的关系。传统出版互联网转型是一种“倒逼”的被动行为，要实现传统出版产业的数字转型，根本在于构建行之有效的商业模式。随着技术、社会的双向构建，互联网+时代的到来，数字出版产业赢利模式趋向多元化，因此，数字出版产业开始积极互联网化。相较于2006年倒逼下的互联网出版，当下的数字出版在商业模式的趋引下，带有全媒体化趋向，是一种积极态势下的主动趋向。近年来，数字出版主要围绕赢利模式构建、新媒体形态出版（关系出版、众筹出版、众创出版）、全媒体出版，可以看出，数字出版的内涵与外延进一步拓展，不再局限于单一介质的数字化，而是转向相关产业形态的产业链整合与延伸，力图依靠内容优势，依托互联网的平台和渠道优势，结合社群营销的理念，以数字信息技术为支撑，打造“内容+平台+社群+商业”的新赢利模式和产业形态。

表7 国内数字出版领域突现词统计

? pagenumber_ebook=58,pagenumber_book=55

图6 关键词聚类视图

通过对1634篇期刊论文作者关键词的共引分析，本研究认为 2000 年以来国内对数字出版的关注集中在以下五大主题：数字出版的商业模式、数字出版产业人才、新媒体时代的出版业转型、学术期刊数字化、互联网思维下出版转型。研究结果有助于国内新闻传播学者了解数字出版的关注热点，并提供科研导向上的助益，某种程度上也为今后继续开展研究指明了方向。然而，由于笔者对关键词的规范化处理存在一定的主观性，由此导致数据上的偏差，在以后的研究中尚需进一步完善。

参考文献：

六、结论与探讨

对数字出版研究的作者和研究机构图谱分析得知，国内数字出版研究机构之间横向合作研究开展较少，要深化数字出版研究，必须加强各机构之间的合作联系，尤其要加强国际间合作，促进我国数字出版研究深入发展。此外，数字出版研究有较多一线的编辑出版工作人员参与，显示出数字出版较强的实践性特点。从核心作者分析，由于我国“数字出版”研究能够规模化发表学术文献的第一作者群和机构群体极小，我国尚未形成稳定的核心作者群和科学研究共同体。

[1]罗式胜.文献计量学概论[M].广州:中山大学出版社,1990:9.

[2] QIN H.Knowledge Discovery through Co-Cord Analysis[J].Library Trends,1999,48(1):133-159.

[3]王崇德.图书馆学.文献计量学引论 [M]. 桂林:广西师范大学出版社, 1997:60-65.

[4]李长玲,翟雪梅. 我国情报学硕士学位论文的共词聚类分析[J]. 情报科学,2008(1):73-76.

[5] 余世英,陈芳芳. 基于共词分析的数字出版研究热点分析[J]. 科技与出版,2013(8):82.

[6] 陈维超.台湾地区数字出版产业内容与服务创新研究[J].出版科学,2016(6):102-106.

作者

陈维超，曾嘉

出处

《广州广播电视大学学报》 2018年第02期

上一篇：课堂生成——形成学生发展核心素养的有效路径探讨*

下一篇：近十年《语文研究》古汉语词汇研究综述*

《广州广播电视大学学报》2018年第02期文献

互联网时代终身学习文化的取向与构建策略* 作者：马赫，王洪兵，刘慧

浅析终身教育中移动学习存在的问题及对策* 作者：李斐

开放教育学前儿童社会教育课程教学改革的实践与探索* 作者：张仕华

开放大学老年课程体系建设路径初探* 作者：詹霞

社区教育名教师工作室建设研究*——以常州市为例作者：葛俊芬，仲红俐

我国高职教育集团内部治理结构优化策略* 作者：梁俊

基于花都经济特色的高职创新创业教育路径研究——以广东行政职业学院为例* 作者：钟莉

“新型产业工人培养和发展助力计划”发展现状、问题及建议作者：曹雷，田静

基于智能手机的大学生非正式学习调查与教育策略研究* 作者：许怡敏，陈瑜林

课堂生成——形成学生发展核心素养的有效路径探讨* 作者：赖秋桃，余祖伟

国内数字出版研究的知识图谱与热点主题——基于文献计量学共词分析的视角* 作者：陈维超，曾嘉

近十年《语文研究》古汉语词汇研究综述* 作者：刘昌昊

汉语总结性话语标记“总的来说”语义、语用及形成机制研究作者：张影

重庆话与普通话同形异义词初探* 作者：单鸿飞

精神返乡与女性之殇——解读贾平凹的长篇小说《极花》作者：余燕莉

“围城”中的缄默——试论薛忆沩《深圳人》中的孤独主题作者：张衡

加速合肥旅游产业发展研究* 作者：孙维红

恶性乞讨现象的危害及防治* 作者：汤秀娟，文诗音

刑事裁判文书说理研究* 作者：何明

杂志信息网