更全的杂志信息网

基于Gephi的航运招聘信息可视化分析

更新时间:2016-07-05

1 引言

随着大数据的提出,各行各业对于数据的重视程度达到了前所未有的高度,航运业也不例外。航运招聘信息作为航运市场信息的重要组成部分,对于海事部门的资源调度以及应聘者的求职都有着非常重要的参考价值。数据可视化作为数据分析以及数据呈现的重要手段,受到各界越来越多的重视。传统的数据可视化仍然多以条形图、折线图、饼图为主,形式相对来说过于单一,而且呈现的信息仍然较为抽象,较难反映各因素各水平之间的关联性。如何将海量的船员招聘信息进行统计处理并以合理的方式呈现出来成为一个亟待解决的问题。

作为专业的航运类网站,航运在线网基本涵盖了航运产业链的各个环节,包括散杂货租船、集装箱订舱、船舶买卖、备件物料供应、船员招聘、陆上管理人才招聘、船舶管理、船舶保险等。

本文以航运在线网站上的船员招聘信息为例,借助复杂网络可视化分析软件Gephi对航运招聘信息中的主要因素进行分析以及可视化,以发现各因素之间的联系。通过直观地展现各因素各水平之间关联的强弱,揭示航运招聘信息的特点,以期为海事部门的管理以及应聘者提供直观的分析参考。

2 数据可视化准备

在数据可视化之前,首先需要获取所需数据,其次进行数据预处理,为数据可视化做好充分的准备。

2.1 数据获取

本文数据的主要来源是航运在线网上的船员招聘信息,利用Python编程工具和网络爬虫技术对其进行批量获取,并存储到本地Excel文件中,以便进行后续的可视化分析。其中,获取到的部分数据见表1,获取到的数据主要有编号、职位、证书、月薪、总吨、航线区域、招聘船型、招聘公司、日期共9列信息(这里只选取其中一个月的数据,以2017年4月为例进行分析,经初步的数据清洗之后一共有1 864条数据)。

2.2 数据预处理

通过无向图的滤波功能,可以很方便地通过人机交互的方式查看需要考察的各因素之间的关系。

本节主要通过Python爬取航运在线网上的船员招聘信息,并使用Excel对爬取到的数据做简单的数据预处理工作,为后续的数据可视化做好相应的数据准备。

本次研究表明,湖南在实施可持续发展战略进程中有两个问题需待解决:(1)省会城市提速发展的同时,如何兼顾周边、辐射带动全省地区国民经济协调与平衡发展问题;(2)加速地区国民经济发展和城镇化建设的同时,如何保护土地资源(耕地)存量、并提高土地资源质量的问题。

3 数据可视化分析

3.1 基于Gephi的初步可视化

首先将数据加工成Gephi需要的CSV格式。Gephi的图形要素为节点和边,相应地,需要导入节点数据和边数据。导入数据之后,Gephi默认的布局算法是正方形轮廓的随机布局算法[1],如图1所示。节点之间显得比较拥挤和混乱,部分节点被遮挡,因此效果不是很好。为了使可视化的效果更好一些,先使用Force Atlas算法[2],再使用改进的弹簧模型(FruchtermanReingold)算法以优化节点的布局。由于节点较多,Force Atlas算法的运行速度和效果都不太理想,所以改用Force Atlas2和FruchtermanReingold结合的方式进行布局[3],最后稳定下来的预览图如所示。

政治文献的话语研究有着长久蓬勃的生命力,而对《政府工作报告》这一特殊文献的研究有着重要的意义。本文试验性地采用多维度研究分析《政府工作报告》,在方法上充实了前人对政治文献语言特点的研究。因为篇幅有限,未能详细剖析全部语言特征的差异,也未全面比较与各个参照体裁的差异,且样本的选择也只局限在单篇样本的考察。未来的研究中,笔者将致力于扩充语料,从单篇个案分析扩大至历时性研究,揭示某一特定政治文献跨时期的文体嬗变,以及不同政治文献文体的内部变异研究。

表1 获取的部分数据

编号 职位 证书 月薪 总吨/吨 航线区域 招聘船型 招聘公司 日期1242677 三副 甲类 面议 4万~30万 内外贸兼营 油轮 永州市杰泰 4月1日1244978 高级机工 甲类 面议 2万~3万 东南亚 油化船 永州市杰泰 4月1日1243996 船长 甲类 面议 2553TEU 东南亚 集装箱船 永州市杰泰 4月1日1243983 水手长 丙一 面议 6万~10万 国内南北线 散杂货船 永州市杰泰 4月1日1243392 船长 甲类 面议 1万~2万 中日韩 集装箱船 永州市杰泰 4月1日1245366 实习机工 甲类 面议 4万~30万 内外 油轮 永州市杰泰 4月1日1243993 船长 甲类 面议 2553TEU 东南亚 集装箱船 永州市杰泰 4月1日1245365 实习水手 甲类 面议 4万~30万 内外 油轮 永州市杰泰 4月1日1244001 船长 甲类 面议 3万~6万 环球航线 木材船 永州市杰泰 4月1日1243695 大副 甲类 面议 3万~6万 环球航线 油化船 永州市杰泰 4月1日1245024 船长 丙一 面议 3万~6万 内贸 集装箱船 永州市杰泰 4月1日1244000 船长 甲类 面议 3万~6万 环球航线 木材船 永州市杰泰 4月1日1243991 水手长 丙一 面议 6万~10万 国内南北线 散杂货船 永州市杰泰 4月1日1243523 新证水手 甲类 面议 3万~6万 看船 散杂货船 永州市杰泰 4月1日1245425 机工 甲类 面议 1万~2万 东南亚 散杂货船 永州市杰泰 4月1日1245421 机工长 甲类 面议 1万~2万 东南亚 散杂货船 永州市杰泰 4月1日1244409 二副 甲类 面议 15万~30万 环球航线 散杂货船 永州市杰泰 4月1日1242257 水手 丙一 面议 1万~2万 国内南北线 油轮 永州市杰泰 4月1日1242220 水手长 甲类 面议 6万~10万 东南亚 散杂货船 永州市杰泰 4月1日1242274 水手 丙一 面议 1万~2万 国内南北线 油轮 永州市杰泰 4月1日1242222 高级水手 甲类 面议 6万~10万 东南亚 散杂货船 永州市杰泰 4月1日1241941 三副 甲类 面议 3万~6万 环球航线 油化船 永州市杰泰 4月1日1242311 水手长 甲类 面议 3万~6万 远洋 油轮 永州市杰泰 4月1日1242012 三副 甲类 面议 3万~6万 远洋 油化船 永州市杰泰 4月1日1244408 大副 甲类 面议 15万~30万 环球航线 散杂货船 永州市杰泰 4月1日1241822 水手 丙一 面议 3万~6万 国内南北线 散杂货船 永州市杰泰 4月1日1242437 大副 甲类 面议 3万~6万 环球航线 油化船 永州市杰泰 4月1日1241965 高级水手 甲类 面议 6万~10万 东南亚 散杂货船 永州市杰泰 4月1日1242676 二副 甲类 面议 4万~30万 内外贸兼营 油轮 永州市杰泰 4月1日

利用Gephi进行初步可视化有助于了解数据的整体情况和大致分布。如图2所示,不难看出数据在几个点比较集中。由于节点较多,初步可视化的效果并不是很好,也很难从繁杂的连线中进一步解读信息。针对这些问题,需要对数据进行进一步加工。

表2 预处理之后的部分数据集

职位 证书 总吨/吨 航线区域 招聘船型高级机工 甲类 2万~3万 东南亚 油化船水手长 丙一 6万~10万 国内南北线 散杂货船船长 甲类 1万~2万 中日韩 集装箱船船长 甲类 3万~6万 环球航线 木材船大副 甲类 3万~6万 环球航线 油化船船长 甲类 3万~6万 环球航线 木材船水手长 丙一 6万~10万 国内南北线 散杂货船机工 甲类 1万~2万 东南亚 散杂货船机工长 甲类 1万~2万 东南亚 散杂货船二副 甲类 15万~30万 环球航线 散杂货船水手 丙一 1万~2万 国内南北线 油轮水手长 甲类 6万~10万 东南亚 散杂货船水手 丙一 1万~2万 国内南北线 油化船高级水手 甲类 6万~10万 东南亚 油轮三副 甲类 3万~6万 环球航线 油化船水手长 甲类 3万~6万 远洋 散杂货船三副 甲类 3万~6万 远洋 散杂货船大副 甲类 15万~30万 环球航线 油化船水手 丙一 3万~6万 国内南北线 散杂货船大副 甲类 3万~6万 环球航线 油化船高级水手 甲类 6万~10万 东南亚 散杂货船水手长 甲类 3万~6万 环球航线 油轮水手 甲类 6万~10万 东南亚 散杂货船大副 甲类 3万~6万 远洋 油轮水手 甲类 6万~10万 东南亚 散杂货船水手 甲类 15万~30万 远洋 散杂货船水手 甲类 3万~6万 环球航线 散杂货船

3.2 数据二次加工

对于初步可视化的结果,为了有一个定量的判断,这里使用统计分析的利器——R语言进行数据的进一步加工。首先将数据表导入R软件中进行必要的描述统计,结果如图3所示,可以看出每一个因子的主要水平以及没有列全的许多次要水平。为了消除次要水平的干扰,这里只对主要水平进行统计分析。经过第二次删减之后,数据精简到1 417个观测值。

3.3 基于Gephi的可视化分析

除了使用进一步加工的数据源,Gephi的基本操作和第4.1节中的描述几乎一致,这里不再赘述。接下来依据实际收集到的数据的特点对Gephi进行可视化方案的设计。

图1 正方形轮廓的随机布局概览

在权重设计阶段,因为每两个不同因素水平之间的频数最小为1,最大为534,相差较大,所以这里将频数处理为边的权重,以体现两个水平之间的紧密程度是不合理的。但是,为了在一定程度上反映它们之间联系的紧密程度,在权重的设置上采取参考频数的做法进行权重划分。将频数在1~100的权重设置为1,其比例占到了所有统计量的92.77%;将频数在101~200的权重设置为2,其比例为4.34%;将频数在201~300的权重设置为3,其比例为1.2%;将频数在301~400的权重设置为4,其比例为0.96%;将频数在401~500的权重设置为5,其比例为0.48%;将频数在501~600的权重设置为6,其比例为0.24%。当然也可根据实际的分析需求对权重的划分采取更精确更细致的算法,在这里只是做一个相对简单的划分。因为本文重点考察各水平之间的相互关系,而各因素之间的联系是相互的,如果采取有向边的设置,就会导致不必要的重复计数,所以本文采取无向边的设置。这样做不仅可以少计算一半边的数量,大大简化构建的网络图的复杂度,同时还能保证分析的精度。为了充分显示两个水平之间具体的关联程度,将统计的两个水平同时出现的频数以边标签的形式映射到图中,而将每个水平出现的总频数以点标签的形式映射到图中。此外,结合专业知识对职位因素进一步细分为甲板部船员和轮机部船员并区别显示。

图2 数据的初步可视化预览

图3 R软件进一步处理之后的数据统计信息

经过进一步的数据可视化准备,通过Gephi进行可视化的整体效果如图4所示,一共得到了36个节点以及415条无向边(数据仅限航运在线网2017年4月的招聘信息)。经过简单的统计计算,可以得到以下参数值。

怎么,竹韵结婚八年还是处女?此证一出,全场哗然,旁听席上的观众交头接耳议论起来,审判台上,包括原告、被告、审判人员都愕然了,过了好一会,审判长才说了声安静,接着宣布此鉴定有效,可以作为证据采信,请原告继续陈述。

● 平均度:23.056。

● 平均加权度:26.111。

图2为甲烷水合物生成过程中温度-压力与相平衡曲线关系图。图2中所示曲线分别为273.75 K、273.85 K和273.95 K 3种水浴温度下甲烷水合反应过程的实验结果和由CSM-HYD软件计算的相平衡理论数据拟合曲线。由图2可知,在AB阶段,釜内的p-T体系处于相平衡区域之外,尚未达到甲烷水合反应的相平衡条件,此时釜内处于甲烷相和水相的二相混合状态。

● 图密度:0.659。

● 模块化:0.075。

特色小镇集中了休闲、旅游、养老、投资等众多功能,属于综合项目,特色小镇运营实际上也就是经由资本运作显化具有自然与人文优势的小镇资产。从现阶段我国金融市场情况与相关政策条件来分析,基于PPP运作模式构建涵盖资本机构、产业运营商等主体的一体化第三方运营平台,能够达到推动项目实现的效果[1]。从以上经济与政策基础来看,特色小镇运营具有着可行性,而具体可行性可分为以下几个方面。

心墙上下游反滤料同堆石料平起填筑(先填反滤料后填堆石料),进行跨缝碾压。各种坝料的填筑部位、尺寸、材料级配、粒径范围均应符合设计规定,每一层填筑经质检合格后,方可进行上一层的填筑。过渡料、反滤料铺料厚度均为60 cm,碾压8遍。

● 平均路径长度:1.341。

本文使用的数据预处理主要包括数据去重、数据异常值剔除以及精简研究对象。本文使用Excel对数据进行去重处理。对于异常值的处理,由于其数量不是很多(占比不到5%),对于要分析的数据总体几乎没有影响,所以这里采用的方法是直接从总体中剔除。由于月薪一列的观测值多为“面议”以及各种非标准的数据,所以在这里不予考虑,全部删除。此外,船员编号和招聘公司信息以及招聘日期在本文中用处不大,予以删除。这样处理之后,可以将需要的信息进行集中整合,见表2。

在本文的研究中,将同一变量下的不同水平(即同一变量的不同取值,如船型变量下有油船、散货船、集装箱船等取值)作为节点,节点的大小代表该水平在招聘信息中出现的次数。本研究中的边代表的是不同变量的不同水平在招聘信息中成对出现的次数,即边反映了两端节点同时出现的次数。

3.3.1 船员职位与航线因素之间的关系

上述计算结果表明国内南北线需要的证书类型主要是丙一证书,这与丙一证书适用于国内沿海航线的服务范围是高度一致的。对于国际航线来说,证书绝大多数都是甲类证书。这也与甲类证书适用于全球航线的规定相一致。

“零工经济”改变了传统的雇佣模式,使得劳动市场发生了巨大的改变,尽管它目前仍然存在一些问题,但是未来仍然一片光明。根据咨询公司麦肯锡发布的“零工经济”报告,2017年,美国和欧洲从事自由职业的人口占比一家达到了20%~30%,而中国有超过1亿人是零工经济中的劳动供给者。根据阿里研究院的预测,到2036年中国零工经济的劳动供给者将达到4亿人。

3.3.2 航线与船员证书因素之间的关系

● 网络直径:2。

● 平均聚类系数:0.608。

图6是对航线因素和船员证书因素各水平之间关系的可视化呈现。图6中共有11个节点(占比30.56%),其中,航线因素有7个水平(占比19.44%),证书因素有4个水平(占比11.11%),边的个数是17(占比4.1%)。若以航线为考察对象,则对国内南北线贡献最大的是丙一证书,贡献比约为79.7%,接近80%,而环球航线、东南亚航线等国际航线对于证书的需求主要是甲类证书,甲类证书对以上两条航线的贡献比分别约为89.85%和90.35%。

上述计算结果表明国内南北线对三副的需求巨大。

接下来按照类似的方法可以考察职位因素和航线因素之间各水平的联系。首先由图5可以看出,节点数为19(占比52.78%),边的个数为83(占比20%),平均度为8.737,平均加权度为8.842,图密度达到0.485。通过边的占比不难发现,航线与职位因素的联系较为紧密。通过计算平均度或平均加权度也能较清晰地看到这一点,它们之间是比较一致的。职位因素的各水平在航线上的分布相对均匀。轮机部船员各水平与航线因素各水平同时出现的频数均不超过100。由图5可以看到,三副在众多职位水平中对航线因素中的国内南北线水平贡献较大,贡献比为105/670=15.7%,反过来说,在各航线水平中,国内南北线对三副的贡献也最大,贡献比为105/163=64.4%。

两组患者在接受治疗后,实验组的抗卵巢抗体、抗精子抗体和抗子宫内膜抗体的转阴率均高于对照组,P<0.05。

3.3.3 船员职位与船型因素之间的关系

图7显示的是船型因素与船员职位之间的关系。若以船型为考察对象,可以很明显地看出三副和水手对散杂货船的贡献相对较大,占比分别达到10.64%和11.96%。反过来说,在所有统计的船型中,散杂货船对三副和水手贡献也最大,分别达到了63.8%和73.58%,占比都超过了2/3。以油轮来说,高级船员(二副、二管轮及以上)占比约为53.85%(42/78),低级船员占比约为25.64%(20/78)。

上述计算结果从侧面反映了对于机械化和信息化水平都不是很高的散杂货船来说,它对三副和水手的需求量都是很大的。这也在一定程度上解释了坊间常说的“有经验的水手比刚刚毕业的高级船员要受欢迎”的现象。对于自动化水平较高的船舶来说,例如集装箱船和油轮,这种现象则很不明显,甚至不存在,高级船员的需求仍是主流。

本试验以脱胚玉米为原料,通过挤酶法压——双酶水解制取葡萄糖浆。脱胚玉米按照1.3的工艺处理,考察指标滤饼RS3质量分数(%)。本试验中,收集制取糖浆后的滤饼,并干燥、称重,测量滤饼中的淀粉质量,将结果转化为投料量中淀粉所占的比例。主要考察挤压时耐高温α-淀粉酶添加酶量、挤压机螺杆转速、液化时耐高温α-淀粉酶添加酶量、液化时间和糖化时葡萄糖淀粉酶添加量对的滤饼中RS3质量分数的影响。采用5因素5水平二次正交旋转组合试验设计安排试验[7],如表1所示。

3.3.4 船员职位与船员证书因素之间的关系

图8展示了职位因素与证书因素各水平之间的关系。其中,只有三副和丙一共同出现的频数超过100。若以前者为考察对象,则占比约为69.94%(114/163);若以后者为考察对象,则占比约为18.69%(114/610)。

图4 整体效果

图5 航线—职位网络关系

图6 航线—船员证书网络关系

图7 船型—职位网络关系

图8 船员职位—船员证书网络关系

上述结果表明在所考察的数据中,三副的证书以丙一居多。换句话说,这里统计的资料表明,低水平的三副占了大多数,超过2/3,对于高水平的三副来说,数量还是不多。

3.3.5 船员职位与船舶吨位因素之间的关系

图9展示了船员的职位因素和船舶吨位因素各水平之间的联系。从可以看出,所有的水平并没有明显的集中趋势,至少频数并没有超过100的。为了更进一步探索船员职位因素和船舶吨位因素各水平之间的联系,需要重新设置权重。本文为进一步探究船员职位和船舶吨位各水平之间的关系,采用频数与10的比值进行权重设置。为了使频数小于10的边也能在网络图中有所显示,本文在Excel中采用表达式weight=INT(n/10+1)对边进行权重设置。其中n代表边两端的节点同时出现的次数,加1是为了对计算的结果进行平滑处理。通过重新设置权重,可以将船员职位水平与船舶吨位水平之间关系的差异放大,以便进行对比分析。图10是权重调整之后的网络关系。其中,节点数为18(占比为50%),边的个数为68(占比为16.4%),平均度为7.556,平均加权度为19.889,网络直径达到3,图密度达到0.444。从图10中不难看出,在船舶吨位的分布中,1万~2万吨级的船舶招聘船员的职位占比为644/(644+207+337+148+17+64)=45.4%,对船员职位招聘岗位的贡献接近一半。其中,对三副岗位的贡献达到12.4%(80/644),在其提供的所有岗位中占比最大。对于考察的三副岗位总体来说,该吨级提供的80个岗位也接近三副总体岗位的一半,占比达49.1%(80/163),可以说1万~2万吨级的船舶对三副的需求量最大。因为权重的阈值设小之后,权重的取值也随之增多,所以为了进一步看清楚,可以通过Gephi的滤波功能,逐步筛选出权重大于3的边以及权重大于6的边,分别如图11和图12所示。通过图12可以很明显地看到,1万~2万吨级的船舶提供的岗位主要是大副、二副、三副、二管轮和三管轮,这些岗位占了1万~2万吨级船舶提供岗位的52.8%((64+62+80+72+62)/644),占据了所有招聘岗位的一半以上。虽然提供的三副岗位是最多的,但是提供占比较大的岗位却是二副、二管轮、三管轮,提供的岗位占比分别达到了53.9%(62/115)、55.4%(72/130)、56.4%(62/110),提供占比最大的岗位是三管轮。

3.3.6 基于度范围的网络拓扑图

通过过滤器中的拓扑选项卡可以查看本关系网络的度范围是14~31,即各水平至少与14个其他水平相关,至多与31个其他水平相关。调节度范围进行滤波,可以看出,将度范围的起始值设为25,可以保留大部分显著水平,同时精简网络结构。随着逐步提升度范围的起始值,可以逐步过滤度少于起始值的节点,而保留那些度大于或等于起始值的节点。图13展现的是度的起始值为27的结果。直到最后,可以发现,度范围在28~31的水平只有3个,如图14所示。图14中显示的分别为船型水平(散杂货船)、证书水平(甲类)、吨位水平(1万~2万吨级),这3个因素水平具有与其他因素水平联系多且频数大的特点,可以说是整个招聘信息网络的核心。

S代表结构特征量对设计参数的灵敏度矩阵。Δp=p-p0代表设计参数的误差。利用拉各朗日乘数法,式(3)的极值问题转化为如下的线性问题:

图9 船员职位—船舶吨位网络关系

图10 调整边权重后船员职位—船舶吨位网络关系

图11 边权重>3的船员职位—船舶吨位网络关系

图12 边权重大于6的船员职位—船舶吨位网络关系

图13 度范围为27~31的网络拓扑

图14 度范围为28~31的网络拓扑

4 结束语

本文基于数据可视化技术以及可视化工具Gephi,利用网络爬虫工具采集了航运在线网上的航运招聘数据,并对数据进行必要的清洗、过滤及加工等预处理操作,得到了相对粗糙的数据。基于Gephi对船员数据进行了初步的可视化分析。在得到数据大致分布之后,使用R语言对数据进行二次加工,将处理好的数据再次通过Gephi进行可视化呈现。从分析结果中可以很直观地看出航运招聘信息中各因素的主要水平值。此外,通过交互式分析,探索了船员数据中各个属性之间的关联程度以及航运招聘信息网络的核心属性,以期为海事部门探索船员市场需求和应聘者的求职提供一定的借鉴及参考。

参考文献:

[1]刘勇, 杜一. 网络数据可视化与分析利器:Gephi中文教程[M]. 北京: 电子工业出版社,2017: 163-164.LIU Y, DU Y. Network data visualization and analysis tool: Gephi Chinese Tutorial[M]. Beijing: Publishing House of Electronics Industry, 2017: 163-164.

[2]关迎晖, 向勇, 陈康. 基于Gephi的可视分析方法研究与应用[J]. 电信科学, 2013(S1):112-119.GUAN Y H, XIANG R, CHEN K. Research and application of visual analysis method based on Gephi[J].Telecommunications Science, 2013(S1): 112-119.

[3]李学兰. 基于Gephi的物流金融研究可视化[J].牡丹江大学学报, 2017(1): 26-28, 46.LI X L. Visualization of logistics finance research based on Gephi[J]. Journal of Mudanjiang University, 2017(1): 26-28,46.

王扬,田野,李铁山,陈俊龙,彭东成,周义华
《大数据》 2018年第03期
《大数据》2018年第03期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号