更全的杂志信息网

基于多源数据融合的城市出租车载客出行特征研究——以岳阳市为例

更新时间:2009-03-28

0 引言

目前,城市交通的主要解决方案是大力发展多层次多模式的公共交通,加大常规公交线网和轨道线网密度.以岳阳市(岳阳楼区、君山区和云溪区范围)为例,根据2017年开展的岳阳市综合交通规划调查获得的数据,2017年上半年岳阳市拥有48条公交线路,300 m站点覆盖率为49%,低于国家要求的50%;500 m站点覆盖率为91%,满足国家要求的90%.总体而言,岳阳市公交线网分布疏密不均,核心区外围城乡结合部存在较多公交覆盖盲区.因此,作为公交的补充,出租车在居民的常规出行中扮演着重要角色.

随着城市建设的发展和大数据技术的进步,在北京、上海、深圳、杭州等城市已经建立了出租车浮动车系统[1],即在出租车上安装GPS设备,定时将出租车所处位置、是否载客等实时信息传输至数据库中.与城市公交车有固定的服务时间窗不同,出租车车辆基本全天候作业,可以提供详细的实时交通路况及居民的出行规律.

已有根据出租车轨迹数据对载客出行特征进行的研究集中在分析其日均载客时间、载客里程等指标[2];载客出行的时长分布、距离分布、速度分布特性[3];出租车载客运营的空间分布特性,并在空间分布特性的基础上进行聚类分析,寻找片区之间的关联性[3-4];出租车载客运营的时间分布特性[5],并依据多个月份的数据,对比不同月份之间出租车载客出行量的异同[6];此外,在GPS轨迹大数据处理方法上,利用流行的大数据分析平台spark,提出分布式轨迹聚类算法和分布式轨迹模式处理算法,提高出租车轨迹大数据的处理效率[7].

已有研究一般在出租车GPS轨迹数据的基础上,融合道路网络数据进行相关的分析,可以得出出租车上下客的热点分布等信息,但缺少对不同状态下出租车载客出行特征的深层次原因分析.通过融入居民出行调查、宏观交通模型等交通分区相关数据,可以分析出租车载客出行特征与分区用地布局、人口岗位等之间的关联.本文以岳阳市为例,在出租车GPS轨迹数据的基础上,融合了综合交通规划的居民出行调查数据和研究期间当地的天气数据,对出租车载客出行特征进行建模分析.

明治文学研究方法的转变乃至理念的破旧立新与社会转型期几乎是同步的,因而有必要首先从历史沿革上考察。明治时期作为近代日本“脱亚入欧”“文明开化”的开端,初期文学体现了传统中国文学观影响的延续与西方文艺思潮影响的相互张力,与此呼应的是国家主流意识形态与个人自我确立之间的矛盾。在这种内与外、新与旧、上与下等错综复杂的关系中,明治初期的文学表现形式,有江户时代延续下来的劝善惩恶的戏作文学,也有以表现政治主张为目的的新兴文学形式——政治小说,还有译介乃至改编外国小说而形成的翻译小说和“翻案小说”。彼时新时代的浪潮还没有波及到文学,因而没有真正意义上的文学创作和文学研究。

1 数据描述与载客出行OD抽取

1.1 数据描述

本文的数据来源包含3部分:第1部分为2017年5月岳阳市出租车运营的GPS数据(带有是否载客记录功能的约900辆),车辆约每15 s产生1条数据,每条数据的相关字段如表1所示;第2部分为2017年岳阳市综合交通规划的居民出行调查数据,以及建立的宏观交通模型数据,主要包括宏观交通模型中各个片区的常住人口、岗位数、片区面积等;第3部分为2017年5月岳阳市天气状况数据,为了简化分析,将每天的天气根据是否下雨分为“晴”、“雨”2类.

1.2 载客出行OD抽取

根据是否载客将出租车运营状态分为2类,本文针对其载客出行状态进行研究.由于数据量较大,常规计算机无法直接处理,因此本文在spark平台下进行出租车载客出行OD的抽取.抽取过程如下:

Step 1 将全部出租车运营轨迹数据读入spark,形成1个RDD.

完成数据标准化之后,即可进行多元线形回归分析和RBF神经网络回归分析.

Step 2 以车牌号为key,其余字段为value,执行groupByKey,将同一key的数据整合到一起.

试验用克氏原螯虾(小龙虾)由咸宁市通城县海天小龙虾养殖专业合作社提供,试验用微生物营养料(合缘虾宝)由武汉合缘绿色生物股份有限公司提供,供试水稻品种为五优463(晚稻)。

Step 3 将每一个key对应的数据集按照日期时间升序排列,排序后的数据根据status取值对时间相邻的2条记录做合并处理,即如果相邻2条记录的status取值相同(同为1或者同为0),则合并这2条记录,新增状态开始和结束时间,以及对应的开始地点经纬度和结束地点经纬度,用来记录每辆车每次载客开始时间地点和结束时间地点,以及空驶的开始和结束时间地点.

Step 4 对合并后的数据集依据status取值过滤,将status值为1即载客的记录过滤出来,过滤出的数据集即为2017年5月岳阳市出租车载客出行OD.

在教学实践上,百色学院紧密结合边疆少数民族地区基础教育和地方经济、文化的需要,结合应用型人才培养需要,以培养具有创新精神和实践能力人才为目标,卓有成效地开展了一系列的改革与实践,形成了“科研促进教学”和“立足边疆、服务边疆、走向东南亚”的鲜明特色。为了深化教学改革,突出实践性和服务地方社会经济发展的功能,学校和有关单位建立了密切的合作关系,分别与靖西县旧州村、田阳布罗陀文化研究会、那坡吞力黑衣壮村寨、田林壮剧团等达成了合作关系,摸索成立研究和教学实践基地的路子,为非物质文化遗产的深入研究和学生的实习实践提供了平台。

 

表1 出租车运营GPS数据字段描述Table 1 Fields description of taxi GPS data

  

字段名称record_time longitude latitude heading velocity plate status示例01:00:03 113.0991 29.3635 278 12湘FT0001 1含义数据产生的时刻,精确到秒车辆所处位置的经度车辆所处位置的纬度车头方向角车辆当前行驶速度/(km/h)车牌号是否载客,1表示载客,0表示空驶

出租车载客出行OD数据集包含表2所示字段.

 

表2 出租车载客出行OD数据字段描述Table 2 Fields description of passengers on board taxi OD data

  

字段名称 含义 示例出发日期1次载客出行出发时的日期20170501出发时间1次载客出行出发时的时间01:03:05出发地经度 出发地的经度113.0991出发地纬度 出发地的纬度29.3635到达日期1次载客出行到达时的日期20170501到达时间1次载客出行到达时的时间02:04:06到达地经度 到达地的经度113.0991到达地纬度 到达地的纬度29.3635车牌号 岳阳市出租车的车牌号 湘FT0001是否工作日1表示工作日,0表示周末1

1.3 数据融合

在获得出租车载客出行OD后,首先基于日期将天气数据融入;再依据出租车载客出行的出发和到达经纬度,将交通分区数据(含分区面积、人口、岗位分布等信息)融入.融合过程如下:

(1)天气数据融入.

Step 1 将天气简化为“晴”、“雨”2类,“晴”记为 1,“雨”记为 0.以日期和“晴”、“雨”构造天气字典,例如{20170501:1}表示2017年5月1日当天为晴天.

Step 2 通过Spark读取1.2节中获得的出租车载客出行OD数据集,针对每条OD数据的出发日期,从天气字典中获取当天的天气状况代码,在原有数据集中新增字段“天气状况”,将天气状况代码写入该字段.

(2)交通分区数据融入.

BRRS是一种罕见的常染色体显性遗传综合征,主要症状为发育迟缓、色素沉着、斑点状阴茎和脂肪瘤。CS和BRRS的生殖系突变有一部分重叠,不同的CS相关突变主要位于5′外显子编码区,而BRRS突变主要发生在3′编码区C2结构域。PS主要由生殖系镶嵌突变引起,具有脂肪瘤、过度生长和良性肿瘤(错构瘤)特征。总之,PTEN突变会增加以上3种综合征的患病率,增加患者的患癌风险。

Step 3 将交通分区shapefile文件读入Spark集群,针对每条OD数据,通过GIS空间分析模型,分析出发、到达地对应的交通分区,并将相应的面积、人口岗位数等信息写入OD数据集.

将标准化之后的全部6个自变量Xi作为输入,因变量Y作为输出,使用Matlab自带的RBF神经网络工具箱进行回归分析.为了验证模型有效性及防止过拟合,将归一化后的数据集随机等分为10份,进行10折交叉验证,每次以其余9份数据作为RBF神经网络的训练集,剩下的1份作为测试集,计算测试集的拟合优度R2,结果如图6所示.

2 出租车运营时空分布

2.1 载客出行总量随时间分布

为了研究载客出行总量随时间的分布情况,将时间做离散化处理,即将1天24 h平均划分为48个时段(每个时段30 min),记为ii∈{0,1,2,…,46,47},针对每次载客出行,以出发时间为基准标记每次出行所处的时段;根据是否工作日和当天天气(晴、雨)将数据集分为4种类型,记为αα∈{工作日晴天,工作日雨天,周末晴天,周末雨天}.则每种类型的日期在1天不同时段的出租车载客出行量为

 

表3 数据融合后新增字段描述Table 3 Newly increased fields description of passengers on board taxi OD data

  

字段名称出发分区出发分区面积出发分区人口出发分区岗位到达分区到达分区面积到达分区人口到达分区岗位天气状况含义1次载客出行出发时所处交通分区编号出发分区的面积/km2出发分区的人口数/万人出发分区的岗位数/万人1次载客出行到达时所处交通分区编号到达分区的面积/km2到达分区的人口数/万人到达分区的岗位数/万人1表示晴天,0表示雨天示例2 47 12 535 5 15 81

 

式中:α类型的日期第j天第i时段的出租车载客发生量;Dα为研究范围内α类型的天数;j取值为1,2,…,Dα.

图5为各片区出租车载客出行发生吸引量分布,可以发现,铁西片区、南湖片区和八字门片区的出租车载客出行量占了全市的约80%.其中,南湖片区的出租车载客发生量占全市的60%以上,吸引量也超过了55%.南湖片区是岳阳市区的核心区,集中了大量出租车出行需求.

 

从图1中可以看出,工作日晴天和雨天在7:30-09:30和19:30-21:00的差异较大,其他时段出行比例基本一致.工作日7:30-9:30为出行高峰期,工作日雨天该时段的出租车载客出行量与平峰相近,可能存在因下雨部分弹性出行降低或者采用其他交通工具出行;而工作日雨天的19:30-21:00时段的载客出行量比例则高于工作日晴天同时段的载客出行量比例.周末晴天载客出行量比例的峰值出现在13:30-14:30和19:00-21:00;相比之下,周末雨天在9:00-9:30会出现一个峰值.

 

图1为4类日期下分时段平均载客出行量占当天总出行量的比例.

  

图1 载客出行量比例时间分布Fig.1 Temporal distribution of passengers on board trip times

分时段比例为

2.2 出行时长分布

通过对每次出租车载客出行时长的分析可知,出行时长在3~50 min的出行量占99.5%以上,因此主要针对该出行时长范围进行分析.

图2为载客出行时长的分布情况.4类日期的载客出行量占比随出行时长的分布基本相同,因此本文仅针对“工作日晴天”这类日期分析.从图2可以发现,载客出行时长6 min及以上的载客出行量占比曲线与幂函数曲线相似,因此采用幂函数进行拟合分析.设幂函数为P(t)=αtβ,拟合得出α=364.19,β=-1.86,其中t≥6,相应的拟合优度R2=0.94.而载客出行时长3、4、5 min的载客出行量占比分别为4.28%,10.90%和11.06%.

Y3Ga5O12(YGG)晶体可以看做是用离子半径更大的Ga3+取代YAG晶体中的Al3+,这种取代导致晶体的晶格间距扩大,有利于Nd3+的掺入.与YAG晶体类似,YGG晶体具有高的化学稳定性、硬度、热导率(9 W/mK)和光学均匀性,以及有适合稀土离子或者过渡金属离子取代的格位[15].由于Nd∶YGG晶体熔点较高且存在氧化镓挥发的问题,目前仅有的报导为光学浮区法生长的Nd∶YGG单晶.

在政府大力帮扶的基础上,社会机构和力量也要从维护农村学校、学生的利益,发展农村教育信息化的角度出发,参与农村教育信息化建设,健全投资、融资渠道。通过广泛宣传,给予各种优惠措施,鼓励社会力量为农村教育信息化事业做贡献,用“众人抬轿”的方式,群策群力推进教育信息化建设。

  

图2 载客出行时长分布Fig.2 Travel time distribution of passengers on board

2.3 载客出行量空间分布

结合2017年岳阳市综合交通规划的宏观交通模型,以工作日晴天为例,得出岳阳市岳阳楼区、君山区和云溪区3个行政区的出租车载客发生、吸引的空间分布.图3为出租车载客出行的空间分布,可以发现,大部分出行发生和吸引点位集中在图4所示的铁西片区、南湖片区和八字门片区.

  

图3 出租车载客出行空间分布Fig.3 Spatial distribution of passengers on board trips

  

图4 出租车载客出行高密度区域Fig.4 High density districts of passengers on board trips

当天载客出行总量为

  

图5 各片区出租车载客出行量分布Fig.5 Passengers on board trips ratio of different districts

3 出租车载客出行回归模型

为了进一步探究区域常住人口数、岗位数、区域面积、工作日与周末、天气、每天各个时段等因素对出租车载客出行量的影响,本节分别用多元线性回归模型和RBF神经网络模型进行回归分析.自变量包括片区常住人口数(X1)、片区岗位数(X2)、片区面积(X3)、是否工作日(X4)、是否晴天(X5)及时段(X6),因变量为片区分时段出租车载客出行量(Y).

3.1 数据标准化

由于变量之间量纲不同且取值差异较大,因此在进行回归分析前,先对变量做min-max标准化处理,即对每个变量按式(4)处理.

 

式中:x*x标准化之后的值;min(X)为向量X中的最小值;max(X)为向量X中的最大值.

460 Surgical treatment of intracerebral hemorrhage in uremia patients undergoing dialysis

“不听你的!这时候非听我的不可!”张连长打断他的话,继续训,“我们这个团的团长,是朝鲜战场上的英雄!当年跟随团长转业到北大荒的,号称三个百分之九十五——百分之九十五的党团员!百分之九十五的正副班长!百分之九十五的五好战士!这是我们团的政治血统,这个政治血统必须永远保持下去,保持住了就等于保持住了我们团的光荣!所以,剥削阶级家庭出身的,家庭有严重历史问题的,我一个也没从城市里往一团接!哭鼻子抹眼泪也不要!写血书也不要!你们已经成为一团的战士!你们也应该感到光荣!感到自豪!挨点淋就不要纪律了?不是都发誓要炼一颗红心吗?那就给我从现在炼起!”

每次的拟合优度R2落在0.64~0.81间,平均值为0.72,总体可以认为RBF神经网络模型对于全部6个自变量整体回归效果较好.

3.2 多元线性回归模型

取置信度为95%,对YX1X6做多元线性回归分析.自变量回归系数和对应的P值结果如表4所示.

 

表4 多元线性回归结果Table 4 Results of multiple linear regression

  

注:相应的R2=0.68.

 

系数P值-0.089 612 1683.332 98E-48-- 00..000011 110044 44114400..997744 222222 000022 0.482 565 6477.108 3E-41-0.031 450 2847.553 22E-05-- 00..000033 770055 88225500..336644 007766 775599 0.008 039 3900.049 143 613 0.070 682 4021.199 29E-21变量常数项常住人口数X1岗位数X2区域面积X3是否工作日X4是否晴天X5时段X6

从表4可以发现,在置信度为95%的条件下,常住人口数与是否工作日2个变量的P值远大于0.05,因此应剔除这2个变量.得到的R2=0.68,表明因变量与其余4个自变量之间有较强的相关性.从而可以得出YXi的关系为

本次事故中,110kV那安线发生B相接地故障,那曲变那安线041开关接地距离I段保护快速正确动作,并重合成功。但在110kV那安线故障那曲变那安线041开关保护动作同时,引起上一级联络线110kV当那线当雄变侧041开关零序过流I段保护动作开关跳闸,造成那曲地区电网与系统解网。由于本次事故影响较大,结合当时的电网运行方式,及时开展了一系列事故调查及故障模拟计算分析工作:

 

3.3 RBF神经网络回归模型

融合后的数据集在表2基础上,新增字段描述如表3所示.

通过对幼儿园现状的调查,了解到幼儿园规定在天气良好的情况下,每天进行的体育活动与户外游戏的时间不会少于2小时,部分硬件条件稍好的幼儿园在安排体育活动与户外游戏时,会比其它幼儿园安排的时间要长一些,同时也呈现出没有组织与没有体育活动内容的情况,幼儿进行的活动质量上没有保证[2]。

以往传统单调的教学模式如今被注入了一股新的血液,便是生活化教学。其多样的教学方法和丰富的教学内容为全面提高小学生语文综合素质提供了莫大的帮助。因此,小学语文生活化教学作为一种全新的教学理念,也要求相关教育者一起把握生活化的特点,有效提高小学生的语文学习成果。

根据3.2节多元线性回归分析的结果,剔除常住人口数与是否工作日2个变量,仅考虑4个自变量,同样采用RBF神经网络进行回归分析并做10折交叉验证,结果如图7所示.

每次的拟合优度R2落在0.69~0.88之间,平均值为0.78,比用全部6个自变量拟合效果更优.同时,与多元线性回归模型相比,RBF神经网络回归模型拟合效果更好,且模型稳定.

  

图6 6个自变量RBF神经网络回归10折交叉验证拟合优度Fig.6 R2of 10-fold cross-validation on 6 independent variables RBF neural network regression

  

图7 4个自变量RBF神经网络回归10折交叉验证拟合优度Fig.7 R2of 10-fold cross-validation on 4 independent variables RBF neural network regression

通过多元线性回归模型分析,岳阳市各个片区出租车载客出行量与片区岗位数、片区面积、天气状况及出行时段有较强的线性相关性.而从RBF神经网络回归分析可知,片区常住人口数与是否工作日2个变量也在一定程度上对片区出租车载客出行量产生影响.

4 结论

本文基于出租车GPS轨迹大数据、居民出行调查数据、城市人口土地利用数据及天气数据,首先对城市出租车载客出行进行了时空分布研究,得出对于岳阳市而言,大部分的出租车出行都是集中在城市核心区的结论.在此基础上,分别建立多元线性回归模型与RBF神经网络回归模型对出租车载客出行量与片区常住人口数、岗位数、片区面积、是否工作日、是否晴天、时段之间的关系进行分析,得出岗位数、片区面积、是否晴天和时段与出租车载客出行量之间具有较强的线性相关性.而RBF神经网络通过大量数据的学习,拟合的效果比多元线性模型更好.通过10折交叉验证,表明该模型具有较强的可靠性.

本文的不足之处在于1个月中周末数据的样本量较小,存在一定的偶然性,可能会对结果产生误差,后续研究可以增加数据量进一步分析.此外,在数据资源充足的情况下,可进一步探索与岳阳城市定位相似的其他城市出租车载客出行特征,寻找其中的异同点;同时,可将以岳阳市为代表的一类城市与国内大都市(北京、上海等)的出租车载客出行特征进行对比,作为该类城市交通发展的参考依据.

参考文献:

[1]周洋.基于出租车数据的城市居民活动空间与网络时空特性研究[D].武汉:武汉大学,2016.[ZHOU Y.Study on human activity space patterns and network spatial temporal characteristics in urban cities using taxi trajectory data[D].Wuhan:Wuhan University,2016.]

对高校行政人员的薪酬福利待遇体系的政策制定,应科学、有效且要同代课教师平等看待、管理。对于高学历的、在工作中有重大工作贡献和突破的人应该给予奖赏和对应的晋升,缩短基层晋升的年限,设置合理有效符合实际运作的晋升机制;职业倦怠并不是一病不渝的绝症,而是可以通过各方面调节改过的职业现象。

[2]吕振华,吴健平,姚申君,等.基于FCD的出租车运营特征分析:以上海市为例[J].华东师范大学学报(自然科学版),2017(3):133-144.[LV Z H,WU J P,YAO S J,et al.FCD-based analysis of taxi operation characteristics:A case of Shanghai[J].Journal of East China Normal University(Natural Science Edition),2017(3):133-144.]

[3]TANG J J,LIU F,WANG Y H,et al.Uncovering urban human mobility from large scale taxi GPS data[J].Physica A,2015(438):140-153.

[4]TU J F,DUAN Y C.Detecting congestion and detour of taxi trip via GPS data[C].IEEE Second International Conference on Data Science in Cyberspace,2017.

[5]PHIBOONBANAKIT T,HORANONT T.How does taxi driver behavior impact their profit?Discerning the real driving from large scale GPS traces[C].Ubicomp/ISWC’16 Adjunct,Heidelberg,Germany,2016.

[6]FANHAS R,SAPTAWATI G.Discovering frequent origin-destination flow from taxi GPS data[C].IEEE International Conference on Data & Software Engineering,2016.

富察氏接过参汤,拿银匙慢慢搅着,神色稳如泰山:“如今进了宫,好歹也是一家人,你就不去看看景仁宫那位吗?”

[7]LIU J,YU X,XU Z,et al.A cloud-based taxi trace mining framework for smart city[J].Software:Practice and Experience,2017(47):1081-1094.

[8]YAO Z G,GENG S G,WANG B Q.Comparison of operational models in taxi industry based on performance assessment[J].Journal of Transportation Systems Engineering and Information Technology,2017,17(3):1-6.

 
唐艳丽,蒋超,郑伯红,李茜铭
《交通运输系统工程与信息》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号