1 浮动车数据挖掘在出租车规划中的应用研究 庄立坚 宋家骅 丘建栋 段仲渊 【摘 要】【摘 要】为支持出租汽车营运评价和行业规划,科学掌握其营运现状与特点,以深圳市 1 个典型工作日为例,研究浮动车数据挖掘在出租汽车营运特征研究中的应用依托对浮动车数据的特征解析,提出面向出租汽车营运挖掘分析的数据处理流程,针对空载率、运营速度、出行时长、出行需求的时空差异性等方面分析深圳市的出租汽车行业营运现状与特点研究可为出租车规划提供新的视角,从对既有数据深度挖掘的角度提升规划的精度和效益 【关键词】【关键词】智能交通系统;道路交通;数据挖掘;出租汽车;营运特征 1 引言 出租汽车是城市公共交通系统的重要组成部分, 然而, 中国大城市目前普遍存在出租汽车空驶率高却又经常“打不到车”的现象,行业整体营运效率不高,亟需实时掌握出租汽车的时空营运特性,用以支持车辆调度、行业规划、政策研究等[1-2] 常规的出租汽车运营数据采集方式包括人工调查和计价器记录,存在成本高、信息少、可靠性差、延时大等缺点浮动车(Floating Car)是伴随着智能交通应用而发展起来的新型交通信息采集手段,它是指安装有 GPS 定位模块和无线通信模块的普通车辆,能实现较高精度的卫星定位并实时将位置信息传送到服务器数据中心。
由于具备营运时间长、 道路覆盖面广、便于集中管理等显著优点,出租汽车已成为国内外的浮动车典型在国内,浮动车数据(Floating Car Data, FCD)一般指的就是出租汽车 GPS 数据,因此除了用于对路网交通状态的感知之外,在对出租汽车本身的营运分析方面也具有极大的潜力[3]相关研究方面,李道勇、康留旺、傅常伦等[4-6]仅从空驶率的角度分析深圳市出租汽车的运营特点,全面性不足;胡小文等[7]以 100 辆出租汽车的 GPS 数据为基础,分析出行需求空间分布、出行时长、出行距离等三项指标,但由于出租汽车的样本规模过小,难以准确反映实际整体运营状况;庄立坚、 翁剑成、 王刚等[8-10]对出租汽车的运营管理指标进行分类建模, 分析空载率、 速度、出行时长/距离等多项指标,但在出行需求角度未做深入挖掘探讨 为支持营运评价和行业规划, 科学掌握其运营现状与特点, 以深圳市一个典型工作日为例,针对空载率、运营速度、出行时长、出行需求的时空差异性等方面进行分析,探讨浮动2 车数据挖掘在出租汽车营运评价中的应用 2 浮动车数据属性 研究以深圳市所有安装有车载 GPS 模块的出租汽车为研究对象,因此,本研究所提及的浮动车特指出租汽车,浮动车数据特指出租汽车 GPS 数据。
根据预设定,GPS 模块会以一定的时间间隔向深圳市交通委员会数据平台实时发送出租汽车当前的位置信息 服务器接收端实时接收回传的 GPS 数据,并以 5 分钟的间隔依次生成 txt 文本包,每天共生成 288 个包如表 1 所示,浮动车数据的属性包括定位时间、车牌号码、公司代码、经纬度坐标、速度、方向、运营状态、数据可用性等 表 1 浮动车数据属性说明 表 1 浮动车数据属性说明 属性 类型 范例 说明 定位日期 整型 20141120 2014 年 11 月 20 日 定位时刻 整型 234 00:02:34 车牌号码 文本型 粤 B4NK66 车辆唯一标识 所属公司代码 文本型 H 出租汽车汽车公司代码 经度 浮点型 113.887199 小数点后取 6 位 纬度 浮点型 22.590599 小数点后取 6 位 速度 整型 23 瞬时速度 方向角 整型 225 与正北方向的顺时针夹角(0-359) 运营状态 整型 0 0 表示空车,1 表示重车 数据可用性 整型 1 0 表示异常,1 表示正常 选取一个典型工作日(2014 年 11 月 20 日 00:00-24:00,周四)的深圳市浮动车数据,基础统计分析结果如下: (1)全天 24 小时回传的数据记录为 56860640 条,包含 15560 辆出租汽车,文本数据包总大小约为 3.2GB。
(2)深圳市浮动车数据在时间上的差异性很小,每 5min 的数据均在 20 万条左右,但在空间上存在明显的分布不均匀性定义公式(1)所示的点密度用于表征空间分布特征,其中 Di为第 i 个小区的点密度, Ni为落在第 i 个小区内的 GPS 点数量, Si为第 i 个小区的面积选取任意 5min 的数据进行分析,结果如图 1 所示,出租汽车密集分布于中心城区、龙岗中心区、宝安机场、深圳北站、科技园等区域,在其他区域分布非常稀疏 =iiiDN S (1) 3 图 1 浮动车数据的空间分布不均匀性 图 1 浮动车数据的空间分布不均匀性 (3)图 2 显示了不同营运状态下的速度分布情况,其中,纵坐标做了对数化处理对于全部数据,速度为 0 的记录为 25670824 条,占总数据量的 45%;对于空车状态的数据,速度大于 35km/h 的数据量呈显著下降趋势;对于重车状态的数据,速度大于 80km/h 的数据量呈显著下降趋势所有出租汽车数据的速度平均值是 18.84km/h,重车状态下的速度平均值是 28.28km/h,空车状态下的速度平均值是 12.43km/h。
以 35km/h 为分界线,空车速度小于 35km/h 的数据量多于重车,空车速度大于 35km/h 的数据量少于重车,这与实际情况也是相符合的因为在空车状态下,出租汽车为了寻找客源或短时休息,倾向于低速行驶甚至停车等待;在重车状态下,出租汽车是有目的的点到点行为,因此会提速尽快将乘客送到目的地,以获取下一次载客的机会 1.0E+001.0E+011.0E+021.0E+031.0E+041.0E+051.0E+061.0E+071.0E+080102030405060708090100110120数据量数据量(条条)速度值速度值(km/h)全部重车空车图 2 不同营运状态下的速度分布 图 2 不同营运状态下的速度分布 (4)由于定位失败或无线传输数据丢失等因素,浮动车数据的采样时间间隔普遍较长且并不固定,绝大部分在 120s 以内如图 3 所示,在 10s、15s、20s、30s、60s、90s 等位4 置产生峰值,合计占比为 65%;其中,以 15s 为采样间隔的数据量最多,单独占比为 24%;超过 120s 的数据占比仅为 1.4%,对于这部分数据,在城市路网中,取上文所述出租汽车重车状态下的平均速度(28.28km/h)进行计算,那么前后 2 个回传的 GPS 点之间的距离将接近甚至超过 1km,这将大大影响后期的路径重现与地图匹配的精度。
1.0E+001.0E+011.0E+021.0E+031.0E+041.0E+051.0E+061.0E+071.0E+080102030405060708090100110120数据量(条)采样时间间隔数据量(条)采样时间间隔(s)图 3 采样时间间隔分布 图 3 采样时间间隔分布 3 数据处理流程 面向出租汽车营运特征分析的浮动车数据处理流程如图 4 所示,包括: (1)数据预处理:预先剔除重复、漂移的 GPS 点 (2)轨迹切分:以车牌号码为索引进行遍历,分别读取每个车牌号码的 GPS 数据,并按照时间顺序排列;在运营状态的切换位置,将每辆出租汽车全天的 GPS 运行轨迹打断成若干段空车轨迹和载客轨迹 (3) 逻辑纠错: 在实际提取到的切分轨迹中, 会存在部分行程时间过小或过大的情况,因此对单次载客时长小于 1 分钟或大于 4 小时的情况进行剔除;另外,在城市路网中,由于交叉口红灯、车速限制等管控措施,单次载客的行程速度不会超过 100km/h,因此对超过100km/h 的情况进行剔除 (4)小区匹对与路径重现:将每一次载客轨迹的起终点利用空间运算技术匹配到对应的交通小区中,并将轨迹利用地图匹配技术映射到对应的路段上,重现行驶路径。
图 4 数据处理流程图 图 4 数据处理流程图 5 4 出租汽车营运特征分析 4.1 整体情况 4.1 整体情况 当天出租汽车日均行驶里程为 494.4 公里,日均载客里程 326.3 公里,全天平均里程空载率为 34% 当天出租汽车总出行次数是 757772, 运营出租汽车总数是 15560, 平均载客次数是 48.7次由于出租汽车 GPS 数据定位和传输过程存在失败的可能性,而且数据处理过程也可能造成过度清洗,因此理论上,这里计算得到的平均载客次数与实际值相比会偏小 4.2 空载率 4.2 空载率 空载率表征的是出租汽车的无效行驶里程比率,如式(2)所示其中,分子表示所有出租汽车的空驶里程总和,分母表示所有出租汽车的行驶里程总和;k 为路径的状态,k=0 表示路径为空驶,k=1 表示路径为载客;, i j kl表示第 i 辆车、第 j 条路径的行驶里程 , 0 11,, 01 1111=,{0,1}nm i j k ij nmnm i ji j kk ijijl Ek ll (2) 图 5 显示了深圳市 2014 年 11 月 20 日(周四)空载率的时变趋势。
空载率峰值发生在凌晨 3 点,此时出租汽车约 60%的行驶里程为无效里程;8 点至 22 点期间,空载率保持在30%左右,波动不大;22 点之后到第二天凌晨 3 点,空载率呈明显上升趋势另一方面,深圳市全天每小时运营的出租汽车数量均在15000辆以上, 波动极小, 但在凌晨1-5点之间,平均空载率已超过 50%,此时大量的出租汽车处于无效运营中,是对出租汽车资源的极大浪费因此,需根据空载率对出租汽车的运营时段进行适当调整,对凌晨 1-5 点间运营的出租汽车进行适当调休或者补贴 6 02,0004,0006,0008,00010,00012,00014,00016,00018,0000.00.10.20.30.40.50.60.70.80.91.001234567891011121314151617181920212223时段时段(小时小时)里程空载率出租车数量空载率出租车数量空载率出租车数量(辆辆)图 5 空载率与出租汽车数量时变图 图 5 空载率与出租汽车数量时变图 4.3 运营速度 4.3 运营速度 图 6 显示了载客状态下的平均速度时变性 平均速度谷值出现在早高峰的 8-9 点和晚高峰的 18-19 点,尤其是晚高峰,平均速度不到 20km/h。
平均速度峰值出现在 6-7 点和 23-24点,平均速度超过 35km/h 051015202530354001234567891011121314151617181920212223平均速度平均速度(km/h)时段时段(小时小时)图 6 载客状态下的平均速度时变图 图 6 载客状态下的平均速度时变图 4.4 出行时长 4.4 出行时长 图 7 显示了深圳市出租汽车载客出行的时长分布(乘客出行时长分布) 10min 以内的出行量占比为 48%; 20min 以内的出行量占比达到 82%, 这是出租汽车重点服务的时域范围;出行时长超过 30min 的出行量占比仅为 7%基于上述分析,出租汽车主要面向中短时间的出行取上文所述出租汽车载客状态下的平均速度(28.28km/h)进行计算,20 分钟的平均出行距离为 9.4km,即出租汽车重点服务的空域半径约为 10km以深圳市现行打表计价费用计算,起步价(2 公里以内)10 元,之后每公里 2.4 元,因此,10km 的计价费用约为 30元(不包括燃油附加费) 7 00.20.40.60.811.260比率时段比率时段(分钟分钟)占比累计占比图 7 载客出行时长分布 图 7 载客出行时长分布 4.5 出行需求 4.5 出行需求 ((1)时间差异性)时间差异性 出租汽车出行量在全天内呈现明显的波浪式起伏变化,如图 8 所示。
峰值在 9 点、14。