数字化领航总第19期《借势新基建工业互联网创新提速》

Practice 实践

基于机器学习的公共交通客流预测实践

文/刘倩杜鑫

交通大脑作为智慧城市的起点，各大企业纷纷以智慧交通为切入点进入该领域。2016年阿里云提出城市数据大脑，首次公开进入交通领域。自此以后，交通大脑的热度也一直居高不下。公共交通客流预测技术是交通大脑中的关键性技术，毫无疑问，对此项技术的探索也正处于风口。总结各大高校、研究所、企业所做研究可以看出，目前公共交通客流预测技术主要是基于客流影响因子的特征工程和恰当的算法模型。

预测的技术难点和重点主要集中在公共交通客流的特征工程。特征工程就是根据已有数据提取出一系列公共交通客流影响因子，公共交通客流与社会经济特性、土地利用性质、交通区位特征人口分布、气候等因素都有关，这些因素不易量化。有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。所以特征工程是公共交通客流预测技术的难点和重点。

本文通过杭州市公交客流预测实例对特征工程进行说明。考虑线路因素、气象因素、日期因素对公交客流的影响，根据数据获取难度、覆盖率、准确率，利用公交集团2017年1月至10月公交线路客流数据、油耗数据、公交客运里程数据、公交站点经纬度位置数据、地铁站点经纬度数据、气象数据等，对公交客流的特征因素进行提取。

时间因素

公交客流与乘客出行密切相关，不同日期特征的公交客流有明显差异。如图1所示，图中每条曲线代表一条公交线路的日客流时间序列，从图中得出常规公交线路客流呈七天一个周期循环变化，客流在工作日、非工作日期间明显不同。根据客流周期性变化特点，设置类别特征，该特征取值分别为周一、周二、周三、周四、周五、周六、周日。由于节日假期调休，周六存在补班现象，故将此标签增加“周六补班日”作为特征取值之一。为了避免特征因素数值大小影响预测模型的训练效果，针对此离散型特征进行独热编码。

同时法定节假日与周末假日的客流也存在差异，如图1中2月附近春节假日客流与非节假日客流明显不同。因此选取0、1分别作为节假日、非节假日取值。同时可看出图中客流数据样本中存在异常值，在特征提取时也需要对此类异常数据进行处理。综上所述，提取星期、是否节假日作为时段因素的特征变量。

图1 公交线路日客流数据时间序列图

气象因素

天气影响公交乘客出行，天气状况由最低温、最高温、是否为雨雪天气作为特征输入。将最高温、最低温度数值(单位:摄氏度)作为温度取值，选取0、1分别作为雨雪天、非雨雪天取值。综上所述，选取最低温、最高温、是否雪雨天气作为气象因素的特征变量。

线路因素

线路因素中包括线路里程、线路站点个数、线路当日发车情况、线路周边环境情况等。

线路当日客运里程(单位:公里)反映了当日发车次数和线路里程对客流的影响。

线路周边情况由百公里油耗和地铁线路重合度反映，百公里油耗一定程度上反映了线路拥堵情况。由于公交需要接驳地铁站客流，地铁站可以提高公交客流生成量，因此地铁重合度也是影响客流的因素。

利用该市所有地铁站点经纬度和所有公交线路站点经纬度建立基于距离的公交线路和地铁线路重合度。

如图2所示，灰色线为地铁线路，其线上圆圈代表地铁站，黑色线为公交K99线路，其线上三角形代表K99路公交站点。K99路公交车线路在图中下端部分与地铁线路重合。如图3所示，d为当前确定的距离阈值，o1为公交K99路一个公交站点，在o1为圆心、d为半径的圆内搜索地铁站，在圆内存在地铁站，则o1为公交K99线路贡献一个重合度值。同理搜索以o2为圆心、d为半径的圆形区域，不存在地铁站点，故o2不能为公交K99线路贡献地铁重合度。对K99路所有站点的圆形区域进行搜索，得出当距离阈值为d时，K99路地铁重合度为8。

综上所述，选取线路站点个数、客运里程、百公里油耗、地铁重合度（CRSB）作为线路影响因素的特征变量。最终可以得出特征数据样本如表1所示。

图2 地铁与公交k99路线路示意图

图3 CRSB示意图

表1 特征数据样本

客运里程(km)	百公里油耗(L/(km·100))	CRSB (个)	公交站点数(个)	最高温度(℃)	最低温度(℃)	是否雨雪天	是否节假日	星期	客流(人次)
1239	30.8	9	16	17	7	0	1	[0,0,0,0,0,0,0,1]	2242
5275	40.51	8	26	17	7	0	1	[0,0,0,0,0,0,0,1]	10834
…	…	…	…	…	…	…	…	…	…
1239	35.36	9	16	16	8	0	1	[0,1,0,0,0,0,0,0]	2132
5924	44.30	8	26	16	8	0	1	[0,1,0,0,0,0,0,0]	10966
…	…	…	…	…	…	…	…	…	…
1410	25.46	9	16	27	16	0	0	[1,0,0,0,0,0,0,0]	3370
5459	46.71	8	26	27	16	0	0	[1,0,0,0,0,0,0,0]	11387
…	…	…	…	…	…	…	…	…	…

预测模型

公共交通客流预测模型主要有传统预测模型（卡尔曼滤波，小波变换等）、机器学习预测模型（支持向量机、随机森林，人工神经网络等）。随着数据采集量增多与机器运算能力增强，其中机器学习算法在客流预测研究中被广泛应用，且相比传统模型其预测精度显著提高，针对本例中，根据提取公交线路特征、日期特征和气象特征，建立了带权随机森林（Random Forest with Weights, WRF）线路公交客流预测模型对线路公交客流进行预测；为提高算法训练速度、减小预测的泛化误差，利用袋外数据和数据质量控制算法对WRF参数进行优化；利用WRF袋外数据对各特征进行重要性分析，验证了特征选取的合理性；将WRF的预测性能与其他机器学习方法进行对比分析，验证了WRF对线路公交客流预测的有效性与优越性。

图4 客流预测模型构建图

如图4所示是客流预测模型构建图，考虑线路因素、天气因素、时间因素，利用公交运营数据、气象因子数据与地理信息数据等提取出地铁重合度、日客运里程、日百公里油耗、站点数量、日最高温、日最低温、是否雨雪特征对公交客流进行预测。

通过袋外数据在数据质量控制前后对各特征输入进行重要性分析，从表2中可以得出客运里程对公交线路客流的重要性最大，百公里油耗与地铁重合度次之，说明公交的线路因素对客流的影响很大，合理规划公交线路发车频率、线路路程、站点个数、线路站点选址对公交载客量至关重要。

表2 特征重要性

特征	数据质量控制前	数据质量控制后
客运里程	38.31%	30.91%
百公里油耗	10.69%	7.19%
CRSB	7.61%	10.31%
公交站点数	7.85%	6.67%
最高温度	4.17%	4.99%
最低温度	5.47%	6.12%
是否雨雪天	0.84%	0.674%
星期	15.99%	6.74%

将带权随机森林模型对公交线路客流的预测性能与随机森林模型、AdaBoost模型、Gdboost模型进行比较，从表3中可以看出数据精简后训练出的各预测模型的预测性能、训练速度均有提高，其中带权随机森林预测性能最好，MAE与MSE均为最低值。综上所述，通过实例分析，在数据质量控制后的数据训练下，带权随机森林的预测性能比随机森林模型、AdaBoost模型、Gdboost模型的预测性能更好。

表3 客流预测性能对比

结束语

近年来，随着数据采集日趋丰富、特征工程技术完善、算法模型快速发展，人工智能技术在智能交通出行、金融风险防控、辅助医疗诊断等领域发展迅猛。基于公共交通客流预测技术只是智能交通出行领域的一个分支方向，包括自动驾驶、城市道路拥堵预测与调度等诸多分支方向都在同步发展。可以预见：基于人工智能技术的公共交通系统，将为我们的生活带来更多的便利与安全保障。