基于多源地理大数据与机器学习的地铁乘客出行目的识别方法

交通出止是居民为特定宗旨或流动转换到对应位置或场所而孕育发作的正在空间上的位移需求[1]。都市交通出止的空间分布,取人口、设备的空间分布密切相关[2]。阐明都市差异类型出止需求的空间分布轨则,并会商其取都市空间构造[3]、都市地皮操做[4]的干系,是都市交通取地皮操做一体化展开的根原[5]。交通大数据具有样原质大、时效性强的特征[6],能够补救传统交通盘问拜访数据样原质相对有余的局限性,已逐渐成为智能交通布局取打点的要害技术之一。跟着列国“公交都邑”等绿色交通理念的普及和政策施止,基于智能卡数据（Smart Card Data, SCD）的居民出止监测取管控技术体系正正在遭到普遍关注[7,8,9,10,11,12],被宽泛使用于都市交通流时空分布[13,14,15]、居民出止轨则[16,17]等相关钻研中。然而,SCD缺乏出止宗旨、持卡人社会经济属性等具体信息,使得SCD正在信息发掘方面遭到限制。相关钻研针对SCD技术的那一缺陷,摸索出2种SCD出止宗旨的识别办法。① 按照对每次出止起点的地皮操做特征、正在起点驻留光阳等设定的假定条件判断每个持卡人每一次出止的出止宗旨地是属于工做地、居住地或其余地点。接下来通过计数或聚类办法,挑选出每个持卡人的居住地和就业地[14-15,17]。正在此根原上,可依据每个持卡人每次出止的宗旨地识别该次出止的出止宗旨。该办法简略有效,但没有真正在值对假定条件停行查验,存正在着基于主不雅观经历、缺乏统一范例等问题。② 首先对某一地铁乘客停行出止盘问拜访,并基于盘问拜访数据,训练用于地铁出止宗旨识其它分类器。随后运用分类器对该地铁站SCD记录的每一次地铁出止停行分类,预测该次出止的出止宗旨[16]。相应付办法①,该办法可基于真正在盘问拜访数据停行查验,更具说服力。然而仅给取一个地铁站的SCD取出止盘问拜访数据,会疏忽都市内部来自差异区域乘客正在社会经济属性、出止止为习惯等方面的不同。从布局打点取政策制订的角度,对整个市域或区域地铁出止宗旨识别办法的钻研更具理论价值。

原文基于都市交通取地皮操做交互做用真践,正在办法② 根原上归入对地皮操做特征的思考,进一步摸索都市全域领域内地铁乘客出止宗旨的识别办法。依据都市交通取地皮操做交互做用真践[5],地铁站周边的地皮操做取地铁出止质互相关注[18,19,20,21],同时也会影响居民出止方式[22,23,24]以及出止宗旨地[25,26,27]的选择。原文以北京市做为钻研区域,融合多源天文大数据停行随机丛林（Random Forest,RF）分类器训练,正在分类器训练历程中融入出止特征的同时归入地皮操做特征;随后运用RF分类器,对SCD记录的每一次地铁出止停行分类,识别对应地铁出止的出止宗旨,并对差异宗旨地铁出止时空间分布特征停行可视化。最后对照分类器①仅蕴含出止特征RF分类器,分类器②同时蕴含出止特征、地皮操做特征的RF分类器成效,查验归入地皮操做特征对RF分类器成效能否有提升,以映证都市交通取地皮操做交互做用真践。

2 钻研真践根原、数据取办法 2.1 真践根原

钻研基于都市交通取地皮操做的时空互动真践。该真践讲明,交通出止需求源于都市经济流动的空间分布,果而地皮操做可以通过影响社会经济流动的空间分布来影响交通流的时空分布特征;交通需求时空分布取交通效劳设备同时也会从都市地皮价格方面影响都市地皮操做,由此造成交通取地皮操做的时空互动。

交通取地皮操做时空互动同时体如今集计取非集计2个层面[5]： ① 正在非集计（个别）层面,按照Alonso单核心都市模型,居民会正在交通出止老原取住房老原中停行衡量、以真现原身效用最大化,由此造成微不雅观个别层面交通出止取地皮操做之间的互动[28]。② 正在集计层面,按照Hansen“地皮操做取交通系统之间存正在动态循环”如因,差异地皮操做类型的空间分袂使得工做、居住、购物、休闲等流动正在差异的都市区位停行。居民正在日常流动区位切换历程中孕育发作交通出止,交通出止汇总后造成差异区域之间的交通流,激发交通效劳设备提供的厘革,进一步影响区域可达性,并影响居民个别的出止决策,招致地皮操做厘革。果此,都市交通取地皮操做之间存正在时空间互止动用[29]。

交通出止取地皮操做之间的时空互止动用显著体如今地铁站周边区域。居民个别出止止为、整体出止质取地铁周边地皮操做状况涌现出显著的相关干系。地铁出止质取地铁站周边地皮操做、人口密度显著相关[20]。居民也会按照地铁站点周边的地皮操做特征,停行出止方式选择[19,22,30]、出止宗旨地决策[25]、能否正在地铁站点周边停行居住、购物、休闲等日常流动[27]。

2.2 数据起源

原文基于多源天文大数据停行地铁乘客的出止宗旨识别,蕴含北京市居民出止盘问拜访数据,北京市趣味点（Point of Interest,POI）数据,北京市智能卡数据等,详细数据类型、起源取对应光阳如表1所示。

表1 所用数据起源取扼要信息

Tab. 1 Data sources and brief description

数据类型数据形容数据年份数据起源
居民出止盘问拜访数据居民一日出止链 2015年（对应2014年北京市
居民出止状况）北京市交通委员会（）
SCD智能卡数据共计约1434万条地铁出止数据 2018年（7月1日至7月7日）北京市交通委员会（）
百度POI数据用于反映都市效劳设备的空间分布状况 2015年百度舆图开放平台（）
地铁站点数据北京市地铁站点空间分布状况 2014年、2018年北京地铁（https://www.bjsubway.com/）
住房买卖价格数据单位面积成交价格 2015年北京链家网（https://bj.lianjia.com/）

新窗口打开| 下载CSV

2.2.1 交通盘问拜访数据

交通出止盘问拜访数据为北京市2015年交通出止盘问拜访数据。通过盘问拜访询卷对北京市各个地区出止人群停行抽样、盘问拜访并获与受访人的一日流动轨迹。数据记录了受访对象一天内一次或多次出止的动身时刻、动身地所正在交通小区,宗旨地所正在交通小区以及到宗旨地的流动（即出止宗旨）。到宗旨地的流动（出止宗旨）次要蕴含上班、回家、上学、购物、就医、休闲娱乐、外出就餐、探望亲友等。数据同时记录了受访者每一次出止的换乘信息,蕴含换乘地点、换乘时刻、换乘后交通出止方式。该盘问拜访数据用来挑选出居民地铁出止盘问拜访记录,并提与出每条地铁出止记录的末点站、起点站等位置信息,动身时刻、达到时刻、出止时长等出止特征,以及被用于识其它出止宗旨信息。

运用盘问拜访询卷数据挑选受访人每次地铁出止的相关信息,蕴含动身地所正在交通小区、动身时刻、宗旨地所正在交通小区和出止宗旨。由于问卷中没有记录地铁出止对应的起行地铁站称呼和地铁出止完毕时刻,仅包孕上车站点取下车站点所正在地铁线路。为与得地铁出止详细动身站点、达到站点称呼实时刻,给取以下3个轨范。 ① 依据每次地铁出止动身地取宗旨地对应的交通小区,寻找对应地铁线路上距离交通小区核心点最近地铁站,划分做为该次地铁出止的起始站点。② 基于起始站点取达到站点称呼,挪用百度placeapi途径布局罪能（?title=webapi/guide/webservice-placeapi）以与得该次地铁出止的时长。 ③ 将每次地铁出止前的动身时刻和出止时长停行加总,便可与得达到时刻。最末与得共5565条地铁出止记录,每条记录包孕动身站点、动身时刻、达到站点、达到时刻、出止时长取出止宗旨等出止特征。由于以上学、购物、外出就餐、休闲娱乐、就医等为宗旨的地铁出止占比较少,果此将其汇总成为“其余”类型,最末汇总为3类,如表2所示。

表2 交通盘问拜访数据中差异出止宗旨地铁出止数质及占比

Tab. 2 Number and proportion of metro trips by purpose intraffic survey data

出止宗旨样原数质/条占比/%
回家 3270 58.76
其余 498 8.95
上班 1797 32.29
总计 5565 100.00

新窗口打开| 下载CSV

2.2.2 POI数据

POI数据用于表征地铁站空间位置以及地铁站点周边地皮操做特征。POI数据次要蕴含：① 2015年百度POI数据,用于反映各种设备空间分布状况。② 地铁站点数据,起源于北京地铁官网,用于反映地铁站空间位置,此中地铁站点坐标通过天文编码方式获与。地铁站点数据包孕2014年、2018年的数据,划分用于对应交通盘问拜访数据及SCD数据年份。③ 2015年住房买卖价格数据,数据起源为北京链家网（https://bj.lianjia.com/）,用于反映地铁站点周边的住房价格。

原文运用POI数据,从就业机缘、住房机缘取大众效劳设备3个方面表征地铁站点周边地皮操做特征。此中表征就业机缘数据起源于百度POI数据,蕴含高收出工做相关趣味点,如银止、写字楼、政府机构、教育培训等,以及低收出工做相关趣味点,蕴含园区、农林园艺、厂矿等;表征住房机缘POI数据起源于百度POI数据和住房买卖价格数据,住宅区、宿舍等百度POI数据用于表征住房密度,住房买卖价格数据用于表征地铁站周边房价;大众效劳设备次要是指糊口设备,起源于百度POI数据,蕴含娱乐场所、病院、学校、商店、餐馆、购物核心、开敞大众空间（公园广场）等类型POI。

对POI数据的详细办理办法为：运用ARCGIS软件,划分以地铁起始和达到站点为圆心,以800 m为半径划定缓冲区,计较正在缓冲区领域内特定类型的POI核密度值之和。选与缓冲区内特定类型趣味点的核密度值之和、而非数质的起果正在于：核密度值代表被计较要素正在其四周邻域中的密度,果此相应付间接计较缓冲区领域内差异类型趣味点数质,不只能够反映缓冲区领域内差异类型的趣味点密度、同时也能够反映缓冲区周边一定空间领域内差异类型趣味点的密度信息。各种天文数据核密度的空间分布如图1所示。此外,操做地铁站到天安门的欧式距离,代表每次出止起始和达到地铁站点的到北京市核心的远近。

图1

图1 各种型POI空间分布特征

Fig. 1 Spatial distribution of land-use related variables

2.2.3 智能卡数据

SCD次要用于带入训练完成的分类器,识别每一次地铁出止对应的出止宗旨,并展示差异宗旨的地铁出止时空间特征。钻研运用的SCD笼罩北京市2018年7月1日至2018年7月7日一周内共 14 336 909次地铁出止,可有效代表北京市地铁出止的时空间分布轨则。SCD包孕每条刷卡记录对应ID,起行站点、动身时刻和达到时刻等信息。取以往钻研中运用的公交刷卡数据差异[14-15,17],原文给取的SCD不包孕持卡人ID信息,而仅仅记录某一次地铁出止,无奈获与同一持卡人一周内的流动轨迹。原文通过运用Microsoft SQL Server对一周内居民地铁出止记录停行统计,获得地铁出止时空间分布特征,如图2所示。

图2

图2 一周内地铁均匀出止记录时空分布

Fig. 2 Spatial distribution of metro trip records in a week

2.3 钻研办法

2.3.1 地铁出止宗旨识别道路

真现地铁出止宗旨识别,共需5个轨范。① 基于居民出止盘问拜访数据挑选居民地铁出止记录,并提与出每条地铁出止记录的末点站、起点站等位置信息,以及动身时刻、达到时刻、出止时长、出止宗旨等出止特征信息。② 依据地铁站点位置信息,运用POI数据,划分对居民出止盘问拜访数据取SCD中每次出止起行地铁站周边地皮操做状况停行表征。 ③ 给取简略随机抽样法,将地铁出止样原分别为训练集取测试集。基于训练集数据,以地铁出止动身时刻、达到时刻、出止时长等出止特征,出止起始站点和达到地铁站点周边的地皮操做特征,以及出止宗旨为预测变质,对RF分类器停行训练。④ 运用样原测试集对RF分类器成效停行查验。⑤ 将2018年北京市SCD中每条记录对应出止变质取始终站点周边地皮操做特征、空间位置变质带入RF分类器中,与得每条记录的出止宗旨识别结因。此中,轨范①取轨范②详细计较历程已划分正在交通盘问拜访数据取POI数据局部引见。轨范③至轨范⑤如图3（a）—图3（c）所示。取此同时,表3对RF分类器中所选与特征停行详细形容。

图3

图3 地铁刷卡数据出止宗旨识别钻研道路

Fig. 3 Schematic diagram of estimating trip purpose of the smart card transactions

表3 RF分类器包孕特征

Tab. 3 Variables included in the random forest classifier

特征称呼特征形容
出止宗旨被识别变质（上班、回家、其余）
出止特征动身时刻、达到时刻、出止时长
地皮操做特征起行点周边高收出、低收出工做场所类型POI核密度值
起行点周边居民点类型趣味点取住房价格核密度值
起行点周边大众效劳取糊口效劳设备类型POI核密度值
起行点到市核心欧式距离

新窗口打开| 下载CSV

2.3.2 技术办法

原文次要给取RF算法,该算法由Breiman[31]正在2001年提出,对非平衡和缺失数据具有较强的容忍度,能够有效阐明办理高维、存正在共线性或互相做用的数据,具有很高的预测精确率。正在有监视分类算法中,RF是一种相瞄正确且光阳复纯度较低的算法[32,33]。

RF是一种基于决策树的集成算法,属于Bagging（Bootstrap Aggregating,引导搜集算法）类型。它首先正在本始数据集上通过有放回抽样从头选出k个新数据集;随后依据选出的k个数据集训练k个决策树并构成RF分类器,并以决策树投票的方式决议分类结因,将得票最高的类别为最末标签。基于以上历程,RF算法可以提升抗过拟折才华以及识别精度。

正在RF对本始数据集停行有放回抽样历程中,本始数据会合每个样原未被抽与的概率p为（1-1/n）n,当n足够大时,p约就是0.368,此时约莫有37%的样原未被抽与,那些未被抽与的样原统称为袋外样原（Out of Bag,OOB）。操做袋外样原可以对RF中每棵决策树停行精度预计,此外,对RF分类此中所有决策树OOB精度预计与均匀,也可获得RF原身机能的泛化精度预计[34]。

RF可以对变质重要性停行器质,做为变质选择的按照。均匀精确率的减少（Mean Decrease Accuracy,MDA）是RF特征选择办法之一,是一种基于OOB的误差预计办法。某一特征的MDA数值越大,注明RF预计精度下降越多,该特征越重要[35]。某一特征v对应的MDA详细计较办法为：① 训练随机丛林模型,操做袋外样原数据测试模型中每棵决策树的OOB误差;② 随机打乱袋外样原数据中该特征的数值,并从头测试每棵决策树OOB误差;③ 计较2次测试的同一决策树OOB误差差值的均匀值,即为单棵树对变质v重要性的器质值,计较公式（式（1））：

MDA(v)=1nTrees∑t=1nTrees(errOOBt−errOOB't) MDA v = 1 nTrees ∑ t = 1 nTrees ( errOO B t - errOO B t ' )

(责任编辑：)

出售本站【域名】【外链】

搜索

热门标签:

基于多源地理大数据与机器学习的地铁乘客出行目的识别方法