网志好读版:https://ftt.tw/Zwypd
回顾
上一篇和大家介绍政府公开资料的捷运分时资料,
并将各站点周一到周日各小时的人流资讯透过热图(heatmap)来呈现,
并拿旅次辆前三名的台北车站、西门、市政府以及比较特别的动物园站来做说明。
可以发现有些站点的人流模式相似、有些却差距甚大。
那么有没有方法可以透过这些人流变化的资料将站点做分类?
这一篇将使用K-means Clustering来替全部108个站点的进、出站的人流资料做分类。
https://imgur.com/2SQLXcd
K-means Clustering
K-means Clustering (K平均算法),是属于非监督式机器学习的一种算法。
它可以替一组资料做快速分类(可以参考wiki或这里)。
以我们的例子来说,可以替我们将108站的捷运的人流资料依照变化模式分成不同的类别
本篇将会以下面的流程来操作:
1. 将108个站点的进站人流分成4个类别(ex:进站分类0,1,2,3)
2. 将108个站点的出站人流分成4个类别(ex:出站分类0,1,2,3)
3. 依照各站的进、出站类别进行分类,产生最终的站点分类(ex: 0_0,1_2…),再给予新
的代号(A,B,C)
https://imgur.com/YZcf7XZ
分类结果
进站
由于台北捷运各站点人流的实际数值差距甚大(台北车站每日30多万人 vs 动物园1.4万人),
所以进行K-means分析前先将全部人流资料进行标准化(min max normalization),故
以下流量值为各站对各站最大值的比例,非实际数值。
先从进站来看,蓝色实线是每个分类(cluster)内,站点的人流平均变化;淡灰色是该分
类全部站点。
https://imgur.com/rTfodlM
如上图所示,分类1(右上)平日尖峰出现在上班时刻,其他时段包含假日皆少于0.4;
分类3(右下)则是相反的类型,平日高峰出现在下班时间,其他时间包含假日皆少于0.4。
分类0(左上)的平日尖峰出现在下班时间,同时上班时间也有超过0.5的水准(1.0 vs 0.5)
假日的尖峰出现在下午时段,达0.7左右;
分类2(左下)相较于分类0(左上),高峰较为平均的出现在上下班时间(1 vs 0.7),
但是假日人潮相对较少,最高约0.5左右,但仍高于分类1(右上)和分类3(右下)。
进站的分类结果如下:
https://imgur.com/3YdZZGa
https://imgur.com/byd4pfs
https://imgur.com/sRE24tu
https://imgur.com/X0QBDLn
0: 上下班尖峰+假日,包含西门、台北车站、忠孝新生、忠孝复兴、忠孝敦化、
国父纪念馆、市政府、松山机场、剑南路、公馆、台电大楼、中正纪念堂、
中山、古亭、东门、大安森林公园、双连、剑潭、士林及新北投共20站。
1: 上班尖峰 ,包含顶埔、永宁、土城、海山、亚东医院、府中、新埔、
江子翠、木栅、万芳社区、万芳医院、辛亥、麟光、文德、内湖、大湖公园、
葫洲、东湖、新店、新店区公所、七张、小碧潭、万隆、南势角、景安、
永安市场、顶溪、台北桥、菜寮、三重、头前庄、新庄、丹凤、回龙、
三重国小、三和国中、徐汇中学、三民高中、芦洲、明德、唭哩岸、
北投、复兴岗、竹围及红树林等45站。
2: 上下班尖峰 ,包含板桥、龙山寺、永春、后山埤、南港、南港展览馆、
动物园、六张犁、科技大楼、大直、大坪林、景美、松山、大桥头、辅大、
圆山、芝山、石牌、奇岩、忠义、关渡、淡水共22个站。
3: 下班尖峰,包含善导寺、昆阳、中山国中、西湖、港墘、南港软件园区、
小南门、北门、南京复兴、台北小巨蛋、南京三民、松江南京、行天宫、
中山国小、民权西路、先啬宫、象山、台北101/世贸、信义安和、大安、
台大医院等21个站点。
若将分类结果呈现于地图上,
可以发现进站人潮出现在平日上下班和假日(进站上下班+假日,分类0)
的站点全部位于台北市且主要集中在台北市中心区,
包含板南线西门站往市政府站的大部分站点;
松山新店线从公馆站到中山站大部分站点;
淡水信义线在本类站点包含大安、东门、剑潭、士林及新北投;
文湖线有剑南路及松山机场2站。
https://imgur.com/WjcA4sn
进站人潮出现在下班时刻(进站下班尖峰,分类3)的站点,如下图右所示,
主要出现在台北市区内、板南线以外的大部分站点,
以及文湖线的港干、溪湖及南港软件园区3站;
中和芦洲线的先啬宫站是本类别唯一出现在新北市的站点。
进站人潮出现在上班时刻(进站上班尖峰,分类1)的站点,如下图中所示,
主要分布在离市中心较远的地区,淡水信义线出现在明德站以北;
中和芦洲线出现在台北桥站以西、顶溪站以南;
板南线出现在江子翠以西;
文湖线出现在麟光站以南以及文德站到东湖站等5站之间。
https://imgur.com/kiRInKR
https://imgur.com/v3ZMfvq
https://imgur.com/kLjtWET
属于上下班时段皆出现人潮的站点倾向于出现在前2类(上班尖峰及下班尖峰)
的交界区域,如上图左所示,大桥头、龙山寺、科技大楼及六张犁属于此类;
或是出现于终点站,如淡水、松山、动物园;
或是其他类型,
如辅大站、板桥站、圆山站、大直站以及芝山站以北的5站,整体上来看较无明显的脉络。
出站
出站的部分,如下图所示,
分类1(右上)和分类2(左下)为相对的两种类型,
一个尖峰时间出现在下班时刻(分类1),
一个在上班时刻,比较不一样的是在假日的部分,
高峰出现在下班时刻的分类1在假日的下午仍有一段高峰出现(约0.5),
而高峰出现在上班时刻的分类2在假日只有在中午有稍微热络一些(约0.3)。
分类0(左上)和分类3(右下)在平日的上下班皆出现高峰,
分类0最大值在下班时刻,上班时刻约为0.6、假日最高约0.5~0.6;
分类3在平日的高峰更平均的分配在上下班时间,
假日的部分最高超过0.6,比分类0更为热络。
https://imgur.com/sD1wTvU
出站类型结果如下:
0:上下班尖峰, 包含顶埔、永宁、板桥、龙山寺、永春、后山埤、南港、木栅、
六张犁、大直、文德、新店、七张、大坪林、景美、台电大楼、松山、大桥头、
三重、头前庄、辅大、剑潭、芝山、明德、石牌、唭哩岸、北投、复兴岗、
红树林及淡水等30个点。
1: 下班尖峰,包含土城、海山、亚东医院、府中、新埔、江子翠、万芳社区、
万芳医院、辛亥、麟光、内湖、大湖公园、葫洲、东湖、新店区公所、小碧潭、
万隆、南势角、景安、永安市场、顶溪、台北桥、菜寮、新庄、丹凤、回龙、
三重国小、三和国中、徐汇中学、三民高中、芦洲及竹围等32个站。
2: 上班尖峰 ,包含善导寺、国父纪念馆、市政府、昆阳、南港展览馆、
科技大楼、中山国中、西湖、港墘、南港软件园区、中正纪念堂、小南门、
北门、南京复兴、台北小巨蛋、南京三民、松江南京、行天宫、中山国小、
民权西路、先啬宫、象山、台北101/世贸、信义安和、大安、台大医院、
双连、奇岩、忠义及关渡共30个站点。
3: 上下班尖峰+假日 ,包含西门、台北车站、忠孝新生、忠孝复兴、
忠孝敦化、动物园、松山机场、剑南路、公馆、中山、古亭、东门、
大安森林公园、圆山、士林、新北投等16个站。
https://imgur.com/ufDzRvd
https://imgur.com/vHBj96q
https://imgur.com/2KPAGcY
https://imgur.com/dZ6Ld7l
若将分类结果呈现于地图上,
可以发现出站人潮出现在平日上下班和假日(出站上下班+假日,分类3)
的站点全部位于台北市。
主要出现在市中心区域,市区北侧的站点有圆山、士林、及新北投3站;
文湖线有松山机场及剑南路2站;市区南侧有公馆站及动物园2站。
https://imgur.com/C0TTDkj
出站人潮出现在下班时刻(出站下班尖峰,分类1)的站点,如下图右所示,
主要出现在新北市,中和芦洲线出现在台北桥站以西、顶溪站以南;
板南线出现在江子翠站以南;松山新店线在万隆站以南;
文湖线出现在麟光站以南以及内湖到东湖之间的4站。
出站人潮出现在上班时刻(出站下班尖峰,分类2)的站点,如下图中所示,
主要集中出现在台北市区,北侧有关渡、忠义及奇岩3站;
文湖线有港干、西湖、南港软件园区及南港展览馆4站。
先啬宫站为本类唯一位在新北市的站点。
https://imgur.com/FTzPuvh
https://imgur.com/Tcj6Cn6
https://imgur.com/Oj6DAPz
上下班时段皆出现出站人潮的站点(上班尖峰及下班尖峰,分类0)位置如上图左所示,
如同进站的上下班尖峰,倾向于分布在市中心以外的地区,
此外单从捷运资料来看并无明显脉络可循。
汇整
最后将4种进站分类和4种出站分类两两结合后,产生的9种组合,
再依人流出现时间分成居住、工作以及假日休闲3个面向,结果如下表:
https://imgur.com/UZRJxsu
将各分类站点呈现于地图上:
https://imgur.com/vMVaH1Z
https://imgur.com/TtlqPQx
https://imgur.com/DDB7gFW
https://imgur.com/huHFPvP
#将石牌站修正为明德站(感谢Tudo11927指正)
https://imgur.com/gHHKhrC
https://imgur.com/1RbnZFa
https://imgur.com/NbLHNy6
https://imgur.com/RdhWIjz
https://imgur.com/djq1LF0
关于"D类变形"
由"上下班尖峰"以及"上下班尖峰+假日"组合成的G类及H类的车站共有4站,
分别为动物园、圆山、剑潭及台电大楼。
先来看H类的台电大楼及剑潭2站,
下面将人流变化以热图及折线图2种方式来呈现(下图左、中),
并和D类的西门站(下图右)做比较:
https://imgur.com/5zjHh9V
https://imgur.com/oNhcvW7
https://imgur.com/z0QRDfA
可以发现2站在假日的进出人流皆高于该分类平均水准,
剑潭站甚至为最大值。若将该2站与属于D类的站点做比较,
可以发现其人流变化其实是相似的,热门时段同样出现在上下班时间,
且假日也有一定的人流。
再来看G类的动物园及圆山:
https://imgur.com/A1PQ22V
https://imgur.com/wz7Ypoc
可以发现圆山站的模式与D类站点也是类似的;但是动物园却整个长歪。
小结
本篇将各捷运站点的分时人流资料切成进、出站2类,
并透过K-means Clustering将这2类资料各分成4个分类,
最后再将各站点的进、出站分类两两组合后,共产生9种分类,
而这9种分类可以进一步归纳为工作、居住以及假日休闲3种面相。
不过在观察各分类站点的人流变化后发现,
G类及H类站点中的台电大楼、剑潭以及圆山,其人流变化与D类其实是相似的,
故将其归纳为D类的变形;而动物园则是在台北捷运108站中,
真正与众不同(歪掉)的类型。
9种分类分布图:
https://imgur.com/xI6rShR
作者: lina7inverse (杉森‧费西佛) 2018-12-20 20:00:00
绝对不只是个推啊啊啊
动物园站本来就是为动物园而盖,会特别歪好像也是当然的事
作者:
hicker (救护车专载笑到腹肌抽筋)
2018-12-15 11:20:00不错的分析
作者:
Stan6003 (巨猩)
2018-12-15 11:34:00推
作者: ping0107 2018-12-15 11:41:00
推
作者:
hansopp (hanlock)
2018-12-15 12:29:00太强了 这是论文初稿吧
作者:
omkizo (陈武爱带你笑掌)
2018-12-15 12:53:00论文等级的东西……
作者: ghan (2月台列车往淡水) 2018-12-15 16:29:00
推
作者:
shter (飞梭之影)
2018-12-15 16:45:00南港跟南港展览馆是上下班尖峰,南软是下班尖峰!?永宁跟顶埔是居住大于工作,南港展览馆则是工作大于居住板南线的两端转乘站看起来模式不一样
推南港应该是台高铁的转乘人潮,才导致上班时间进站人数多
作者:
su31tak (su31tak)
2018-12-15 18:13:00推,太猛了
作者:
kewang (652公共汽车)
2018-12-15 20:00:00推论文!
作者:
shieldsky (Gray wolf)
2018-12-15 21:13:00好专业!方便请问是用什么程式去做分析的吗?
作者:
PHb787 (Patrick)
2018-12-15 22:48:00推专业分析
作者:
c3035281 (:::::>_<:::::)
2018-12-15 23:18:00居然在这边看到k-means哈哈哈
辅大是因为同时有当地人上下班&学生上下课两种反方向的运次吧动物园站也分的到一点点政大的运量(转236)
作者:
vollenca (vollenca)
2018-12-16 09:07:00大推专业分析文
作者:
heremattis (We Can Change the World)
2018-12-16 09:15:00专业分析文!
作者:
kenliu100 (æ¼¢å ¡æ˜¯æˆ‘æ˜¯æ¼¢å ¡åŒ…)
2018-12-16 11:24:00运输年会应该投稿了吧XD
作者: darice816 (Darice) 2018-12-16 22:13:00
三重站可能与机捷转乘比较相关(?)
作者: short0909 (短短短疼) 2018-12-17 01:29:00
推
作者:
hicker (救护车专载笑到腹肌抽筋)
2018-12-17 12:39:00研究的乐趣就在于无所为而为即便是自得其乐 也是乐趣
作者:
kutkin ( )
2018-12-17 15:38:00也不算机车 就不知道这应用性有些站会整天都有人因为他是捷运公共汽车转运
作者:
sbtiagr (星奇*天)
2018-12-18 23:24:00推 这个其实很有价值 可以理解台北的空间分布
动物园站本来就是为动物园而盖,会特别歪好像也是当然的事
作者:
hicker (救护车专载笑到腹肌抽筋)
2018-12-15 19:20:00不错的分析
作者:
Stan6003 (巨猩)
2018-12-15 19:34:00推
作者: ping0107 2018-12-15 19:41:00
推
作者:
hansopp (hanlock)
2018-12-15 20:29:00太强了 这是论文初稿吧
作者:
omkizo (陈武爱带你笑掌)
2018-12-15 20:53:00论文等级的东西……
作者: ghan (2月台列车往淡水) 2018-12-16 00:29:00
推
作者:
shter (飞梭之影)
2018-12-16 00:45:00南港跟南港展览馆是上下班尖峰,南软是下班尖峰!?永宁跟顶埔是居住大于工作,南港展览馆则是工作大于居住板南线的两端转乘站看起来模式不一样
推南港应该是台高铁的转乘人潮,才导致上班时间进站人数多
作者:
su31tak (su31tak)
2018-12-16 02:13:00推,太猛了
作者:
kewang (652公共汽车)
2018-12-16 04:00:00推论文!
作者:
shieldsky (Gray wolf)
2018-12-16 05:13:00好专业!方便请问是用什么程式去做分析的吗?
作者:
PHb787 (Patrick)
2018-12-16 06:48:00推专业分析
作者:
c3035281 (:::::>_<:::::)
2018-12-16 07:18:00居然在这边看到k-means哈哈哈
辅大是因为同时有当地人上下班&学生上下课两种反方向的运次吧动物园站也分的到一点点政大的运量(转236)
作者:
vollenca (vollenca)
2018-12-16 17:07:00大推专业分析文
作者:
heremattis (We Can Change the World)
2018-12-16 17:15:00专业分析文!
作者:
kenliu100 (æ¼¢å ¡æ˜¯æˆ‘æ˜¯æ¼¢å ¡åŒ…)
2018-12-16 19:24:00运输年会应该投稿了吧XD
作者: darice816 (Darice) 2018-12-17 06:13:00
三重站可能与机捷转乘比较相关(?)
作者: short0909 (短短短疼) 2018-12-17 09:29:00
推
作者:
hicker (救护车专载笑到腹肌抽筋)
2018-12-17 20:39:00研究的乐趣就在于无所为而为即便是自得其乐 也是乐趣
作者:
kutkin ( )
2018-12-17 23:38:00也不算机车 就不知道这应用性有些站会整天都有人因为他是捷运公共汽车转运
作者:
sbtiagr (星奇*天)
2018-12-19 07:24:00推 这个其实很有价值 可以理解台北的空间分布
作者: lina7inverse (杉森‧费西佛) 2018-12-21 04:00:00
绝对不只是个推啊啊啊