用数学模型预测交通,理性工具还是巨坑?
城市发展,修桥建路,离不开出行预测这一基本的决策工具。从70年前诞生至今,出行预测的发展见证了客观严谨的科学方法在指导交通规划方面的巨大成功。但本文作者认为,出行预测既是科学问题,也是政治问题。数学模型不应该、也不可能成为公共政策制定的唯一考量。拔高它的科学性不是解决问题的方案,而正是问题所在。
撰文 | 聂宇(美国西北大学)
● ● ●
用数学模型预测交通,理性工具还是巨坑?-凯发游戏
交通运输学界的前辈,david boyce 和 huw williams 都曾站在各自专业领域的巅峰,见证了出行预测的诞生和成长。他们在荣退之后,总结反思,以全球视野,禀史家笔法,伏案十余年写就《城市出行预测:历史现状未来》这本奇书(后文简称《出行史》)。
说《出行史》是一本奇书,是因为它兼收并蓄:既可作行业历史泛读,也是交通分析入门的精读教材。普通读者会从书中学到出行政策制订、规划实践的常识,也能找到满足好奇心的逸闻故实;专业人士则可通过此书整合知识体系,融会贯通,更上层楼。总结起来,《出行史》有三大特点:(一)对欧美出行预测发展史的比较分析;(二)兼顾出行系统分析中供给、需求两大分支;(三)持论公允,无夸张曲解,也不文过饰非。对应这三点,下文也分为三节。前两节讲历史,为出行预测立传,回顾模型的前世今生;第三节作批判,反思得失,展望未来。
1
出行预测发源于1950年代的美国。其时战后经济繁荣,大量来自南方农村的人口涌入城市。受新增人口冲击,部分城市居民开始搬离市中心,向郊区转移。郊区化浪潮引发的职住分离,给道路交通系统带来了巨大的升级压力。1956年,埃森豪威尔政府通过联邦公路援助法案,迎接机动化挑战,拉开了州际公路网建设的帷幕,一干就是二十多年。如此大规模的基础设施投资,很自然地催生了对规划的需求。简言之,需要修多少路,什么样的路,在哪里修,什么时候修?这些问题的提出让联邦和地方政府中的有识之士意识到,要做好公路网络规划的决策,首先要搞清楚居民的出行需求,以保证道路供给与之匹配。因为规划面向未来,所以仅知道现状出行需求还不够,还需根据现状对未来需求进行预测,这就是出行预测的发端。出行预测从那时起到今天,大致经历了三个发展阶段。
1953年,douglas j. carroll 牵头在底特律开展了首次大规模城市出行研究。他把底特律地区分为两百多个交通小区,以家访调查为基础预测未来进出小区的出行总量,并估算总量在各小区对之间的分布,生成通常所说的出行表(或出行矩阵)。出行表最终通过一个简单的步骤加载到路网之上,用于预测和评价不同规划方案对应的交通流量、旅行时间和服务水平。可以看到,底特律研究已经形成了后来大名鼎鼎的四步交通规划法的雏形,除了方式划分,其他的三步,出行生成、出行分布和交通分配都已正式登场。
底特律大功告成之后,carroll转战芝加哥,领导了出行预测史上最负盛名的地区交通研究。芝加哥研究第一次通过土地利用类型预测人均出行率,并正式考虑了公交在出行中的分担率,由此引入了方式划分的概念。人类历史上第一次用计算机大规模求解最短路算法大概也是芝加哥研究的创举,当时的芝加哥地区路网有多达2500个路段,对内存的要求逼近最新一代大型机(ibm704)的极限。
芝加哥研究之后,1960年代之初,美国公路局开始介入出行预测,总结实践经验,正式形成了由出行生成、出行分布、方式划分和交通分配四个顺序步骤组成的理论框架,并在随后的十年间开发了影响深远的出行预测计算程序包,从此成就了四步法一统江湖的地位。出行预测行业的奠基工作就此完成。
图1 出行预测模型框架(美国交通部,1972)
到上世纪70年代中期,随着美国州际公路网基本建成,多数大都市完成了中长期道路交通综合规划方案的制订,并通过都会规划组织的设立制度化,定期根据人口、就业趋势对方案更新。
美国人从政治动荡的60年代走出来,开始发现全民机动出行并非想象中的天堂。首先是路越多越堵。连接郊区和市中心的高速路加速了郊区化进程,结果是修路的速度赶不上通勤人口的增长。其次是汽车排放造成严重污染,雾霾酸雨在大城市成为家常便饭。再次,遍布的高速路侵占城市空间,割裂社区,少数族裔深受其害。最后,中东石油危机造成油价飞涨,开车成本猛增,成为压垮骆驼的最后一根稻草。
1977年,美国颁布《清洁空气法案》修正案,要求出行规划将空气质量目标纳入规划步骤。从那之后,出行规划的目标开始从单纯满足(机动)出行需求,转向如何对出行需求进行管理,包括限制驾车出行,鼓励使用更环保的方式等。而出行规划实践的重心也从编制长期方案转向各类短期交通需求管理项目,如共乘车道设置,拥堵收费,公交改善等。
这一时期,传统四步法仍然是出行预测实践中的绝对主力,但学界迎来了方法论上爆发式的创新,各类成果开始缓慢地向实践渗透转移。这些创新主要围绕对四步法的组合统一,增加模型现实性,以及以行为为核心的建模理念展开,开辟了组合出行模型、动态交通分配、离散选择及活动模型等几个大的领域,其影响绵延至今。
随着苏联解体和冷战结束,美国出行界在90年代初迎来两个重要的联邦法案:1990年的《清洁空气法案》和1991年的《冰茶法案》(注2)。前者第一次对出行预测的步骤做出了具体要求,包括考虑出行在一天内随时间变化的动态特性,以及四步法不同步骤间的反馈(即一致性)。后者提出了以提高道路设施运行效率为核心的治堵理念,并要求长期规划应满足《空气法案》的交通控制措施,并综合考虑交通投资决策对用地和经济发展的影响。联邦公路局随后发起了交通模型改进工程,正式启动对传统出行预测方法的系统改进。
除去各都会组织对它们手中出行模型的修修补补,这期间大量的尝试都围绕活动模型和动态交通分配两条技术路线展开,目标是通过应用微观仿真技术提升出行预测中的行为和物理现实性,形成支撑短期甚至实时需求管理决策的能力,为打造 “智能交通系统” 服务。
遗憾的是,理想很丰满,现实很骨感。时至今日,能在出行预测中经常使用活动模型和动态交通分配的都会组织依然寥寥无几,真正唱主角的仍是早就被喷得体无完肤,打着各色补丁的四步法。也许一线规划师和他们的主管一样,习惯了萧规曹随,不自觉地抵抗新生事物。但是,使用这些新技术对数据收集、计算资源和分析能力提出的要求,确非一般都会组织所能满足。而它们在实践中体现出的真正价值,即对决策能力和预测准确度的提升,又跟它们高昂的价格背离。
这个时期出行领域细分趋势明显,本该互通有无、协同共进的技术路线经常处于并行的状态,多数研究者和规划师满足于在自己的一亩三分地里深耕,成为真正的 “专家”。某种意义上,这是一个领域范式成熟的表征。但三十年如白驹过隙,而创新在实践中的应用始终乏善可陈,或许是旧范式已成桎梏、新范式的创立当提上日程之征兆。
图3 1991年美国国会《冰茶法案》(istea)
2
数学模型是出行预测的灵魂,也是它科学性的基础。什么是数学模型呢?简言之,模型是真实世界的镜像,它通过合理简化,把研究对象用抽象的数学符号和公式系统来表达,帮助决策者发现基本变量间的相互关系,掌握其演化的基本规律,并以此为据建立决策支撑体系。
carroll的最初工作其实就是把一个复杂的决策问题——即如何规划路网以满足远景出行需求—抽象并转化为数学模型。他的模型有两个基本组件:分割为交通小区的路网(供给),需要出行的居民(需求)。carroll的初衷是量化各种道路规划方案在未来对机动车出行服务水平的影响。为此,首先要估算小区内居民在工作日的出行次数,即出行生成。其次,出行总量在各小区对间如何分布,即出行分布。再次,各种方式(驾车、公交等)如何分担各小区之间的出行量,即方式划分。最后,小区出行量加载到道路网上以估算服务水平(旅行时间),即交通分配。四步法虽然很快就因为简单实用被广泛接受,但作为严谨的数学模型,它有几个很大的漏洞。
首先,生成出行的思路非常粗糙:先通过调查把出行量跟解释变量(如用地方案,人口等)或家庭特征(如拥车量,收入,人口结构等)关联,然后以统计关系为基础,把对解释变量的预测转化为出行总量的预测。这里的问题是从调查数据中回归出来的统计关系只代表相关性,且在n年后未必适用。另外,有些变量(如用地方案)与出行有显著的相互影响,但仍被当作外生变量单独预测。
其二,出行分布和方式划分在顺序上位于交通分配之前,但却依赖于交通分配生成的服务水平指标作为输入。因此,顺序四步法存在自相矛盾,即用于确定出行分布和方式划分的服务水平偏离交通分配产生的服务水平。
其三,交通分配的基本假设是司机会选择路网中最短(快)的路线。然而,随着交通量上升,道路会产生拥堵,增加旅行时间,原来的最短路不再最短。carroll意识到一部分司机会不断换到其他路线以规避拥堵,但是没有讨论这个过程是否存在收敛点(即均衡态),以及如何计算收敛点。
其四,完全无视出行的动态特性。出行量瞬间加载到路网上,由提前标定的多项式函数转化为旅行时间。这造成拥堵效应固化到路段,无法复制真实网络里的传播效应。更重要的是,任何与日程安排(例如出发时间)相关的出行决策都只能抛弃。
所谓不满是向上的车轮。这些缺陷成为创新的源泉,其巨大推力在1960年代开始在学术界显现。
首先讨论均衡问题,是因为它的提出早于carroll的芝加哥研究。这个理论上的重大突破,要归功于50年代从战后的德国漂洋过海,来到芝加哥大学做博后的经济学家 martin beckmann。
对选路均衡的描述可以追溯到1920年英国经济学家 arthur pigou 发表的《福利经济学》以及1952年 george wardrop 提出的wardrop 均衡态:均衡态被定义为 “无人能通过改变行驶路线降低旅行时间” 的状态(注3)。beckmann与两位合作者于1956年发表《交通经济学研究》,率先构造了均衡网络交通分配的非线性数学规划模型,并证明它的最优解即wardrop 均衡。通过求解beckmann模型,即可获得四步法中最后一步的精确解。后来的研究者发现,以beckmann模型作为基础,也可以推导出组合模型,把四步法中的后三步合为一体。然而,命运虽然在同一时间把carroll和beckmann安排到同一座城市,但却让他们擦肩而过。这两位分别为出行预测的实践和理论奠基的大神似乎对彼此的工作一无所知,错失了携手发展的良机,实为出行界一大憾事。《交通经济学研究》虽有后来的诺奖得主 tjalling koopmans 作序背书,但影响甚微,很快湮没无闻,beckmann当时也完全没意识到,自己博后出站写本书,居然开辟了一个新领域。
就实用性来说,beckmann模型的致命伤是没有能在实际网络上对它求解的算法。冥冥之中似有天意,凿开这块璞玉的工具在《交通经济学研究》发表的同一年,已经被两位应用数学家marguerite frank 和 philip wolfe 锻造完毕。不过出行领域要等到70年代初,才会由蒙特利尔大学的 michael florian 和西北大学的 larry leblanc 分别独立发现,本来为二次规划问题设计的frank-wolfe算法,竟是求解均衡模型的大杀器。也大约在那个时候,beckmann的工作通过他在布朗大学的同事,希腊裔应用数学家 stella dafermos 等一干学者,被出行领域重新发现,奉为经典。直到现在,有frank-wolfe算法加持的网络均衡模型,仍是出行预测领域应用最广、研究最透、粉丝最多的理论。
模型一体化的最初尝试是土地利用交通一体化。顾名思义,它认为交通规划须和区域土地使用综合考虑,一方面让出行生成直接与土地类型关联,另一方面允许道路设施规划影响土地使用政策,包括工作、零售、居住用地的选址问题。在这一领域,ira lowry 的城市土地利用模型是60年代最出风头的理论工作,而应用方面,则当首推以费城为中心的宾州-新泽西交通研究。然而,用地交通模型在实践中表现很不给力,到70年代便开始遭到猛烈批评,其中言辞最彪悍的,是伯克利年轻气盛的助理教授 douglas j. lee 写的《大模型的安魂曲》。
对模型一体化贡献最大的也许要数英国的应用数学家 allan wilson。他发现出行分布的重力模型与熵函数最大化问题(即找出可能性最大的出行模式)是等价的。由此生发,wilson意识到最大熵模型不仅可用于统一四步法中的出行分布、方式划分和交通分配,而且与分层多项logit模型一致。这一思路很快成为出行模型一体化的范式,在70年代先后出现了瑞典的 suzanne evans 的出行分布-交通分布组合模型,宾州大学 tony smith 用人类空间交互行为原则对最大熵模型的重新解读,以及当时也在宾州大学任教的 david boyce(《出行史》第一作者)对统一evans组合模型和城市选址问题的尝试。到90年代 norbert oppenheim 发表《城市交通需求建模》,完整阐述了最大熵组合模型与随机效用出行选择模型之间的关系,为这一系列工作之集大成者。
最大熵法虽然名噪一时,从者甚众(boyce就对其颇为偏爱和推重),但它以统计物理来解释出行现象的做法一直为人诟病。批评者认为它缺乏跟出行行为直接关联的 “第一性” 原理,仅以最大似然率搜寻统计规律,难以具备真正的预测力。
解决这个 “第一性” 问题的,是2000年诺奖得主,美国经济学家 daniel mcfadden。mcfadden以个体行为作为预测的对象,用随机效用最大化理论来对它建模。有了这个微观基础。从方式到终点,从路线到出发时间,复杂的宏观出行现象可以用一系列互相关联的离散选择来描述。“理性经济人”(homo economicus)会选择效用最大的出行组合,而不同组合被选中的概率则反应了个体偏好和未知属性的影响。通过这个理论,预测以行为作媒介来进行;而政策或者规划方案的效果,也根据它们对出行组合属性的影响来判断。在70年代初期,mcfadden以较小的调查样本,用离散选择模型正确预测了旧金山湾区捷运系统(bart)的分担率,完败官方的预测,一战成名,奠定了微观行为模型与传统四步法分庭抗礼的局面(注4)。离散选择模型从此进入快速发展时代,不仅在出行领域独占鳌头,也成为计量经济学最重要的理论工具之一。在很短的时间内,这股浪潮先后催生了解决选项相关性的嵌套logit结构,包罗万象的广义极值模型,以及微观仿真方法。一大批后来声名赫赫的学者,包括美国的moshe ben-akiva,charles manski, frank koppelman和ken small, 英国的huw williams(《出行史》第二作者)和 andrew daly,都是在这个时期脱颖而出的。
从70年代末开始,“行为第一性” 的倡导者们进一步朔本清源,认为出行更合理的行为基础是个体和家庭的活动。根据这个理念,出行本身是人类活动的派生需求,因此搞清楚个体活动的规律,预测出行自然顺理成章。活动模型不再满足于预测单次出行,而是预测个人甚至家庭整天的活动日程安排,以及链接活动的出行环。由于预测对象维度的扩展,以及家庭活动的种类、动机和约束的多样性,活动模型的复杂度和对数据、计算能力的要求呈指数上升,在一定程度上影响了实用性。到后来,理性经济人假设本身,即个人选择动机是追求效用最大化,也开始受到质疑。这一派的代表人物是心理学家、诺奖得主 daniel kahneman。在发表于2011年的畅销书《快思慢想》中,kahneman梳理了人类决策中认知偏差和非理性的来源,并讨论了可以替换 “效用最大化” 的决策框架,包括在70年代末提出,到2000年以后被引入出行领域的前景理论。
出行决策最终形成路上的车流,而道路服务水平(即旅行时间)则跟车流大小缓急的物理特征相关。lighthill and witham 最初提出车流在路上的运动与河水在河道里的运动类似,可以用流体力学里的一维守恒律来描述;这是出行领域交通流理论分支的发端。很巧,它和beckmann的《交通经济学研究》以及 frank-wolfe 算法一样,都发表于1956年。
也在这一年,出行领域另一位大名鼎鼎的人物,物理学家 robert herman 加入了通用汽车实验室,主管基础科学。在通用实验室,herman从司机行为入手研究交通流特性,提出了跟驰模型,并用实验验证标定。他不仅为后来的微观交通仿真和动态交通分配夯实了科学基础,更开风气之先,通过创办《交通科学》杂志和《运输和交通流理论论坛》(注5),促进了出行领域各分支学科的交流、融合和发展。
交通流领域的另外一位顶尖学者,伯克利的 gordon newell, 也是物理学家出身。和herman从微观行为着眼不同,newell更钟爱以流体力学和排队论为基础的宏观理论。这两位先驱的学术理念传承至今,在动态交通分析领域形成了微观、宏观和中观仿真三大分支,其中最杰出的代表要数伯克利的 carlos daganzo 和我的同事 hani mahmassani。前者和newell一起简化并把lighthill-witham模型从单一路段推广到网络,奠定了它今天在动态交通分析中的主流地位;后者在80年代跟herman合作,以动态交通仿真扩展网络均衡概念,是动态交通分配领域的开创者之一。
最早把动态分析引入出行领域并跟经济学模型结合的是另一位诺奖得主william vickrey。他在1969年用排队论构造了优雅的瓶颈模型,以闭合形式描述早高峰拥堵形态与通勤者出发时间选择的关系,并提出用动态拥堵收费可以消除拥堵,提高效率。有意思的是,这篇把拥堵收费从静态扩展到动态的重要论文,在之后的十余年间在出行领域似乎无人知晓。直到80年代初,vickrey的通勤模型才被美国的 chris hendrickson,newell和daganzo以及英国的 mike smith 等人重新发现,并通过以 richard arnott 为首的一批经济学家的深耕,成为动态出行领域重要的分析工具。
早期出行模型的另一个缺陷是所谓的 “确定性假设”。批评者指出,实际出行系统的供需两端都经常受各种随机因素(如事故、异常天气、特殊事件)影响,相当不确定。最先提出和解决随机交通分配问题的大概是 robert dial,出行领域的算法设计天才。他1971的博士论文解释了logit随机分配原理并设计了高效算法stoch。到70年代中期,当时还在麻省理工任教的daganzo和 yosef sheffi,warren powell 等学者开始系统研究随机分配问题,到1985年sheffi发表他的名作《城市交通网络》之时,随机模型已经占到了全书四分之一的篇幅。在后来的日子里,随机性、可靠性和鲁棒性的重要性逐渐凸显,成长为对beckmann模型进行升级拓展的标配。
3
既然写书评,批评自是题中应有之义。但这里写的,并不是对《出行史》的批评,而是对出行预测领域本身的批评。《出行史》中对出行预测的批评占了大半章的篇幅(第11章),有心的读者请仔细把玩两位老先生的史笔。需要说明的是,本节中的批评虽有些方面与《出行史》重叠,但大多为个人观点。总结起来,我认为出行预测有五大问题,以下逐一辨析。
无法证伪的尴尬
预测未来出行需求是为了指导现在的行动,即交通或者用地规划。但现在的行动,包括修高速路、造地铁、收拥堵费等等,又会对需求形成扰动。所以曾任美国交通研究委员会主席的 martin wachs 认为,既然行动和预测互相影响,则以预测做为行动的出发点,逻辑上成了循环论证之困局(dilemma of circularity,注6)。
譬如为了连接郊区和市区而考虑扩建高速路。假定规划师预计20年后郊区每天去市区的通勤人数新增8000,按现状公交分担率,一半会选择常规公交,另一半选择开车。如果每条高速车道容纳2000辆车,则新增两条车道正好能够满足需求,不增加拥堵。20年后,发现通勤人数确实增加了8000,但公交分担率降到了25%,高速路堵得一塌糊涂。这能够说明规划师20年前的预测大错特错吗?亦或是扩建高速刺激了更多人购车,并且在习惯开车之后不愿再用公交了?还有一种场景,就是规划师推荐修轻轨,虽然花费多一倍,但可以增加公交分担率,吸收掉新增通勤人口。结果轻轨也许比高速路的吸引力更大,造成通勤人数增加到12000,轻轨不堪其负,挤不上轻轨的上班族也不甘心使用常规公交,依然驾车出行,高速路还是堵了。
循环论证的困境,决定了制定交通规划这样的公共政策无法拥有完全客观的 “正确性” 标准。在上面这个例子里,修高速或轻轨都与预测严重偏离。前者增加了驾车出行,使高速路更拥堵,而后者让更多的人搬到郊区,恶化了职住分离。哪一个决策错得更厉害呢?什么都不做会更好吗?政策制订者永远不会知道。现实中真正实施的只有一个方案,它错了,并不能证明它就是备选方案中错得最离谱的。实际上,一个与预测偏离严重的方案甚至也可能是最佳方案,虽然这个命题同样也无法证伪(not falsifiable)。
如果用哲学家 karl popper 的标准,不能证伪的出行预测是不能称为科学的。使用数学模型或许可以为它披上一件科学的外衣,但改变不了它无法证伪这个基本事实。
大胆假设的危机
新文化运动领袖胡适说做学问应该 “大胆假设,小心求证”。在出行预测上,大胆假设并不难,甚至没有它我们就寸步难行,但求证很多时候不是光靠小心就行的。
即使是最简单的预测,例如把某地区出行的历史趋势做外推,也需要先建立出行量和土地使用、拥车率、收入水平、人口等解释变量的统计关系,然后用它把解释变量的趋势转化为出行量的趋势。这里面至少需要四个隐含假设。首先,出行量和解释变量存在因果关系(causation)而非简单相关性(correlation);其次,未包含在模型里的因素对出行的影响可以忽略;其三,模型内嵌的因果关系在未来依然成立;最后;对解释变量本身变化趋势的独立预测是正确的。这四个假设里面没一个是好求证的。最后一个与出行本身无关,略过不表。分辨两个变量的关系是因果还是相关虽然理论可行,但技术门槛很高,还需要耐心和运气,实践中操作性并不强。关于那些被模型忽略掉的变量,最出名的是汽油价格。在出行预测的奠基阶段,油价因为长期维持在低位,且波动幅度不大,被模型直接忽略。到70年代石油危机惊醒梦中人,模型师们才发现原来油价也是会影响出行选择的。至于假定历史趋势会持续下去,只能算是愿景,没有任何理论依据。人们不愿意假设未来会偏离现有趋势可以理解。除了大多数人天生对剧烈变化的排斥(即风险规避),另一个原因是大幅偏离趋势的可能性是无穷多的,而每一个真正能实现的可能性远低于维持趋势的可能性。因此,大胆假设在出行预测中经常表现为保守主义。
对一个简单统计外推的假设求证就如此艰难,就不要说其他各种真正大胆的假设了。仅以上文提到的通勤问题为例。在经济学家眼里,这不过是个诱导需求(induced demand)问题,即增加出行供给会激发潜在需求,推动服务水平回到原来的平衡点。解决办法很简单,假设需求随供给根据某个函数关系变化,让模型通过供给水平来确定需求就行了。事实上,beckmann在50年代年做出世界上第一个网络均衡模型的时候,供需关系就已经是弹性的。这个办法看上去解决了诱导需求引发的逻辑自洽问题,但实践中却会让预测变得更复杂。这是因为需求不仅与供给有关,也与其他因素(如拥车率,人口)有关,并且受制于对它们做统计外推的各种假设。因此,增加一个供需函数解决不了存在的问题,反而让各种关系变得剪不断、理还乱,小心求证更无从说起。
有种观点认为,循环论证和大胆假设的由来,归根结底是简化模型的需要和缺乏第一性原理的驱动。在出行领域中,第一性原理来自物理规律(如交通流理论)或者行为准则(如效用最大化)。统计外推属于单纯从数据中寻找规律的归纳法(inductive method)。普遍的看法是,因为没有第一性原理(first principle)的加持,它无法获得演绎法(deductive method)那样的解释力和预测力。
如果这是病源,那药方自然是尽量用第一性原理把各种变量间复杂的关系表达出来,消除对外生条件的假设。比如,要解决诱导需求就把供需关系放到模型里;发现土地使用和出行相关,就构造土地使用-出行一体化模型;认识到出行是活动的衍生需求,那就转而预测活动而不是出行;而活动又依赖于家庭结构的长期演化,因此,不如干脆把找工作、买房子甚至结婚生孩子都一起预测了。反正所有人类活动都涉及某种选择,可以用经济人效用最大化原理轻松搞定。
这样层层加码的逻辑终点必然是一个异常复杂,包含无数关系,试图复制真实世界本身的 “超级模型”。某种意义上,这类似于物理学家的终极理想,即一个可以完全解释并预测宇宙万物演化的宏大理论。遗憾的是,这类超级模型制造的问题多半比它们解决的更多。撇开标定、计算复杂度、运行维护的挑战,海量变量之间复杂的相关性已经超出模型师可以控制甚至理解的范围。这是因为在模型中每加入一组新的相关性,它可能会跟已有变量产生二阶,甚至三阶的关联;上面提到供需关系和人口及拥车率的互动即是一例。在大模型里,这些关联可能是无法预见的,也可能根本就在现实世界中不存在。正如lee所说,“在模型中加入更多的组件给模型师带来一种幻觉,让他们觉得模型更完备,而不确定性降低了。但在实践中,每个新组件带来的未知因素都比已知的多。”(注7)在这样的情况下,如果超级模型输出结果与现实出现偏差,模型师几乎无法判断问题出在什么地方,它变成了真正的超级黑匣子。或许有人会说,这样跟机器学习殊途同归,不也挺好的嘛。但问题是,机器学习做出黑匣子是求仁得仁,而用演绎法做出一个黑匣子未免就南辕北辙了。
过度拟合的陷阱
过度拟合是预测模型的常见病,但在复杂出行模型中,这个问题尤其难缠。前面讲到,复杂模型由于内部关系太纠结,在模型输出与观察数据出现偏差的时候,很难从第一性原理出发去解决问题(如识别变量间尚未发现的因果关系,或者调整已知关系的函数形式)。这时候模型师通常会祭出标定这件法宝,即调整模型里某些参数,让输出与观察匹配。这种做法本来无可厚非,但问题是当模型里有成千上万的参数时,能够与观察相匹配的参数组合几乎是无限的。不夸张地说,哪怕观察的数据是在火星上收集的,模型也照样可以跟它凑上。
所以数学家 john von newmann 警告我们,“给我四个参数,我就可以凑出一头大象,再多给我一个,我还能让它摇鼻子呢。”(注8)凑出来的模型,不管跟观察数据吻合得多么完美,用于预测时都难免差之毫厘谬以千里。虽然机器学习本质上用的也是这套方法,但成功使用机器学习的领域,通常决策变量的维度较小且结构性较强(如识别问题),加上庞大的数据量对变量空间覆盖相对完整,使得它对过度拟合问题有较强的抵抗力。不幸的是,出行预测的输出变量通常维度很高,结构复杂,刻画系统特征的观测数据很难达到应用机器学习的要求。
说句题外话,过度拟合的陷阱并非出行领域独有。历史、政治、和经济学家们也经常掉进坑里,误把从有限事件(数据)里拟合出来的规律(模型)当做可以预见未来的水晶球。第一个拿诺贝尔经济学奖的美国人paul samuelson(哈佛大学前校长larry summers的叔叔),在1970年还写书预言苏联的gdp会在1990年到2000年间超过美国(注9)。这个时候离苏联土崩瓦解只有不到20年。著名政治学家 francis fukuyama(《文明的冲突》作者samuel huntington 的弟子)在苏联解体后写下《历史的终结》,宣称民主宪政是人类政治体制发展的终点。可惜他也跟《大话西游》里的紫霞仙子一样,猜中了开头,没有猜到结尾。40年之后,政治历史并未终结,威权政体并未消亡,倒是西方宪政民主,正在经历前所未有的危机和变局。 所以哈佛大学著名心理学家stephen pinker在《人性中的良善天使》(the better angels of our nature)中开玩笑说,“社会科学家绝不应该试图预测未来,预测过去已经够他们忙活了。”(注10)忠言逆耳利于行,出行领域或可以此为鉴。
图4 数学家 john von newmann
出行预测的本意是去除主观因素(如长官意志、政治干预)的影响, 以科学指导决策。但出行预测的服务对象是公共政策制订,而公共政策牵涉的社会各方,博弈关系错综复杂,它们之间的利益权衡并没有完全客观的评判标准。而前面提到的三大问题,即无法证伪、大胆假设和过度复杂,又为政治干预留出了巨大的操作空间。因为无法证伪,所以错了无需担责;允许大胆假设,则可用假设操控结果;模型过度复杂,从而解读预测结果必须依赖少数专家的专业能力和操守。但是专业能力未必总是靠得住,因为有的超级模型已经变成了仙侠小说中要反噬其主的法宝。而职业操守,在名利面前,生存压力之下,有时也会成为维持不起的奢侈品(还记得钱钟书在《围城》里戏谑 “廉耻并不廉”?)。
关于这个问题wachs有段描述非常精彩,摘录如下:
“顶住压力,不把营私利己的预测装点成完全客观的技术分析,并不容易。专家们彬彬有礼地宣扬自家预测的客观性,既可以维护行业的地位,也能彰显存在感……假装某个预测结果是完全客观科学的,符合政策制定各方——包括专家、主管官员、和政策的倡导者——的利益,尤其当资源紧缺令取舍不可避免,而该结果正好支持由于种种原因被提前看好的政策之时”。(注11)
再以通勤问题为例。修轻轨还是扩建高速远不仅是改善出行、造福民生这么简单,它还涉及经济发展、官员政绩、承包商利益等方方面面。假设城市的管理者出于发展郊区经济的考量,或者响应国家公交导向的倡导,倾向修轻轨。如果模型说明修建轻轨确实比扩建高速好,那自然皆大欢喜,其结果被奉为金科玉律,成为打击 “质疑轻轨论” 的利器。如果不巧发现建轻轨不是最佳方案呢?这时候决策者大概要怀疑专家们的判断力了。对轻轨的分担率的估计过分保守了?人口老龄化的问题考虑到了吗?高速路污染排放的成本是不是低估了?
由于模型中总有大量假设和可调参数,“调出” 决策者想要的结果,绝非难事。觉得这有违职业操守而断然拒绝的人,也许专家这份很有前途的工作就干不成了;灵活性比原则性更强的人可以找出各种理由说服自己:其实原来的结果也未必就更合理,因为到底哪个更“正确”这个问题其实是无解的。
抛开这种诛心之论,决策者和专家们本身也难免受各种心理偏见的左右。其中最著名的是kahneman发现的规划谬误(planning fallacy),即规划者普遍有过度乐观的倾向,具体表现为低估项目成本和完成时间,高估收益。在出行领域里,规划谬误是家常便饭。
《出行史》第11章回顾从1970年代以来的出行预测时提到,“对于轨道项目而言,十之有九其乘客预测是高估的,平均高估106%”。《交通》杂志前主编 david hartgen 在2013年写到,“高估出行量和低估成本的趋势非常明显,尤以收费公路为甚”(注12)。planning fallacy 的心理学解释有很多,比较著名的有一厢情愿症(wishful thinking)和自利偏差(self-serving bias)。前者指规划师错把自己最想要的结果当成最靠谱的预测;后者源于决策者习惯性地把成功归因于自己,把失败归咎与他人,最终丧失判断能力。还有一种更为诛心的解释叫添油战术(authorization imperative),认为决策者有意无意在预测的时候降低成本,夸大收益,是为了让项目获批。而一旦项目上马,就算大幅超过预算,纳税人为了挽救沉没成本,也会乖乖追加投资。
在写这篇读书笔记时,我经常问自己,出行预测这门70年前在二战后百废待兴的特殊社会经济条件下兴起的新学科,在全球经济发展放缓,全球化进程受阻,人口老龄化趋势加速的未来50年,还会继续存在吗?如果会,它该如何适应新的环境呢?
我还没找到答案,但有几点体会想写出来,与同道中人相互启发。
首先,做模型的目的是为了解决问题,所以一定要先有解决的问题,再去寻找或者打造工具。有的时候,甚至建模本身就不是解决问题的正途。回到carroll的时代,他发明四步法的目标很明确:解决如何有计划地扩建公路网的问题。但70年后的今天,很多专家手中的出行模型经过多年开发,代代相传,已不再是解决某个问题的专门工具,而俨然是包治百病的灵丹妙药,或者无锁不开的万能钥匙。关于这一点,lee在《大模型的安魂曲》里有句话发人深省, “做一个不是为解决问题量身打造的模型,其有用性大概跟收集一堆不知道给谁用的数据差不多。(注13)”
其次,出行模型既不是越真实越好,也不是越复杂越好。george box 的名言虽是老生常谈,但还是值得再重复一次:“世界上没有‘正确的’模型,只有有用的模型(注14)”。在有用的前提下,模型应该如爱因斯坦所说, “简化到无法再简化为止(注15)”。30多年前, mahmassani在评价当时风靡一时的活动模型时曾写道 ,“ 在浏览(活动模型)领域浩瀚的文献时,你会感叹研究者是否已经迷失在对…… 种种复杂性的追寻之中,而对简单并可重复的规律视而不见”。其实很多时候,真正解决问题的正是那些简单并可重复的规律(注16)。
最后,出行预测不全是科学问题,也是个政治问题。这话从一个热爱数学模型、在大学里教工程的学者口中说出来好像有点匪夷所思。但是,我确实认为,出行预测模型既不应该、也不可能成为公共政策制定的唯一考量。拔高它的科学性不是解决问题的方案,而正是问题所在。由于社会经济系统的复杂性,对几十年后的未来需求给出有用的预测可能压根儿是不可能的。正如 van vuren 所说,“我们要丢掉模型可以解决问题,给出正确答案这种不切实际的幻想。(注17)” 模型能做的,不过是提高决策过程的透明度和效率,分解问题,对假设进行测试,帮助决策者思考、辩论和取舍罢了。
作者简介
制版编辑 | 卢卡斯