数据烂手里,何谈研究话语权?
在大气、海洋、冰川等需要国际合作的研究领域,中国普遍缺乏拿得出手的高质量数据。问题出在了哪里?
撰文 | 邸利会
● ● ●
“我们国家在数据方面基本没有话语权。”
在谈到ipcc报告里鲜有来自中国的数据时,a学者不无感慨地告诉《知识分子》。这位要求匿名的研究者举例说,在2013年第五次ipcc报告中,为决策者列的大约10个主要的气候变化的判断指标,50多个时间序列,“没有一个是我们国家的”。
ipcc全称 “政府间气候变化专门委员会”,ipcc报告体现了整个气候变化科学界的智慧,对各国气候变化的政策制定有很大的影响。如此重要的一个报告,却没有多少是来自中国的数据,无疑令人惊讶。
在气候变化领域,中国缺乏国际上拿得出手的高质量数据,事实上,这也是中国科学数据普遍贫弱的一个缩影。
拿不到的数据
在国内,数据难获取早已不是新鲜事。
在 [1],北京大学教授陈松蹊就谈过他研究雾霾的尴尬经历——北京气象局的历史数据需要花钱买,据说 “每小时只是几块钱,不贵的”。无奈之下,他们从美国一家气象研究机构的网站上找到了北京南郊观象台每半小时的气象数据,免费。
注意到这个问题的并非只有陈教授。
在2017年10月的文章 [2] 中,patrick funk、薛澜等来自中美两国的学者指出,“在过去,中国大气污染数据的收集分散且经常失真。很多数据无法公开获得。” “研究人员和机构为了最大化地发表文章,把数据捏在手里。”
他们进一步认为,由于高质量的传感器是被全国各个不同团体占有,而空气污染的分析需要来自每个区域内多个站点的高质量数据,只有克服数据共享和合作的障碍才能更好地管理和减少中国的空气污染;而且,如果只用有限的数据,还可能得到错误的结论——比如在理解臭氧空洞时,最初很多科学家和决策者不相信氯氟烃假说,但通过收集了不同范围、各个平台的数据后,这个假说得到了验证。
不仅是在环保、大气领域,在海洋研究领域,即使是作为领域内的研究者,a坦言,国内的数据获取同样困难——
“其实国内很多人去做测量,测量回来后,数据都是保密的,(攥)在自己手里,不给别人用。那么一个团队能测多少数据呢?所以就没办法搞全局性的研究,因为数据量太少了。这样的话就形成了类似于军阀割据,大家都用自己手里的一点点数据,发几篇小文章。中国的数据其实并没有汇聚到统一的地方去。”
在海洋研究领域,中国通过数据共享贡献给国际同行的也很少。
海洋观测领域颇为知名的argo计划 [3],通过全球30多个国家的合作来维持一个全球海洋的观测网络,该计划强制要求所有的参与方,必须把测出来的数据共享给国际,其中中国的数据贡献少的可怜,大概不到4%。
“我们这么大的体量,其实(贡献)也是比较小的,所以我们国家长期在海洋观测领域是抬不起头来。” a学者说。
海洋极大且深,缺乏数据尚可理解,但令人惊奇的是,在普通人看来并不缺乏数据的领域,研究者想获取数据也困难重重。
今年8月5日,国家青藏高原科学数据中心主任李新等人在《自然-地球科学》发表评论文章,呼吁数据共享 [4]。
作者们在政策、管理、技术、国际化四个层面提出了具体的建议。在政策层面,他们指出,应该进一步明确敏感数据及其使用界线——
“地球科学数据,尤其是涉及到国家安全、商业秘密和个人隐私时,本身可能是敏感的。为了最大化数据共享的实践,很重要的是,要对敏感数据确立清晰的定义、共享界线和限制的规则。在共享限制规定之外的数据,共享的实践应完全基于可查找、可访问、可互操作、可重用的fair原则(几位学者在2016年3月发表的文章中 [5],正式提出fair数据原则,可以看作是提升数据可重用性的某种指南。之后,这些原则得到了不同国际组织的广泛认可)。”
李新等人的呼吁不无道理,界定清楚敏感数据以及各方的权责,可以避免一个显而易见的悖论——如果某些数据属于保密性质,为什么反而可以从国外免费拿到?如果是保密的数据,为何还可以标价出售,而且价格不菲?
当然,近些年,中国也在努力提升数据共享水平。
2018年,国务院办公厅印发的《科学数据管理办法》,共19处提到共享,其中第19条规定,“政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享,畅通科学数据军民共享渠道。国家法律法规有特殊规定的除外。”
2019年,国家海洋科学数据中心、国家青藏高原科学数据中心、国家人口健康科学数据中心、国家天文科学数据中心等第一批20个国家数据中心上线。
但究竟哪些是科学数据?这里面却存在着模糊地带。
举例来说,涉及到地球科学领域的数据,很大部分来自政府部门——
其中的一大类是由各个部委,根据其业务职能,在国家财政的支持下,成体系、成规模地开展各种资源、环境调查等所得到的数据(如水利部门开展的全国河流断面的水位、流速等监测数据;林业部门开展的林业调查样方数据;环保部关于各种类型的空气质量、水域污染物等数据;自然资源部的土地调查数据等)。
“像这样一些部门的数据,如何界定其中的科学数据,是要讨论的地方,属于一个灰色地带。” 清华大学全球变化研究院暨地球系统科学研究中心副教授白玉琪告诉《知识分子》,“国家没有明文规定什么类型的业务数据应当作为科学数据进行管理,因为(那些数据)一旦作为科学数据进行界定,国家现在认为都要转移到20个科学数据中心,按照原则以一种科学数据共享的方式来做。”
除了各个部委产生的数据,在地球观测领域,另外一大类是采用制作卫星载荷、统一发射、统一接受、统一管控、统一处理,然后分发到主要牵头的部和委(作为卫星数据的主用户)而获得的数据。
从实际情况看,这两大类数据,因为未被明确划入科学数据,科研界都难以获取。这或许就是为什么当陈松蹊教授研究雾霾时,拿环保数据和气象数据那么的困难。
在之前的文章中,陈松蹊说,“气象局、环保局已经开始对气象、环境信息通过网站即时发布。但对各学科的研究者来说,规范的长时间的历史数据更有科学价值。然而获取规范的长时间的历史数据仍是无路可循。往往要通过关系,甚至高价购买。”
可国内拿不到的数据,从国外却可以免费拿到。陈教授在上述文章中提到,“我后来和北大一数学院士谈起此事,他说北大一同事所研究的中国地表方面的数据也是从美国得到的。看来这不是一个部门的问题。”
外国的数据更香吗?
一些学者转而从国外拿数据(包括产生于中国的数据),得益于这些国家较成熟的数据政策和实践。
“以遥感数据为例,欧洲、日本、澳大利亚、德国,这些发达国家里,应当来讲,美国对地观测的科学数据在本身的质量,国际开放的程度等一直都是比较领先的。” 白玉琪说。
据刘润达等 [6],美国很早就鼓励信息自由流通, 希望信息在流通中增值。
具体来说,美国的《自由信息法》要求联邦政府部门将政府信息向公众开放并接受公众的监督, 允许向任何的公共或私人事物进行拷贝;此外,美国的《凯发游戏的版权法》明确规定,凯发游戏的版权保护条款下的凯发游戏的版权保护 “不适合于美国政府的作品”。
在地学领域,1991年7月,美国白宫总统科技政策办公室发布了 “全球变化研究数据管理政策声明” [7],从此美国联邦政府明确提出,将 “完全与开放”(full and open)的数据共享政策作为国家科学数据共享的基本国策。美国国家研究委员会在其研究报告中指出,要遵循 “数据的价值在于使用” 的原则 [8],科学数据的 “完全与开放” 获取原则应被采纳, 并将其作为公共资助研究所产生的科学数据交换的国际标准。
美国国家航空航天局(national aeronautics and space administration, nasa)、美国地质调查局(united states geological survey, usgs)、美国国家大气研究中心(the us national center for atmospheric research, ncar)、美国国家海洋和大气管理局(national oceanic and atmospheric administration,noaa)等机构,也很大程度上秉承了这些理念,在数据的收集、储存、分析、共享方面走在世界的前列。
“(像这些机构)他们也是属于典型的业务部门,在美国因为联邦相关的法律规定,对于数据开放和共享的认识、共识等要比较深入,所以这些部委的数据开放,应该来讲,彻底的程度,免费的程度等等都还是非常高的。我在美国工作这么多年,还没有听说过像这些部委的数据要通过付费的订购的方式来进行获取,这些数据只要能提供在互联网上,几乎都以零成本的方式来对外提供。” 白玉琪说。
在他看来,除了 “公开” “免费” 的好处,这些机构的数据之所以有吸引力,还有两个特点:首次,具备长时间的特征,比如有长达几十年的地表环境变化研究或者全球变化研究的数据;其次,数据的一致性等方面质量较高。
这方面知名的一个例证是usgs的landsat项目。该项目从1972年开始已经发射了8颗系列陆地观测卫星,是目前为止地球持续观测时间最长的一个卫星系列。美国政府通常免费提供由政府资助的地球观测卫星获得的图像,而landsat此前是个例外,直到 2008年usgs通过互联网免费提供了landsat数据。
zhe zhu 等人的研究指出,“随之而来的是 landsat 图像下载量的大幅增加,并导致科学和业务应用程序的迅速扩展,为政府、私营部门和民间社会提供服务。landsat计划因此为世界各地的航天机构提供了一个关于开放获取地球观测数据的价值的例子,并刺激了全球,包括欧洲的哥白尼计划,采取了类似的政策”。[9]
而在海洋研究领域,a学者表示,美国的数据中心是最受国际尊重的。
“因为他们确实做了大量的工作,我们之前的很多研究也都是和美国、欧洲的数据中心的人一起合作完成的。他们也比较开放,我们研发的方法他们也会用,已经用到美国的数据中心去了,所以是一个非常健康的良性的互动。” a学者说。
不仅是数据的开放,开放的思维也贯彻在整个数据中心的建设上。
白玉琪举了nasa充分利用 “外脑” 的例子:“马里兰大学,因为地域的原因,开车几十分钟就可以到达戈达德太空飞行中心(goddard space flight center),该校的很多老师都是nasa数据卫星的科学团队成员。”
根据每颗卫星任务的不同,nasa每次会组建不一样的科学团队,指导卫星的设计,等卫星上天,数据传回后,为数据产品的研制和将来的数据生产设计算法;之后,数据中心内部的一支专门的工程师团队,做硬件的、做基础和应用软件的,接过手来,把科学团队的算法在计算机系统上实现;最终,还有一支团队专门做对外服务,不定期对外宣讲,丰富数据产品文档、实验过程、地面控制以及各种数据库。
充分利用 “外脑” 组建的科学家团队、专职的工程师团队、对外的专业服务,在白玉琪看来是nasa数据中心取得成功的 “三件法宝”——
“这三位一体的安排,在usgs、noaa、ncar,多多少少也存在,只是配比不一定完全一致。”
国内的人才困境
相比国外这些较为成熟的数据政策、体制机制,制约中国科学数据发展的核心还在于专业人才的缺乏以及不合理的评价体制。
“关于数据人才和能力建设,这一块确实急不得,任何一个我了解到的科学数据中心,基本都缺乏特别专业化的、多学科交叉的团队的支撑。这种人才不是随便拉一个就能用的,而是需要经过一个滚动式的长期的积累,所以是可遇而不可求,需要耐心。” 白玉琪说。
以上文提到的landsat为例,这个跨越了40多年的项目,usgs的数据中心团队几十年如一日,跨越不同的物质形态和技术手段,整理分析甚至是胶片的、磁带的记录,持续性地保证landsat科学数据的国际共享价值。
但这种几十年如一日的工作,如果是放在国内做,在科技评价中则不占便宜。
“我们喜欢轰动,对这种需要长期投入、慢工出细活,属于能力建设的工作,并不看好。这么一个评价体制和机制,比如一篇顶刊的文章,足以让你在同行有很高的影响力。但说我10年就干这一件事,服务了很多人,显得都没有那么的充分。所以,这么一个机制也不会吸引更年轻的同志们,在这样一个很重要、很基础,但表现度不那么高的工作上面持续积累。” 白玉琪说。
作为海洋数据研究领域的学者,a学者对此也有深刻的体会——
“我个人的感受就是我们国家的基础研究其实还是非常弱的。对于全球变化,要判断全球到底有没有变暖,海洋温度的上升,冰川的融化,这些主要的判断要依据数据,这个很基础,只有知道了怎么变才能去应对它。…… 其实国内有很多人去做测量,但没有专门去做数据的,因为做数据的人在现行的体制下,很难活下去,(当前的评价体制)要求你不断去写论文,但是做数据天然地需要花大量的时间去了解数据是长什么样子。这也是为什么大家不太愿意去做(数据)工作的原因。”
图灵奖得主 jim gray 在2007年加州山景城召开的一次会议上,发表演讲 “第四范式,数据密集型的科学发现”,提出今天的科学已经进化到可以是数据驱动的发现 [10]。从涉及到地球各个圈层的气候变化研究,到关系到人类健康的遗传基因组、蛋白组、临床试验,数据成为了必不可少的创新源泉和力量,再没有什么时候比重视数据基础建设和共享更迫切的了。
“如果有越来越多的中国人能够在国际化的视野当中去工作,只有你贡献的多了,你才可能有话语权。所以我认为话语权是个真的问题,它并不是你要强行夺取的,在科学领域里,是因为你跑得够快,成为了事实上的标准,就自然而然有了话语权。对地观测、地球模拟、航空航天等领域,这些例子比比皆是。” 白玉琪说。
制版编辑 | 卢卡斯