谢宇：大数据，“大”就行了吗？

谢宇：大数据，“大”就行了吗？ | 专访

2018/09/21

导读

人人都在谈论大数据，到底何为大数据？

图片来源：http://www.quanjing.com

●●●

不久前，美国普林斯顿大学教授、《知识分子》主编谢宇接受《严肃的人口学八卦组》专访，主要探讨了三个问题：

1. 现在似乎已经进入了大数据时代，大家很看重大数据，每个人都在谈论大数据，那么，社科研究应该怎么做或怎么看待大数据问题，大数据和传统研究数据的关系是什么？

2. 关于在新媒体时代，科学工作者应该如何面对大众的问题。对于公众号这种形式，科学工作者是否应该参与到对大众的科普中？

3. 关于人口学的发展问题，中国社会处在快速转型时期，中国的人口学发展也面临很多挑战，未来人口学的主要研究方向和重要研究议题有哪些？

大数据是什么

q：人人都在谈论大数据，到底何为大数据？

谢宇：你这个问题提得很好。我觉得社会上对大数据有很多误解，也有一些盲目的追求。总体来讲，中国民众对数据的需求很大，但真正懂数据、认识数据的人并不多。现在随着大数据的产生，每个人都在谈论大数据，大数据就变成了一个时髦的、甚至被一些人滥用的词语。

至于我对大数据的理解。首先我同意你讲的，大数据的产生会影响到社会、研究和文化。但是它为什么重要、怎么来用，绝大多数人都是茫然的。什么是大数据？大数据是我们现代生活或工作留下来的数字脚印 (footprint)。这些数据不是为研究采集的，而是一个生活的副产品。

现代化生活在很多地方都会留下数据的脚印，比如打电话、付帐、乘地铁、使用打车软件等，我们所有的行为都电子化了，这种电子化的生活方式和工作方式就为我们提供了可以利用电子化数据的机会。所以我说大数据实际上不是为研究而存在，而是我们的生活工作留下来的痕迹、是一种电子脚印。

从这个意义上来理解大数据，就会认识到大数据有几个典型的特点。首先它并不是一个新事物，过去就有电子化的数据，比如美国的人口普查很早就有，当然有些已经失去了，而且并不是电子化的，但是它有数据，是为政府服务的。后来我们有档案、有文本，虽然没有完全电子化，但是我们的生活已经留下了很多数据，这些是可以电子化的，而且现在也正在变成电子化。

其次，大数据并不意味着 “大”很重要，很多人说大数据的优势在于它很大，它这个“大”的确有它的规模很大的这层涵义，因为生活每时每刻都在产生数据，所以它的量很大。但这个意义上的“大”还不是主要特征，它的主要特征是它的产生方式不一样，它不是为了研究而存在的，而是由我们生活和工作本身就能产生很多数据。

有的时候我将大数据叫被动数据，因为它不是为研究目的而有目的性地收集，而是被动产生的，比如打个电话，这些电话的记录留下来。这时，你并不是为了研究而去打电话记录数据，打电话只是你的日常工作和生活，这些数据是被动记录的。

q：大数据的重要意义在哪里？

谢宇：以前我们没有数据，特别在中国，相对来讲，数据获得途径是受限的，而且学术数据特别缺乏，很多数据不共享。对于官方数据，一是不能得到，二是不知道准确不准确。所以，中国很多年来由于数据的贫乏和质量的不确定性，以及数据获得受限，民众对数据的需求难以满足，大家想知道现实到底是什么。

在没有其它数据来源的情况下，大数据的产生使得大家有了一些了解情况的渠道。这个产生从无到有，一下子就激发了人们的兴趣，觉得大数据非常好。大数据的出现打破了过去那种数据被垄断封锁的局面，给我们提供了以前没有的数据。

另外，以前很多方面是没有数据的，比如说交通的数据非常难收集，还有社交网络的数据也非常复杂难以掌握，所以大数据最重要的贡献，并不是它量大，而是我们能够通过大数据获得在社会现象和行为方面过去没有的数据。

在西方，数据系统相对比较完善，有些政府的数据是公开的，是共享的，研究者的数据也要求要公开，还有一些商业数据、企业的数据、ngo的数据、智库 (think tank) 的数据等都是共享的。

西方的数据文化大约有100年左右的历史，社会调查的数据大概有70年左右，数据文化是一个缓慢的发展过程，在这个过程中，大数据慢慢填补了很多空白，在这个数据生态里面逐渐起到了作用，但大数据没有把其他的数据完全排挤出去，所以数据领域呈现出一个各种数据都有的全生态景象。

而在中国，因为学术数据、政府数据相对来讲比较缺乏，所以大数据一出，给人的感觉就像把其他数据都取代了，但实际上不应该是这样的。

q：您谈到了大数据的特点和优势，那么您如何看待大数据的缺陷？

谢宇：大数据有几个缺陷：

1. 它虽然量大，但你仍然需要怀疑它的代表性。
有的人用手机，有的人不用；有的人一天发很多条微博，也有人一条不发；有人有几个银行账户，有的人没有账户。所以它的代表性是有缺陷的，你不知道它的总体是什么，这是选择性的问题，是难以克服的。因为它是行为数据，是被动记录的，很难控制，所以我们只能用统计的方法尽量减少偏差。总体是什么，到底能不能推论，今天的总体和明天的总体是不是一样，推论的对象是谁，这些异质性问题和选择性问题都很难解决。

2. 大数据的变量可靠性和数据质量也是不确定的。
比如机器学习中的文本分析，正面情绪的一个形容词和一个主语在一起，机器认为它是正面的，但它可能是讽刺的，或者有其他的含义。你只有读完这句话才能读出背后的情绪，但机器不一定能读出来，所以有很多干扰 (noise) 在里面。数据量大了以后，数据清理的代价也很大，很多人不做数据清理，可能也不做verification（数据验证）。如果不做最基本的工作，数据质量将是个很大的问题。

3. 它的测量问题 (measurement) 。
大数据是被动数据，很多事情没法问，比如情感问题、满意度问题。在被动数据里面，除非是非常非常不满意，或者是抱怨这个客户，才能通过数据读出这个人的情感，可是一般人的情感可能没有那么强，是否满意他不会主动告诉，而且很难用设计来把内在的（隐私的）东西挖掘出来，也是不合法的。大数据作为被动数据是本来就存在的，就不能再改造它，也不能通过设计来改进，所以它的测量是有限的。

4. 第四个缺陷可能是更致命的，就是数据整合(data integration) 和数据厚度问题。
比如你有电话数据，银行数据，银行数据和电话数据整合起来可以知道一个人的很多事情，但也是不确定的，因为你的钱可能放到别人账户里了，或者说我们也并不知道你账户的钱是不是你的、是哪里来的。还有很多类似问题，需要整合其他数据，比如学历、病历等。

合并这些数据是非常困难的，首先是电子数据产生没几年，可以使用的信息有限，其次是大数据的变量非常少，不够用来对一个人的长期轨迹做描述。

而传统调查却不同，调查数据可能有几千个变量，各种方面都有，而大数据他只有一个方面，手机就是手机，微博就是微博，你对个体其他的特征知道得非常少，而且没有一个长期的跟踪，所以大数据比较致命的就是很薄，对一个人的了解很少，很难深入探索异质性问题。

比如，个体差异的原因是什么？可能有关他过去的经历、家庭背景等一些我们不能通过大数据看到的东西（缺失变量）非常多。再比如，看微博但并不知道他发帖还是留言是真人还是假的，是一个人在操作还是多个人。

所以很多事情是没法确定的。这就导致大数据的厚度受到很大限制，时间的长度也受限制。因为异质性问题，大数据用于因果推测仍然十分困难，也需要诸如工具变量、断点回归等方法，还是需要假设，所以大数据不能解决最根本的困难。虽然大数据对研究有很多帮助，但是最根本还是要靠学者自己的能力，所以好的学者永远有优势，好的训练底子永远有优势。想要通过大数据本身来解决方法上困境的想法和做法是行不通的。

实际上，所有社会现象的数据都是有局限的，这也就是为什么我们要收集不同的数据，从不同的方面、不同的角度看一个问题。

这和我以前讲的三个基本原则有关：为什么需要数据、为什么需要不同的数据？就是因为个体的异质性很强，个体与个体不一样，这个人不能代替那个人，那么如何知道这个人的特征？

我们可能需要不同的测量，包括现在学者们想测量的基因、这个人小时候生下来的情况、家庭背景、中年生活、老年生活等整个生命历程。我们经常需要跟踪性调查，而中国其实很少有这种几十年的跟踪调查，这种数据都是需要相当长期的积累。

虽然大数据获取速度快、量大，但它相对来讲信息量中每一个个体的信息非常少，一个人的各个方面也不能够联系在一起。所以，我觉得大数据是一个薄数据或者浅数据，而不是深数据，不是一个畅通数据。

也因此做研究用大数据还是有缺陷的。但也不能因为大数据有缺陷就不用，恰恰相反，大数据可以从另一个角度反映事实的真相。正是因为每种数据都会有缺陷，现在的大数据可以弥补其他数据的缺陷，同样，其他类型的数据也可以弥补大数据缺陷。

所以我对大数据的看法就是，我们需要一个数据生态，这个生态应该是有各种各样的数据，各种数据发挥不同的作用，大数据有大数据的作用，调查数据有调查数据的作用，政府数据也有政府数据的作用。

我这里把政府数据和大数据分开，实际上大数据也可以包括政府数据，因为政府管理也是工作，也产生大量的数据。

一般数据类型基本的划分是包括三种：商业的、行为的数据，这是一般的大数据；政府的管理数据，这实际上也是大数据；第三种就是研究性的调查，这是传统数据，也就是常说的抽样调查数据，此外还有一些为研究目的而特定产生的数据。

这三种数据在社会里、在学术团体里、在国家制定的政策里都有它们的作用。我们不能够只重视一种数据而忽略其他的数据，不同的数据、不同的主题、不同的类型、不同的人群、不同的数据结构都需要存在，因为它们能够互相弥补各自的缺点。

q：您主张建立一个数据的生态，它是各种数据的融合。进一步从方法论的角度，现在社会科学定量研究也有一套方法论，比如说以因果分析为核心的一系列方法论。但大数据进入数据生态，是将继续这种研究范式，还是可能带来研究范式的革新？

谢宇：伴随大数据的产生，我觉得社会科学基本的研究范式并没有变。用数据检验理论的研究范式没变，因果分析的标准、方式也没变。从研究设计来讲，我觉得大数据的产生给我们的研究带来了很多便利，以前不能做的现在能做了，但是整个大的范式并没有改变。

那么它带来的改变在哪呢？首先是选题的改变，以前很多不能做的现在有数据能做了，数据量比较大，能够支持一些以前传统数据不能做到的。

其次它对计算的要求也高了，也给方法上带来了挑战，主要是计算方面的挑战，比如机器学习(machine learning)，small area的非参数 (non-parametric) 估计，这些理论上的范式上以前都是有的，但是以前没有数据来支持这样的设计和方法。所以从计算方法和选题上都有很大的进步，我们不再局限于传统的命题和传统的方法。

q：一些人认为人工智能或新的方法的出现，可能加大学术界的贫富分化：可能有部分人掌握了新的方法而走在前面，而另一部分人只会传统的研究方法、数据计算。这样是否真的会造成分化，或者说是朝着两个不同的方向发展？

谢宇：大数据的产生会造成分化，但我认为不是像你说的那种分化。我觉得主要的分化就是资源的不平等，大数据的价值在于数据的获得和使用。

有一些数据，比如说政府部门的数据，只对一部分人开放，这样的话能否获得政府资源就决定了你能不能有这方面的资料做研究。很多商业的数据也是只对部分人开放，所以有头衔的、受到信任、受到委托的，或者成就高的人更可能有资源，所以是资源的不平等造成的分化。

还有一个不平等，现在的大数据研究需要团队合作，因为大数据研究可能需要不同的专业、需要计算能力、需要编程、需要可视化等，各方面都有团队要求。单枪匹马做研究比较困难。

这两个方面的不平等实际上也会反映到机构层面，比如可能更好的学校更容易得到资源，更可能有不同的团队来支持他，可能像北大清华这样的学校会更有利，一般的学校一般的老师他们可能就没有得到资源，或者不能够有一个很大的团队，我觉得这个不平等是有的。

研究方法上的分化和不平等，我并不认为会产生。因为大数据技术的使用跟以前的方法一样，我觉得掌握技术并不难。真正有了大数据，要学要做都能做到，因为数据是有限的，方法也是有限的。

像机器学习、参数估计这些方法都是以前人们就知道的。在这些大数据出现之前我们就假想了有这样的数据要怎么样做。我们当时就知道，再换一个很大的数据会怎样，像今天运用到的一些例子的确证明了我们原来的想法。

q：关于大数据您还有什么要补充的吗？

谢宇：有时候，很多学者和民众会抱有一种幻想，觉得什么新东西的到来就可以改变一切。当然这与人们在中国见证的经历相符，比如经济上的改革开放之后市场就变得繁荣，智能手机的出现改变了很多生活方式等等。而学术实际上并不是这样，并不是说有新的技术、新的数据，就可以去改变它的所有方面，这些技术和数据当然会有很大帮助，但并不能完全改变一切。因为根本的问题还不能解决，这需要我们的学者有很好的训练，写出好的文章。这些训练、文章来自于对理论的把握、对文献、对人的观察等各方面最基本的训练，这些都是不会改变的。

把科学作为一种思维和生活方式来提倡

q：在您看来科学家是否担负着对公众进行科普的责任？

谢宇：我觉得我们应该承担这个责任。我参与了《赛先生》公众号的创立，后来又做了《知识分子》。我有很多朋友是自然科学家，所以我先讲讲自然科学。我认为中国的自然科学发展非常快也非常好，特别当你在北大清华，可以看到中国自然科学真的走上了国际水平。如今中国有谢晓亮、施一公、饶毅等优秀的学者归来，而且他们几个人不单单是回国，他们也改变了学术生态。自然科学的生态，就是一个高标准的生态，是国际化的生态。中国的自然科学家当中有很多人已经对世界性的科学、前沿领域作出了很大的贡献。

所以中国的自然科学现在已经非常好了，当自然科学的学术发展好了以后，就会对科普提出更高要求。因为要科普前沿的东西实际上是很难的，中国以前没有很多很好的科学家，民众需求也没那么高，一些记者、学生就自己做科普，这是可以有的，在过去他们可能已经做了很多，但到了介绍最前沿的科学的时候，就需要真正的科学家。因此，有一些科学家直接参与科普和与大众接触，我觉得是自然而然的事情。

q：科学家参与科普，对普通公众的最大意义在哪里？

谢宇：我觉得科学家参与科普是很好的事情。为什么呢？在这里，我的想法就更广了。中国现在有很多方面实际上都在突飞猛进，进步非常大。比如现在中国电商的很多技术、营销手段和行为已经超过美国。又比如中国中小学教育也做得非常好，除了给学生的压力太大，但至少教育质量还是过得去的，甚至本科教育也不错。

中国的很多行业，实际上也都已经走到了世界比较前沿的地方。但是到底是第一第二第三，这其实不重要，我个人比较反对动不动就讲中国是第一、中国什么了不起的说法，这其实不是很健康的情绪。

但中国现在也存在很多问题，除了不平等还有很多其他问题。我认为中国许多社会问题的核心实际上都可以归结为没有一个共同话语体系的问题，实际上就是个理念的问题。所以呢，我觉得我们提倡科学，就是希望给大家一个新的选择。通过科学，我们可以培养自己的兴趣，提高自己对自然的理解，可以尊重事实、尊重科学规律，形成一种客观的、而不是主观的，国际化的、而不是狭隘的民族主义的取向。在科学的事实上，在科学文明的影响下，我们会对科学本身肃然起敬。在中国，有很多现象，比如说迷信、不礼貌、不文明，实际上就是因为缺乏这种敬畏。

科学是很伟大的，当伟大的科学家做出来伟大的研究，你就不能不佩服他们。所以在我看来，强调客观事实、讲客观性、尊重科学性和国际化，在当代中国，都应该作为一种生活方式和思维方式来进行提倡。那些看起来比较敏感的话题，往往就是因为没有一个统一的话语体系能够把不同的人联系起来，所以才会担心误解、担心谣言被轻信。科学的话语是得到国家和政府支持的，至少我至今从未碰到一个干部，说科学不重要，他们都说重要，都是支持的，因为它也是经济基础之一。

科学能影响到经济，实际上对做人的方式也能够有所影响。我为什么觉得科学家重要呢？作为公众人物，科学家可以发挥正能量的作用。在中国需要一些能够产生这种正能量的公众人物，让他们发些声音，给大众特别是年轻人带来正面的想法，而不是像有些“网红”靠庸俗题材出名。我觉得科学家应该可以站出来，以科学家的形象，提倡科学地考虑问题和科学的生活方式，这对年轻人乃至整个社会都会有帮助。

q：在中国现有独特的社会和网络生态下，科学家或者知识分子应该如何参与其中？

谢宇：中国如今从比较闭塞的农业社会走向了一个比较开放的现代化社会，大众对知识的需求迅速增加。中国文化本身就有推崇教育、推崇知识的传统。但是由于这个转型过程太快，个体处于不同的环境、来自不同的背景，获得信息的渠道也有限。在这种情况下，价值观和情绪的社会分化比较严重。就是这种情绪分化对知识的需求和传播造成了很多不确定性。

比如，转基因的事情在美国也有争论，但不像中国这样发展到极端的地步。所谓极端，就是觉得我一定对，也不听别人的，而且很情绪化。这对社会实际上不太好，因为社会是有分工的，社会现象需要研究，需要理性探讨。这个社会还是缺乏优良的知识传播生态。我觉得对社会现象的讨论也应该有一个生态：这个生态里面有对应领域的专家，有其他领域的专家，有关心相应议题的社会/公益人士，有退休老干部，有政府的职责执行部门，有志愿者，有赞助商家等等。但不同的人都要理性地参与。

我觉得中国的教育还是有一定缺陷。大众很容易情绪化，很容易不信任别人，喜欢小道消息，喜欢和朋友饭桌上讨论。中国大众其实一方面很饥饿，他们很想知道事实，想参与，一方面没有很好的信息。有很多记者发布的东西并不准确，造成了很多人的愤怒和情绪。所以这就是为什么科学家能够并且非常需要参与到这个生态里。

对生活中的社会现象来说，如生育的问题、养老的问题，需要有更多严谨的研究，有更多更好的数据来支持，也应该有更多的人参与讨论。这并不是说一个学者做了一个报告，或者在著名杂志发表了就一定是对的。政府也应该了解民众需要什么，应该多支持社会科学研究有不同的声音。如果是严谨的、好的讨论，民众就不会有那么多怨言，因为你是有证据的、是理性的。

假如说（政府）支持了比较好的、比较严谨的学术研究，民众就会尊重，就会怀有一种敬意。往理性的方向去讨论，能够说客观的话，就不容易情绪化。而现在我觉得社会环境还是不太重视社会科学，认为它不重要。而缺乏支持就不能有很好的研究，不能好好研究，就只能简化成几句很简单浮躁的口号。

q：在这种互联网以及新媒体的环境下，科学家如何能更好地担当这样的责任？

谢宇：互联网的产生，实际上为中国的社会科学家提供了很多良机。除了对学术研究和合作的帮助之外，还有就是使学者跟大众能够有很好的互动，这在以前是没有的，现在一个微信（文章）可能有500万人读过，通过这样的方式，很多人都开始知道以前都没法知道的。互联网的产生同时加速了信息的传播。因为网上的信息很容易广为传播，不是靠报纸编辑控制的。所以我们的学术成果也是可以很快被许多人接触到的。

从这一点来讲，自然科学家和社会科学家都肩负着相当的社会责任，因为他们的参与有可能改变这个生态，可以改变民众的想法和思维，帮助他们理解很多事情。我们做好了以后，实际上是可以给很多人很好的支持的，比如社会参与和社会创业都是需要知识的。

我觉得，这个社会中的很多问题，有社会学家的参与会帮助国家更好地应对，不能只靠删贴和保持网上舆论基调就能解决问题。大家的素质提高了，他们获得的信息透明了、通畅了，整个生态也就会变好了。

跨学科视野下的人口学研究

q：目前中国处于快速转型时期，人口学的发展也面临很多机遇和挑战。从研究的国际视野来看，您认为哪些议题值得去关注和研究？

谢宇：我2000年在jasa(journal ofthe american statistical association) 上发表了一篇文章“demography: past, present, and future”，是对人口学的一个回顾和展望。现在18年过去了，我觉得这篇文章的意义还在。我当时提出了“小”人口和“大”人口的概念。“小”人口（就是formal demography）重点关注生育、死亡、迁移，更多地考虑人口结构的变量，如年龄和性别，却较少考虑社会的整体结构。 “大”人口的概念即 population research /studies，提出这个概念是由于人口和很多社会现象有关联，人口学和社会学、人类学、生物学、心理学、经济学等都有很紧密的联系。所以我一直主张把人口学看作是跨学科的，这样它就很丰富，否则它就可能会有些单调。

人口学应该用理论来探讨更深的社会议题，做更深入的研究，所以跨学科我觉得是最好的方案。我认为这个“大”人口学的概念就是人口学和其他不同学科的交集。这个交集点非常重要，为什么呢？因为任何量化研究，几乎都离不开人口学。人是有异质性的，当你考虑一个总体的时候，你就要考虑其中的异质性问题，就要考虑人口最基本的结构，比如说地区、年龄、性别、教育、婚姻状况等等。从这个意义上讲，只要是做量化研究的人，政治学也好、社会学也好、经济学也好，研究只要跟个体的人有关，就离开不了人口学，就一定要把人口学作为一个基础。

在这个情况下，人口学怎么发展呢？我觉得多推广“大”人口很重要，比如研究养老、结婚、离婚、同居等等。在我们做同居方面的研究之前，中国没有同居方面的数据，也没有这个议题。我们cfps（china family panel studies，中国家庭追踪调查）在2008年就开始就设计同居相关的问题，如今显示同居在中国也已经成为一种重要的社会现象和生活方式，我觉得这是我们需要去关心的。

我们每年在国内有一个社会学和人口学领域的量化方法研究年会，实际上量化的社会学和人口学研究是一回事。所以当很多人问我，你到底是社会学家还是人口学家，我就经常讲我既不是人口学家，又不是社会学家，我就是谢宇。所以，没必要把每个学者摆进一个盒子里，好像你就只能属于这个“盒子”，不能属于那个“盒子”了。我觉得做学者是没有“盒子”的，它是个人的爱好、自己的兴趣和工作。所以，不一定非要区分到底是社会学家还是人口学家。我觉得学者之间不要因为你是这个专业、不是那个专业，而制造太多界限。在学术上不交流，对学术的发展是很不利的。

对于你的问题，“大” 人口学的方向、议题很多。比如不平等、社会地位这一套议题非常重要，也是我们人口学应该关心的。这些问题不简单是数量上的问题，还是一个社会分布、资源分配的问题，也就是说在不平等的大框架下面很多议题可以做。此外，即便是研究生育，除了关心生多生少，还应该关心孩子将来的发展，关心他/她的健康、智力发展、心理发展、教育和就业等等这一系列议题，也可以关注他/她的生命轨迹 (life course) 的变化，关注他/她一生经历了什么事情。

另一个比较重要的议题，也是我现在比较关注的，是家庭。我觉得改革开放以后、城市化以后、不平等产生以后，尤其是大城市房价高了以后，中国的家庭发生了很多变化。以结婚为例，从建国以后到改革开放中期，基本上绝大多数人都会结婚，是universal marriage（普婚）。而如今，很多人晚婚，或者想结婚却结不了婚。而结婚对于社会稳定很重要，对个人的身心满足、事业与追求，都有帮助。但假如个人希望结婚却结不了婚，就说明供需不匹配，供需不匹配就反映了很多问题。

择偶困难可能有出生性别比失衡造成的男多女少方面的原因，这是数量问题，但一个人的社会地位或者接受的教育水平高却找不到合适的对象，这却是匹配的问题。而在当前的中国背景下，经济实力是婚姻匹配中的重要因素，比如房价上涨，大家对消费又有很多的要求，于是婚姻市场中的不平等也增加。

在这个情况下，我觉得婚姻是家庭研究领域的一个重要话题。而且结婚以后还有很多问题可以研究，比如婚姻的稳定性、家庭幸福感、生育行为、生育意愿、代际流动的影响等，都是非常重要的问题。与婚姻行为有关的问题及背后反映的社会地位、社会流动、家庭关系机制等都值得关注。

再一个重要的问题是养老。老龄化并不只是讲赡养问题，而是要考虑到老龄生活的各个方面，包括老年人的经济情况、健康状况、和子女的来往，还有可能丧偶、离婚，也可能再重新组织家庭或者同居，以后可能会发现老年人同居也是个常见的现象，因为财产原因和子女反对（老年人再婚）。所以我们以后也要研究老年人同居，社会发展了以后，它既有固定的基础，又有文化的改变，还有来自现实的压力，社会变化中会有很多现象是需要我们研究的。

我觉得还可以多研究少数民族的问题，同样从家庭的角度。少数民族不仅生育率不一样，实际上他们的婚姻、经济、子女养育、养老也可能有很大的不同，而且这些方面都可能正在发生变化，这些问题都值得我们研究。

此外，还有主观幸福感的问题。我觉得社会上很多人会感到不满足。这种不满足，有可能是主观的，比如他们想要什么，他们的主观认可是什么。当我们想知道他想要什么，才能知道怎样让他们满足。

还有一个议题也与主观幸福感有关，可能实际上已经有学者开始做了，就是基因和环境对人的影响，我觉得这个议题也是蛮重要的，这也是跟大数据有关系的，基因数据的量也是很庞大的。以后基因和人口行为的关系也是个研究方向。上面我讲的议题是从主题上看，要从方法论和数据上看，有更多的问题。

q：您刚才提到“大”的人口学其实是和计量社会学融合的，您认为二者在方法上是不是没有任何差异？

谢宇：是，不仅是和量化的社会学，我觉得和一些其他学科，比如劳动经济学也是融合的。举个最简单的例子，比如说妇女的劳动力市场回报，就是劳动力市场的性别不平等，这是个很经典的经济学问题、社会学问题、也是人口学问题。因为它牵涉面很广，它可能牵涉到妇女的教育，可能牵扯到妇女的婚姻情况，涉及到她的家务、她的生育、以及其他方方面面。所以研究这个问题，就不要分社会学和人口学，实际上各方面的知识都需要有，可能还涉及心理学，所以这是很复杂的问题。

社会学和人口学两者的共性是：首先都需要有数据来说话，要有证据，即evidence-based，这是基础。其次，手段都是通过数据和统计分析，这意味着使用的是同一套标准，比如什么叫causal influence（因果推断），什么是significance（显著性），这是通用的。average（均值）和medium（中位数）大家都能理解，只是使用者偏好不一样。第三，两个学科都关心同样的问题，所以实际上理论也是可以通用的。不同理论视角能够给你不同的启发，据此你希望提出一个假设，这个假设是对社会现象、社会行为的理解，这个假设和理解也是通用的。所以，你要做的就提出这个理解和假设并给予证明，但是怎么来证明就要用到数据，两个学科都是用同一种研究范式，实际上不同的社会科学只要是量化取向的就和人口学是一致的。

谢宇，社会学家，美国国家科学院院士、美国艺术与科学院院士和台湾“中央研究院”院士，美国普林斯顿大学社会学和国际研究bertg.kerstetter '66大学教授、当代中国中心主任，北京大学千人计划讲座教授、社会研究中心主任，微信公号《知识分子》主编之一。

谢宇教授的主要研究领域包括社会分层、统计方法、人口学、科学社会学和中国研究，代表性学术专著有《回归分析》、《社会学方法与定量研究》、《分类数据分析的统计方法》、《科学界的女性》、《婚姻与同居》、《美国的科学在衰退吗？》等。近些年，他致力于在中国推广实证的社会学研究。

注：本文获《严肃的人口学八卦组》授权转载。

大数据

参与讨论

0 条评论

暂无评论内容

谢宇：大数据，“大”就行了吗？ | 专访-凯发游戏

谢宇：大数据，“大”就行了吗？ | 专访

知识分子

相关阅读

北大学者基于医保系统大数据构建“癌症发病监测”新模式

大数据是如何驱动人工智能的？ | 课程招募

医疗ai大数据：初露锋芒，深耕致远

订阅newsletter