人人都在看「大」数据，费力调查出的数据还有用吗？

图片：Yestone.com 版权图片库

大数据 (Big data) 的出现对现存的微观调查数据 (survey data) 的意义是什么？

chenqin，数据帝

想象你面前有一群大学生，你需要了解他们的信息，那么对于信息的要求，不外乎三大类：

1，全面，能够反映这群人的整体情况

2，深入，让你知道一些更多维度且准确的信息

3，及时，你肯定希望这样的信息能尽快到手边来

这三项要求，满足其中一项，还是比较容易的。

你可以成为他们的辅导员，从大家的注册信息、历次考试成绩中，逐渐了解这个群体的大致情况，满足全面性；

你可以成为他们的一员，交几个好朋友，花上几天时间了解部分信息——比如其中某一个贫困生其实并不贫困，满足准确性；

或者你是一个第二天就要提交转系申请的同学，你坐在电脑前一下午，搜索了这个群体中一些人的知乎和微博，大致了解了今后朝夕相处的同学是什么样的人。

但这样的要求提高到两项时，就不是那么容易了，由此派生出了各种方法。比如，要同时满足全面性和准确性，你可能必须开展一次小规模人口普查，让每位同学都做一份问卷，但花去你半个月时间调查，再花一星期时间做数据整理和分析；要同时满足及时性和准确性，你必须从这个群体中设计一项抽样准则，抽取几个有代表性的同学出来，进行准确了解，但必须注意抽样是否科学，信息是否会有偏。这两种数据，事实上就是 census data（普查数据）和 survey data。

中国的 GDP 数据正是在这样的要求下进行的。国家统计局每 5 年进行一次经济普查，确定中国的基本单位情况，但每次普查需要一年时间，数据的清理再要花一年（全面而准确，但不能做到及时）；在普查数据的基础上，确定抽样框，每年进行规模以上企业的数据直报和规模以下企业的抽样调查（准确而及时，但不能做到全面）。

将 census 和 sampling survey 两类方法结合在一起，就构成了我们所见的大部分统计数据的基础。这两种方法，每种都至少满足了两个要求，那么两者的结合是否就能同时满足三个要求了呢？

不能。

举个例子（中国的人口数据 - Clean Data - 知乎专栏），上海在全国人口普查的基础上，每年抽样千分之一点五的人口，计算他们的变动，结果在 2010 年低估 289 万人口。

再有，中国在第三次经济普查结束后，中国的 GDP 总量被向上调整，原因是之前的规下企业抽样漏掉了大量服务业企业（马建堂回应 GDP 数据修订：3% 多一点）。

钱花了，时间花了，大量人力也花上去了，为什么没法得到准确结果？原因就在于，我们对总体的了解，对总体的刻画，过于滞后了——每年抽取千分之一点五的人口，哪些人口的千分之一点五？每年抽取规下企业进行调查，可是样本框却是五年前的普查构成的，又如何抽取到新企业？

于是，我们就不得不在 survey data，census data 之外找到第三种选择，Big data，好的 Big data 能够满足全面性和及时性，但在准确性上不能要求太高。大数据的产生和收集过程成本相对较低，但却是基本完整覆盖的。比如，要调查某区域的失业率，你可以让所有的居委会大妈都四处查看，每半年一次报告，谁谁谁在家里蹲了半年啦，看来是工作丢了；或者派出调查队，每个月进行一次入户劳动力动态抽样调查，估算出一个失业率；或者是你可以直接使用这个区域的移动终端数据，计算他们在居住区到楼宇之间的往返移动状况，并在此基础上实时产生这个区域的“失业”情况。

当然，用移动终端的行为来判断失业，肯定有不准确的地方，比如是不是有人搬走啦，是不是有人有三台手机，是不是有人开始在家办公等等。但无论如何，这样的大数据非常及时地向我们揭示了群体中变动的特征，他们全面、及时，却又包含了许多噪音，这样的数据虽然不能直接进行政策研究和学术研究，但他提示了我们下一步的政策和研究方向可能去值得关注。

再比如之前人口和 GDP 的例子，大数据虽然不能直接产生结果，但是通过多种来源的大数据，移动终端数据、网购数据、企业招聘数据等，我们可以用相对较低的成本，较短的时间，了解到总体的变化大致是怎样的，告诉我们需要在哪里进行重点抽样和样本框的扩张。

现在我们知道了，census data、survey data 和 big data 其实都是在数据的三项需求中满足了两项，他们各自有一条短板。将大数据和普查数据、深入的微观调查数据结合起来，相互印证，我们可以得到更加准确的信息。

那么，有没有三项需求全部满足的数据呢？请看下图。