数据会说谎,这里有一些真实的例子

知乎日报 Yiqin Fu 301℃ 评论

数据会说谎,这里有一些真实的例子

图片:Yestone.com 版权图片库

「数据会说谎」的真实例子有哪些?

Yiqin Fu,小说和数据都可以看一天

当奥巴马说“我国经济 09 年以来增长 13%”的时候,他没有告诉你其实美国人只有最富的 1% 收入增长了——剩下 99% 的人收入反而比之前略微下降

会出现这种情况是因为收入不是正态,而是幂律分布的(即大家常说的 “20% 拥有 80% 的财富”)。所以最富人群的收入变化对经济总量影响最大,而剩下大多数人的收入变化对总量几乎没有影响。

举个具体的例子。假设有两个人,一个人有 100 块钱,一个人有 2 块钱。如果前者财富增长 10%(来到 110 块),后者减少 50%(来到 1 块),整个经济还是增长了 8%。

美国现在的情况就是这样,“经济整体复苏”但“多数人可支配收入没涨”。奥巴马夸自己经济政策有效确实没错,但特朗普、桑德斯也靠“拯救经济”的口号吸引了大量选民。这两个看似矛盾的事实其实都是对的。

幂律分布的数据在很多地方都会误导人。比如一家“成功” VC 的业绩其实完全由所投公司中表现最好的一家决定。基金整体增长,只是因为投对了一家有 100 倍回报率的公司,而这家明星公司比该 VC 投的其他所有公司加起来都值钱。

--

另一种常见的“数据说谎”是调查问卷设计不合理。

英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却显示,只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后引发强烈社会反响

真的是这样吗?

原来,这个 “1%” 的分母不是“有资格休假的父亲”,而是“所有男性”。有人指出,如果这么算,即使当年所有新生父亲都选择休假, 调查得到的数字也只不过是 5%

可以从调查结果中获利的商业机构就更不可信了。之前有新闻说,一项对 2,000 人的调查发现,16 到 25 岁女性每周花 5 小时自拍——这听起来挺科学吧?但看过真正的调查报告之后你会发现,这个“5 小时”的数据没有涵盖“从不自拍”的女性。再仔细看,你会发现这份调查是由一家美妆电商发布的,其目的可想而知。

除了在“分母”上做手脚以外,改变调查结果的方法还有很多。例如,不给出“其他”或“不知道”这类选项,问题题干加入误导性语言,调查对象有针对性选择等等。

一个很有意思的例子是,如果在问题中提到“奥巴马”(民主党执政八年的总统),更少的民主党人会说贫富差距过去八年变大了,而更多的共和党人会说过去八年经济变差了。简单地在题干中加上一个人名就改变了调查的结果。

要说离我们更近的例子,可以参考我之前写的这个回答——为什么一家民调说 59% 的台湾民众认为自己“只是台湾人,不是中国人”,而另一家却说 57% 有“泛中国认同”?

--

我想说的第三种“数据说谎”是暗示因果关系。

2015 年开始,英国卫生大臣亨特频繁引用《英国医学会期刊》的一项研究,说周日住院的病人比周三住院的病人死亡率高 15%,每年英国有 6,000 到 11,000 人因为医院周末人手不足而死亡。

这听起来既科学、又可怕,对吧?

但问题在这里:虽然确有此研究,虽然这个 15% 的数字也是准确的,可这并不代表死亡率高就一定是因为医院周末人手不足。有没有可能周末住院的病人本身病情就比周中住院的重呢?(英国很多人平时可以请带薪病假。)在控制病人病情等其他因素之前,我们无法确定周日住院的死亡率高就一定是因为医院人手少。

卫生大臣亨特暗示这个因果关系也有他自己的原因——他所在的保守党竞选时承诺会增加公立医院周末员工数量,但因为保守党同时也削减了公共医疗开支(他们承诺会削减政府开支),所以必须要求年轻医生工作更长时间、照顾更多病人且不领加班费。由此一来年轻医生非常不满,亨特和他所在的保守党便希望通过这些数据来增加舆论对医生的压力。

另一个类似的问题是同工不同酬。你可以经常在奥巴马、希拉里的演讲中听到“做同样的工作,女性工资是男性 77%”这个数字。但是,“同工不同酬”引用的美国劳动统计部报告第一页就写明他们“没有控制很多可能显著影响男女工资差异的因素”,比如工作时长,受教育程度,效率等。事实上,美国同种工作内的性别工资差异并不是因为雇主歧视,详细原因请看这里:「男女同工不同酬」是事实,为什么公司不全部招聘女性,以获得同等的生产力并节约成本? - Yiqin Fu 的回答

--

政治新闻看多了,各类“误导”方法很容易就积累一打:

GDP 数字漂亮的时候强调 GDP,通货膨胀数字好看的时候强调通货膨胀。夸自己就说“失业率低”,批评对手就说“失业率低只是因为很多人都不找工作了,所以没算在经济活动人口里面”。

绝对数字漂亮的时候强调绝对数字,百分比好看的时候强调百分比。希望增长的数字和去年相比有下降,那就和过去五年相比。希望下降的数字还在不停增长,那就说“增长率下降”

某地商品房连续四年的均价分别为 1 万、2 万、3.8 万、7 万。看到这组数据,你必定会大叫:天哪,房价真是涨得越来越厉害了!不过事实却恰恰相反:这四年的房价增长率竟在逐年降低。

不过也不仅是政客。只要是做 PPT 的行业,大家这种事都干过不少吧。

--

最后一类“数据说谎”我都不太好意思放在这里。如果前面只是误导的话,下面就是赤裸裸的谎言了。

例如特朗普转发的这张图片,信息来源“旧金山犯罪统计局”根本不存在,数据也每个都是错的。(但居然有 5,800 个赞和 7,700 次转发!)

所以再一次提醒大家:

不是只要带图带数字的就是真相!请仔细核查信息来源!不谈解读,很多数据本身就是错的。

最后送上一个饼图:


Ask me anything: Yiqin Fu 的值乎 - 说点儿有用的

转载请注明:微图摘 » 数据会说谎,这里有一些真实的例子

喜欢 (0)or分享 (0)
发表我的评论