究竟是数据在说谎,还是逻辑在说谎?

知乎日报 Han Hsiao 188℃ 评论

究竟是数据在说谎,还是逻辑在说谎?

图片:Yestone.com 版权图片库

「数据会说谎」的真实例子有哪些?究竟是数据在说谎,还是逻辑在说谎?

Han Hsiao,不想当心理学家的数据科学家不是一个好分析师。

Numbers don't lie.

看统计报告时要注意的点。

一、数据来源如何说谎

最简单的层级,在查阅统计报告之前首先应该关注的是报告出处以及数据来源。以工业品和消费品为例主要的数据来源如下所示:

关于数据的来源我们需要注意四点:

(1). 数据发布机构是否权威?(代表性)

网上主流的数据资源太多,以下列举一些,不一而足。

(2). 是否是发布机构原版文件?(可信度)

(3). 数据采集面向的对象?(调研主体)

举例说明。产品可分为工业类产品和消费类产品,它们在基本属性、购买特征、营销理念等方面有本质的不同,所以需要调研的主体不同。

  • 工业类产品:供需双方一般都是企业,需要了解总产值、总产量、销售总额、销售总量,所以调研主体以企业为主。
  • 消费类产品:面向大众消费者,统计口径一般是零售市场消费总量、总额,所以调研主体以个体消费者为主。

(4). 数据是一手数据还是二手数据?(时效性,相关性)

  • 一手数据(Primary data)也称原始数据。指通过人员访谈、询问、问卷、测定等方式直截获得的,时效性和相关性更好。
  • 二手数据(Secondary data)利用文献,统计年报以及数据库等前人统计好的数据资料。优点是获取成本低,且现成可用。一般可以长时间保存,生成数据趋势图方便。

栗子:研究人员希望了解工人在遇到工伤后返回工作的情况。

  • 一手数据:通过电话采访工人,询问他们多久时间能回到工作、以及返回到工作流程等问题。研究人员得出结论,包括返回到工作流程包括提供优惠住宿,以及为什么一些工人拒绝了这样的提议。
  • 二手数据:包括政府,企业的健康和安全记录,例如工人的受伤率,以及工人在国内不同行业的数据。研究人员发现了工伤索赔额度与全职工人工资额度之间的数量关系。

最后将两个数据源相结合,研究人员便能够找到那些能够让受伤的工人愿意马上回到岗位的因素。

通过例子可以看出,一手数据提能够提供量身定制的信息,但往往是需要很长的时间以及昂贵的成本。二手数据通常是能够廉价的取得,而且可在更短的时间内进行分析,但由于数据获取的初始目的可能与研究目的不相关,需要梳理信息来提取您要找的内容。数据研究人员选择的类型时候应该考虑很多因素,包括所研究的问题,预算,技术和可用资源。基于这些因素的影响,他们可能会选择使用一手数据或二手数据,甚至两者兼备。

(5). 数据采集方式是什么?(投票方式)

在网络上进行投票还是在现实中分发问卷有很大的不同,两者都有很多细节点需要注意。

  • 网络投票:如何防止机器人,恶意投票以及 UI 的设计是关键。可以参考推荐系统的用户反馈设计。
  • 现实问卷:如何设计题目(逻辑性、完整性、非诱导性)以及投放方式(时间、地点、对象)是关键。可以参考调查问卷的设计与评估 (豆瓣)

二、数据统计如何说谎

数据统计中常常会出现的谎言,这是因为虽然原始的数据相同,但是数据处理的过程不同。具体情况通常可分为四种:抽样方法、样本量、异常值处理及统计指标。

(1). 抽样方法的区别

整体样本的维度,粒度和取数逻辑相同的情况下,不用的样本抽样规则会使数据看来更符合或不符合“预期”,从而实现特殊目的。我们知道最基本的定量研究的抽样方法分为两类,一类为非概率抽样,一类为概率抽样。其中概率抽样方法分为四种:

  • 随机抽样(Simple random sampling)

方法:将调查总体的观察单位全部编号,再随机抽取部分观察单位组成样本。

优点:操作简单,均数及相应的标准误计算简单。

缺点:总体较大时,难以一一编号。

  • 系统抽样(Systematic sampling,又名机械抽样、等距抽样)

方法:先将总体的观察单位按某一顺序号分成 N 个部分,再从第一部分随机抽取第 k 号观察单位,然后依次使用相等间距,从每一部分各抽取一个观察单位组成样本。

优点:易于理解、简便易行。

缺点:总体有周期或增减趋势时,易产生偏差。

  • 整群抽样(Cluster sampling,整体抽样)

方法:总体分群,再随机抽取几个群组成样本,群内全部调查。

优点:便于组织、节省经费。

缺点:抽样误差大于单纯随机抽样。

  • 分层抽样(Stratified sampling)

方法:找到对观察指标影响较大的某种特征,从而将总体分为若干个类别,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。有按比例分配和最优分配两种方案。

优点:样本代表性好,抽样误差减少。

缺点:抽样过程繁杂。

各种抽样方法的抽样误差一般是:整群抽样≥单纯随机抽样≥系统抽样≥分层抽样。

栗子 1:在建立客户流失模型时,使用分层抽样。假如两次调研的抽样样本分别是最近一年未消费流量的客户和最近一年未消费流量但经常收发短信的客户,不用做测试基本上就可以确定后者的流失可能性更小。而如果使用随机抽样则很难得出上述结论,所以数据抽样方法的选择对结论影响较大,实际操作时具体需要深入到 SQL 查询逻辑的研究。

栗子 2:普林斯顿大学的信息技术政策中心(CITP)和北卡罗莱纳州大学教堂山分校(University of North Carolina at Chapel Hill)在 2013 年发表了一篇文章《Big Data: Pitfalls, Methods and Concepts for an Emergent Field:大数据:一个新兴领域的陷阱、方法和概念》。通过实验对一些市场营销人员发出警告:请首先确认抽样的方法是否能够真正地覆盖的整个市场,不要对从社交媒体渠道(如 Twitter 和 Facebook)收集的消费者数据过于自信。

1.Inadequate attention to the implicit and explicit structural biases of the platform(s) most frequently used to generate datasets (the model organism problem).

2.The common practice of selecting on the dependent variable without corresponding attention to the complications of this path.

3.Lack of clarity with regard to sampling, universe and representativeness (the denominator problem).

4.Most big data analyses come from a single platform (hence missing the ecology of information flows).

作者 Zeynep Tufekci(博客地址:technosociology,北卡罗来纳大学教授)通过描述对果蝇进行生物测试的方法,质疑很大程度上依赖社会化媒体形成的大数据方法论。大多数的大数据集(Big datasets)研究只包含“节点到节点”(Node-to-node)之间的信息互动;然而面对社会中的群体性事件,无论是通过经验分享或通过广播媒体传播,“场”(Field)效应的地位更加重要。一个典型营销活动(Twitter、Facebook 上)的用户参与百分比只有 10%,只代表一定的细分市场,可能扭曲调查结果。这些市场调差报告不能准确反映市场的数据,所以无法据此制定出可靠的未来计划。

(2). 样本抽取的区别

从严格意义上来说统计范围的选择问题并不一定是故意欺骗,因为在数据采集的实践中确实存在样本量失衡的情况,如果遇到这种情况一般使用欠抽样(Oversampling)和过抽样(Under-sampling)进行样本平衡。通常来说样本的问题主要分为以下三种情况:

  • 样本抽取的数量。这一点很容易理解,数据样本量差距越大,可比性越小。尤其是在样本分布不均时,数据结果可信度低。
  • 样本抽取的主体。为了制造某种统计结果而故意选择对结果有利的样本主体。如针对农村用户和城市用户统计某手机市场占有率,后者结果肯定优于前者。
  • 样本抽取的客观环境。比如做运营商网站用户体验分析(User Experience,简称 UE),ISO 9241-210 标准中对用户体验的定义有如下补充说明:用户体验,即用户在使用一个产品或系统之前、使用期间和使用之后的全部感受,包括情感、信仰、喜好、认知印象、生理和心理反应、行为和成就等各个方面。三个影响用户体验的因素:系统,用户和使用环境。如果测试方法都没有完全相同的客观环境,即使选的是相同样本和用户,分析结果可信度依然较低。

更多资料推荐:

抽样调查设计导论 (豆瓣)

Sampling (豆瓣)(豆瓣版本老,现在有 09 年新版)

(3). 离群值处理方法的区别

离群值(Outlier,异常值):指样本中的个别值,其数值明显偏离其所属样本的其余观测值。

离群值与非离群值之间并没有明显的区别。实际上,用户必须指定一个阈值,以便界定离群值。偏差度高于这个阈值的所有集群被标记为离群值集群,它们的成员都是离群值。如上图中所示。如果设定阈值 600,则 Cluster3 为离群值。

目前对离群值(Outlier)的判别与过滤主要采用两种方法:物理判别法和统计判别法

  • 物理判别法:根据人们对客观事物已有的认识来判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果。
  • 统计判别法:给定一个置信概率,并确定一个置信限,凡是超过此限的误差我们就认为它不属于随机误差范围,将其视为异常值过滤。

通常面对样本时需要做整体数据观察,以确认样本数量、均值、极值、方差、标准差以及数据范围等。极值很可能是离群值,此时如何处理离群值会直接影响数据结果。

栗子:某一周的手机销售数据中,存在异常下单行为导致某一品类的销售额和转化率异常高。如果数据分析师选择忽视该情况,结论就是该手机非常热销抓紧供货,但实际情况并非如此。通常需要把会把离群值拿出来,单独做文字说明。

(4). 统计方法的区别

我们都知道,平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数(均值)和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。

平均数在数学中可分为,算术平均数(arithmetic mean),几何平均数(geometric mean),调和平均数(harmonic mean),加权平均数(weighted average),平方平均数(quadratic mean)等。一般人大家所说的“平均数”就是算术平均数,即 N 个数字相加然后除以 N。而“平均数”在统计学中包含三种:算术平均数、中位数、众数,都是用来描述数据平均水平的统计量。

  • 算术平均数(Arithmetic mean):一组数据中所有数据之和再除以数据的个数。

  • 中位数(Median):将所有数值从高到低排列,最中间的数值。

栗子:1,2,3,4;排序后发现有 4 个数怎么办?

若有 n 个数,n 为奇数,则选择第(n+1)/2 个为中位数;若 n 为偶数,则中位数是(n/2 以及 n/2+1)的平均数。所以此例中位数为 2.5。

  • 众数(Mode):所有数字中出现频率最高的数值。

栗子:1,1,2,2,3,4 的众数是 1 和 2。如果所有数据出现的次数都一样,那么这组数据没有众数。例如:1,2,3,4 没有众数。

通过公式我们可以看出:算术平均数易受极端数据的影响。中位数不受分布数列的极大或极小值影响,在一定程度上对分布数列的具有代表性。但缺乏数字敏感性,有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。众数不受极端数据的影响,而且具有明显集中趋势点的数值,能够代表整组数据的一般水平。在这三个平均数中,算数平均数是能够取得最大数字的平均数,所以,一般的统计调查都用的是这个做结论,比如平均工资。所以有时候大家会发现自己的工资“被平均”了,或者拖后腿了就是这个原因。2013 年北京月平均工资 5223 元

结论:对于不同的统计平均值的方法,得出的数据结论是不一样的。有太多人利用本来正确的统计数据来穿凿附会得出自己需要的结果,有些原始的统计数据往往是由权威机构或人士做出的,只是被其他人赋予了原调查目的之外的其他意义。 所以一般见到平均数后,首先查明使用的是哪种平均数计算方法,然后试着用另外两种分析一下,看看是否有破绽。

更多资料推荐:

Mind on Statistics (豆瓣)

统计学 (豆瓣)

Applied Multivariate Statistical Analysis (豆瓣)

三、数据可视化如何说谎

统计数据的表现方法千差万别。虽然数据相同,但表述方式不同,呈现的效果也不同。

(1). 图表长宽

由《系统事务平均响应时间趋势图》可见,将图表的长宽比(长=横轴,宽=纵轴)从 1:1 拉伸到 2:1 后,数据发展趋势明显变缓。如果需要突出数据的爆发性增长,可以缩短时间间隔或记录次数(横坐标)。

  • 左图暗示“系统事务平均响应时间在测试场景开始以后快速突破 150 秒”
  • 右图暗示“系统事务平均响应时间随着测试场景执行时间延长逐渐增加”

(2). 取值间隔

由上图可知,如果数据的取值间隔划分过大(等比数列 1,10,100,1000,10000)而不是标准等差数列(1,2,3,4),则数据之间巨大差异会被缩小。

  • 左图暗示“湖北、河南、江苏总产值排名前三远超其他省市”
  • 右图暗示“各省市总产值相差并不太大”

(3). 数据标准化

数据标准化也是归一化的过程。在数据分析之前通常需要先将数据标准化(Normalization),目的是去除奇异样本数据(相对于其他输入样本特别大或特别小的样本矢量),将数据按比例缩放,使之落入一个小的特定区间。或者去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,而且能保正程序运行时收敛加快。

如上图所示,正态分布中的各类分段方法。包括: Standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nine, percent in stanine.(Standard score)

数据标准化常用方法有“Min-max”、“Z-score”、“Atan”和“Decimal scaling”等。

  • Min-max 标准化(Min-max normalization)

适用于原始数据的取值范围已经确定的情况,缺点是当有新数据加入时,可能导致 Max 和 Min 值变化需要重新定义。设 MinA 和 MaxA 分别为属性 A 的最小值和最大值,将 A 的一个原始值 x 通过 Min-max 标准化映射成在区间【0,1】中的值,公式为:

  • Z-score 标准化(Zero-score normalization)

又名标准差标准化。经过处理的数据符合标准正态分布,均值为 0,标准差为 1。设μ为所有样本数据的均值,σ为所有样本数据的标准差。公式为:

  • Atan 函数转换

使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于 0,小于 0 的数据将被映射到[-1,0]区间上。所以通过 atan 标准化会映射在区间【-1,1】上。

  • 小数定标标准化Decimal scaling

通过移动数据的小数点位置来进行标准化,小数点移动多少位取决于属性 A 的取值中的最大绝对值。这个方法比较容易理解

一个简单的例子对比如下图所示:

了解更多:

数据可视化经典例子:

四、结束语

数据如同金矿,需要人使用工具来开采、提炼、加工。

所以数据不会说谎,使用数据的人才会说谎;有些人是无意,有些人是蓄意。

祝每一个 DMer 都挖掘到金矿和快乐:)

参考文献:

[1].维基百科Sampling (statistics)
[2].数据抽样方法(浙江大学《数据统计》)
[3].常见的“数据说谎”(TonySong,Webtrekk Business Consultant)
[4].融合过抽样和欠抽样的不平衡数据重抽样方法
[5].《Asking The Right Questions:A Guide to Critical Thinking:学会提问 - 批判性思维指南》
[6].《How to Lie with Statistics:统计数字会撒谎》
[7].《Big Data: Pitfalls, Methods and Concepts for an Emergent Fielde》
[8].primary data and secondary data
[9].性能测试中常见的 loadrunner analysis 误导
[10].《Data Mining: Concepts and Techniques》, Jiawei Han and Micheline Kamber

[11].Data Normalization and Standardization

转载请注明:微图摘 » 究竟是数据在说谎,还是逻辑在说谎?

喜欢 (0)or分享 (0)
发表我的评论