如何用统计学判断学生是否作弊？

图片：geralt / CC0

有哪些「这也能用数学证明」的事件？

鹿门月照，如果有来生，愿做一条帅气的小鱼。

用统计学证明学生作弊。

之前看过一个故事，讲魔鬼经济学的作者史蒂芬·列维特用统计学方法抓作弊学生，当时看完觉得挺有趣的。

美国某个大学的教授怀疑有一些学生在一门自然科学导论考试中作弊，这门课程有三次期中考试和一次期末考试，但是在第三次期末考试的时候，有学生和助教反应有人作弊，助教和教授一说这事，教授开始生气，他先是发了一封邮件给全体学生：同学们，作弊是可耻的，你们要当好孩子。然后没人理他。。。教授再发邮件：我会请专家来调查这事的，你们最好坦白从宽。照样没人理他。。。

教授一看这群孩子软硬不吃，还就真的把专家列维特请来了。

列维特干起活来不含糊，在最后一次期末考试中，他先让助教和学生说自由选择座位，当学生兴冲冲地和自己希望的人坐在一起之后，再突然宣布随机调换位置，把坐一起的人分开，再给试卷分个 AB 卷，再增加监考的助教人数，把学生作弊的路堵得的死死的。

拿到考试结果的数据之后，列维特就开始分析。

首先第一步就是检测学生有没有作弊。列维特的判断标准是，哪些学生提供了相同的错误答案。考试题目全部是单选题。之所以看不看哪些学生提供了相同的正确答案，是因为这些学生可能会在一起学习从而让他们掌握的知识水平差不多。（毕竟对的答案只有一个，错的答案千差万别）列维特的想法是作弊最有可能发生在左右相邻的学生之间。因为在之前的考试中座位都是可以自己选的，那么左右学生拥有最好的作弊条件。

分析结果发现，主动选择座位坐在一起考试的学生，考试共享错误答案的概率是预期的两倍。而一旦学生的座位随机，错误答案一致的高概率就消失了。

这里还有一个问题，就是犯同样错误的人是不是因为平时关系比较好，然后他们一起学习交流，从而导致他们对知识的掌握水平差不多，因此大家都犯一样的错误。

列维特解释是这样的，如果这个假设成立，那么座位前后相邻的学生应该也会倾向于答错同样的题目，但在数据里看不到这样的结果。

并且列维特还记录下了之前那些在期末考试中主动坐在一起然而随机调换之后没有坐在一起的学生的共享错误率，也并没有发现异常。

因此，肯定是有人作弊了。

那接下来，就得抓作弊的人了。

列维特用多元 logit 模型算出每名学生在各次考试中答对 / 错每道题目的概率（不知道咋算的），这样就可以算出两个人之间彼此独立时得到同一错误答案的概率。这样一算就发现某些左右相邻的学生算出来的概率和实际上两人同时犯错的概率有很大差异。把算出来的概率和实际的概率做差，并画出密度分布，可以发现某些座位左右相邻的学生明显集中于差值最大的 1% 区间之内。而相对于彼此独立的情形，1% 区间中的实际密度要高出 62 倍。这些学生明显是最有可能实施了作弊的学生。当然这只是可能，并没有说确定他们就是实施了作弊的学生。

之后大学教授把 12 个找出来的「最可疑」的学生的提交学院来进行调查，而有 4 个学生在调查听证会之前就承认作弊。不过调查最终还是由于学生家长的压力夭折了。。。不过大学教授也是个狼人，他直到下学期的第一天才公布这 12 名可疑的学生的成绩，导致他们无法获得奖学金。这明显是个惩罚性行动，但是，12 名被指控的学生没有一个提出申诉或要求赔偿。

我当时看完之后就是：