魔鬼级统计学 (魔鬼统计学大数据比你更懂你)

对于一件事情的预判，如果专家基于多年经验与直觉得出的结果，和基于数据统计的结果不一样的时候，你会更愿意相信哪一个结果呢？

更有甚者，如果你就是这个决策者，根据以往的经验和直觉所作出的决定，如果有人拿着完全不一样的数据分析结果来“挑战”你的时候，你是该坚持自己的判断，还是选择相信数据的真实呢？

计量经济学家伊恩·艾瑞斯，在他的《魔鬼统计学》一书里，就这个问题，开篇就介绍了两个特别有意思的案例故事来引发我们的思考。

魔鬼统计学pdf,魔鬼统计学书籍

第一个案例故事和葡萄酒品鉴这一高端行业有关。

作为普林斯顿的经济学家，奥利·阿森费尔特对葡萄酒的品鉴十分着迷。他通过数据分析和统计量的方法，推出了一个计算葡萄酒品质的公式，如下：

葡萄酒品质 = 12.145 + 0.00117 × 冬季降水量 + 0.0614 × 生长季平均气温 - 0.00386 × 收获期降水量

只要把相关数据代入公式，就可以轻松预测出任何年份的葡萄酒品质。

但是，当时的传统葡萄酒评论家可不接受阿森费尔特的这种预测公式。尤其是在当时颇有影响力的葡萄酒评论家罗伯特·帕克看来，阿森费尔特无疑就是个「彻头彻尾的*子骗**」，哪怕阿森费尔特是世界上最受尊重的计量经济学家之一，但对帕克而言，这种数据公式的方法「是尼安德特人看待葡萄酒的方式。它太荒谬了，简直不值得嘲笑」。

魔鬼统计学pdf,魔鬼统计学书籍

那么，传统的专家是如何来鉴定葡萄酒品质的呢？

本书里提到，像波尔多和勃艮第的葡萄酒需要在橡木桶里存放18到24个月，然后封装在酒瓶里。像帕克这样的专家在葡萄酒装进酒桶4个月以后就能开封品尝，进而预测出葡萄酒的品质。而当时的帕克则是认为1986年的葡萄酒「非常好，简直称得上出类拔萃」。

但事实上，才封存 4 个月的葡萄酒，不过是正在发酵的非常难闻的混合物。这样想来，品尝这种无法饮用的早期葡萄酒而得出的品质鉴定，又能有多少的准确性和说服力呢？

魔鬼统计学pdf,魔鬼统计学书籍

而当时的阿森费尔特，根据他简化出来的公式，算出1989年的波尔多葡萄酒才是「这个世纪的葡萄酒之选」，更有甚者，还预测出1990年的葡萄酒将会是更为优秀的年份酒。

随后，他公开批评了帕克对1986年波尔多葡萄酒的评估，也因此激怒了当时的葡萄酒评论家。最后，这些行业专家联合起来，试图诋毁阿森费尔特和他的计算公式，甚至还集体为1986年的葡萄酒唱颂歌，称之为伟大的年份酒。

虽然，经过时间的检验，最终是证实了阿森费尔特的预测结果才是正确的。本书作者特意查询了拉图庄园最近的拍卖价格——很显然，1989年葡萄酒的价格是1986年葡萄酒的两倍多，1990年葡萄酒的价格还要更高。

魔鬼统计学pdf,魔鬼统计学书籍

诚如作者在书里所言，有时候正确并不总是受人欢迎。阿森费尔特的公式让公众可以轻而易举获取相关的信息，打破了葡萄酒品质的行业信息垄断，触及了交易商和专家的利益，也难怪会被集体*制抵**了。

而我们此刻能够这般轻松地谈论这件事，认可数据分析的结果，也不过是因为不涉及我们自己的利益，且公式的计算对象是葡萄酒这样的实物罢了。

魔鬼统计学pdf,魔鬼统计学书籍

那么，倘若有人试图用数据来分析球员的天赋，又会是如何呢？

在本书作者讲述的第二个案例里，有着「棒球界的奥利·阿森费尔特」之称的比尔·詹姆斯，同样对棒球专家通过观察判断球员天赋的方式提出疑问，认为肉眼无法分辨优秀击球手和普通击球手之间的差异，只有借助数据分析才能判断出来。

当奥克兰运动家队总经理比利·比恩，根据詹姆斯推导的公式，数字分析结果选出杰里米·布朗时，同样遭到了球探的嘲笑。因为布朗很胖，所以球探不认为这样的身材体型可以在大联盟打球，甚至嘲笑说，如果布朗穿着灯芯绒服装跑步，「他就会引发火灾」...... 好在，最后的比赛成绩再次证明了数字分析的先见之明。

魔鬼统计学pdf,魔鬼统计学书籍

在这两个案例故事中，虽是不同的行业领域，但核心的争议点都是一样的，即：当我们试图预测未经检验的不成熟产品的市场价值时，到底应该依靠专家的观察，还是定量数据呢？

很明显，这两个案例故事里，专家的经验和直觉都败给了数据分析，且作者在书里还特意强调，这绝不是孤立事件。

因为在我们的人脑里，往往存在着一些已被证实却未必能被我们及时意识到的认知缺陷和思维偏差，它们会影响我们的准确预测能力。

魔鬼统计学pdf,魔鬼统计学书籍

所以，本书作者用了整本书，分别从法律、医疗、教育等多个领域来讲述一系列关于超级数据分析和直觉经验之间「相爱相杀」的案例故事：

比如，婚恋网站如何利用回归方程和数据分析来匹配人选；企业雇主如何利用数据分析来挑选应聘者；航空公司如何利用数据算法来预测顾客的忠诚度…… 甚至在*场赌**里，如何利用数据信息来预测每个赌徒的「赌博痛点」——在输钱后仍然愿意下次前来光顾的输钱金额，并在赌徒即将达到赌博痛点时，采取一些间接福利来留住玩家…… 等等。

正是在这些领域抽丝剥茧般探究反直觉真相的过程中，作者向我们普及了统计学的基本概念和原则，包括两种基本统计方法——回归和随机化试验，并且展示定量预测艺术是如何改变企业和政府的决策思维。

魔鬼统计学pdf,魔鬼统计学书籍

因着例子里的数据分析而来的结果通常是反直觉，甚至是反常识的，但细思量之下又不无道理，所以才会在书名里标以「魔鬼」二字。显然，这个书名也让我们不自觉地联想到史蒂芬·列维特的同类畅销书《魔鬼经济学》。

虽然两者都试图借助数据的分析来探索我们习以为常的一些生活现象背后的隐秘因果关系。但顾名思义，《魔鬼经济学》更侧重于从经济学的角度来分析数据，写作手法带有侦探小说的笔触，让读者忍不住跟着作者的分析，直到最后的恍然大悟中，升级了自己的「思维认知」。

而本书《魔鬼统计学》，写作手法上相对更为客观理性，侧重于从统计学的专业角度来谈论定量分析对于现实决策的影响程度，尤其是在商业和公共政策领域的运用。但又不仅限于此，在本书结尾处，作者也坦言他一直都在思考未来的直觉、专业知识和基于数据的分析将会如何互动，以生成更好的选项。

简言之，作为《魔鬼经济学》和《长尾理论》的延伸读物，这本《魔鬼统计学》很适合对统计学感兴趣，想要进一步了解自己的直觉思维和数据分析之间的偏差的读者阅读。

毕竟，在大数据时代，掌握统计学的基本方法，正是一个人的底层能力。

魔鬼统计学pdf,魔鬼统计学书籍

「部分图源网络，侵删」

-END-

我是@楚汐思读绘，感谢阅读，期待关注.