那些反直觉的统计学悖论(下)
作者: 读裁者 黄远辉,专注人文历史,质量标准,知识产权
推荐书单:小岛宽之《统计学关我什么事》,纳西姆·尼古拉斯·塔勒布《随机漫步的傻瓜》,佩尔西·戴康尼斯、布赖恩·斯科姆斯《10堂极简概率课》,马恺文《大概率思维》,萨尔斯伯格《女士品茶》,喻颖正《人生算法》,汉斯·罗斯林、欧拉·罗斯林、安娜·罗斯林·罗朗德《事实》,朱迪亚·珀尔、达纳·麦肯《为什么:关于因果关系的新科学》。








接上篇(上篇请关注回看)……
三、生日悖论
生日悖论来自一个案例,是指在不少于23个人中,至少有两人生日相同的概率大于50%。例如,在一个30人的小学班级中,两人生日相同的概率可以达到70%。对于60人的大班,两人生日相同的概率要大于99%。生日悖论其实并不是一种"悖论",只是这个数学事实十分反直觉,故称之为一个悖论。
一年中有N=365天,设有n个人,要计算所有人的生日都不相同的概率,第一个人的生日是365选 365,第二个人是365选364,第三个人365选363……第n个人的生日是365选365-(n-1),因此所有人生日都不相同的概率为:

经推算,P≈1-exp-n(n-1)/2n,n个人中有至少两个人生日相同的概率是P,则n与P的对应关系如下表所示:

理解生日悖论的关键在于领会相同生日的搭配有很多种,23种可以产生C(23,2)=253种不同的两两搭配,从这样的角度看,在253种搭配中产生一对成功的配对还是比较常见的。
四、赌徒谬论
我们来抛一个硬币,正面朝上的机会是0.5,连续两次抛出正面的机会是0.5*0.5=0.25,连续三次抛出正面的机会率等于0.5*0.5*0.5= 0.125……如此类推。现在假设,我们已经连续4次抛出正面,犯赌徒谬误的人则会说:"如果下一次再抛出正面,就是连续5次。连抛5次正面的机会率是(1/2)5=1/32。所以,下一次抛出正面的机会只有1/32。"以上论证步骤犯了赌徒谬误,假如硬币抛出反面的机会率永远等于0.5,不会增加也不会减少,则抛出正面的机会率同样等于0.5,连续抛出5次正面的机会率等于1/32。
赌徒谬论亦称为蒙地卡罗谬论,是一种错误的信念,以为随机序列中一个事件发生的机会率与之前发生的事件有关,即其发生的机会率会随着之前没有发生该事件的次数而上升。假如我们扔硬币100000次,这就遵循大数定理,当我们大量重复某一相同试验时,最后的结果会稳定在某一数值附近,但把大量重复事件的规律运用在少数独立事件上就会犯错。
五、被放弃的"概率权"
现在我给你2元钱现金,或者花2元钱给你买一张彩票(比如双色球或大乐透),你会选哪个?大概率,我猜你会要彩票。关于买彩票的行为,很多学者都过研究。他们发现,在涉及"小概率事件"时,在成本比较低的情况下,大家会从风险厌恶者,反转为风险偏好者,非常乐意赌一把。为什么会这样?这就是"侥幸"心理所致。反正损失不大,万一真的中奖了呢?
我们假设现在餐厅搞活动促销,吃饭打95折,但是顾客可能一点感觉都没有。我们试着改个方式来促销,所有顾客吃完饭,都可以掷一次*子骰**,掷出三个6的话,这顿饭免单。掷出三个6的概率是多少?1/6*1/6*1/6=1/216,算成打折相当于打千分之五折,远不如前面的九五折实惠嘛。但是,因为"迷恋小概率事件"的心理,很多顾客一定会摩拳擦掌试一试,万一中了呢?
老喻(就是推荐书单中《人生算法》的作者)写过一篇文章,叫《被放弃的"概率权"》。文章一开始,老喻就问了一个问题,假如给你两个选择:A.直接得到100万美元;B.你有50%的机会得到1亿美元,还有50%机会什么都得不到。你会选哪个?大多数人都会选择第一个。因为,无风险实实在在得到100万美元,何乐而不为。第二个选择,虽然有机会获得1亿美元,但也有50%的可能一分钱都得不到,想想就不甘心。
我们来看看,富人是怎么将这个有50%机会获得1亿美元的选择权产生巨大价值的。既然有50%的机会得到1亿美元,说明这个选择权的价值是5000万美元,这个世界一定有比你更有钱、更愿意冒险的人存在,他们想试试手气。于是,我们以1000万美元甚至2000万美元卖掉这个5000万美元的选择权。如此一来,你赚得是不是远比100万美元要多得多。
富人甚至还可以这样交易:"我把这个价值5000万的选择权卖给你,但是首付100万美元,如果你中了一个亿,我要求再分成一半,你觉得怎么样?"如此一来,你可以得到100美元,外加50%概率获得5000万的机会。读到这里,大家心里应该已经竖起大拇指,厉害了,还可以这样操作,富人果然套路多。
穷人思维拥有者,会局限于本能,盯紧利益,看不见概率。富人思维拥有者,会跳出本能,既看见利益,也看见概率,并看见这个概率背后更大的盈利可能。然后,富人用实际行动,让这个概率权变现为财富。
六、基本比率谬误
什么是基本比率谬误?当我们判断某个事件发生的可能性时,如果我们忽略了重要信息,就会产生误判。比如,有一个人说他很喜欢音乐,我们可能认为他是一个音乐家,不会考虑他也许是个会计师。然而现实中,会计师的人数远大于音乐家的人数。我们太容易被一些条件影响(这个例子中的"喜欢音乐"),忽略基本比例,从而得出错误的结论。
基本比例谬误是怎么发生的?这个谬误常常发生在当一个选项的基数远大于另一个选项的基数时,我们举一个著名的案例——琳达问题。关于琳达的描述:琳达30岁,单身,性格直爽,非常聪明,主修哲学。大学里,琳达特别关注性别歧视和社会公平,参加过反对核*器武**的*行游**活动。那么,根据这段描述,你再来回答一下,以下哪个判断成立的概率更大?A.琳达是个银行柜员;B.琳达是个支持女权主义的银行柜员。心理学家试验后发现,很多人会选第二个选项。大家都觉得第二个选项更符合琳达的实际情况,但这显然不对,因为琳达是银行柜员的概率肯定比她是个支持女权主义的银行柜员的概率更高。
七、女士品茶
《女士品茶》这本书在统计学领域的地位,相当于《苏菲的世界》这本书在哲学界的地位。一本讲统计学的书,为什么会取《女士品茶》这个名字呢?如果不打开看一下,都不知道这是一本讲统计学的书,还以为是讲贵妇小资生活的八卦书呢。
这个名字来自一本书,1935年统计学家费希尔出版的《实验设计》。某个下午,英国剑桥的一群大学老师和他们的妻子一起喝下午茶。其中一位女士突然就说:把茶加到牛奶里,和把牛奶加到茶里,两种方法调出来的下午茶喝起来味道不同。在座的科学家们纷纷表示不屑,无论是先加茶还是先加奶,混合以后的成分可是一样的啊。但口说无凭,为了验证这位女士的观点,其中一位又矮又瘦的男士就设计了一个实验,一群有钱又有闲的科学家们就这样兴致勃勃地投入到了这场实验中。
"女士品茶"其实只是个引子,这场实验的最终结果如何,作者后来也没提及,但是这个故事却反映出了统计学的本质。作为一门应用科学,统计一直是从实际问题出发,它的本质就是借助数学工具来解决现实问题,比如验证这位女士关于品茶的观点,大到可以预测国家的宏观经济发展以及全球范围的金融风暴等。统计学其实就是基于问题,收集数据、分析数据、解读数据的过程。
19世纪末20世纪初,有一小撮人的统计发现开始动摇决定论的统治地位,掀起了20世纪统计革命的序幕。这群人中有高尔顿,高尔顿的学生皮尔逊,皮尔逊的朋友戈赛特,以及通过戈赛特认识了皮尔逊、并在后来与皮尔逊结下梁子的费希尔。
高尔顿有个重要的统计发现——"回归现象"。从遗传学的角度来看,父母高的话,孩子也应该高,父母矮的话,孩子也应该矮,但是实际测量的数据却不是这样。整体来看,孩子的身高其实都有一个逐步向人类平均身高靠拢的现象,高尔顿将这种数据向总体平均值靠拢的现象称为"均值回归"。
高尔顿的学生卡尔·皮尔逊首次将"均值回归"的思想以公式的形式完整表达出来。1895年,皮尔逊第一次在科学史上明确地阐述了实验数值的随机性,所有出现的观测值都可能符合某种规律性。皮尔逊告诉大家都别为自己的实验误差纠结,世界本来就是测不准的,每次的实验结果都是随机出现的。科学研究的主要工作不在于研究具体数据,而在于发现这种规律性。
皮尔逊的统计思想颠覆了人们认知世界的方式,决定论的观点渐渐被取代。人们开始认识到,万事万物不见得一定是因果关系,而是相互作用相互影响的相关关系,人们也逐渐接受了实验结果的随机性。这种事物间的相关性以及数据分布的随机性,也得到了科学界的普遍认可。这个观点,朱迪亚·珀尔在《为什么:关于因果关系的新科学》一书中也有提及,朱迪亚·珀尔在该书中回答的核心问题是:如何让智能机器像人一样思考?作者认为,今天为我们所熟知的大部分机器学习技术,都建基于相关关系,而非因果关系。要实现强人工智能,乃至将智能机器转变为具有道德意识的有机体,我们就必须让机器学会问"为什么",也就是要让机器学会因果推理,理解因果关系。
皮尔逊的思想不仅改变了人们认知世界的方式,同时也直接改变了科学研究的对象。在皮尔逊等人的努力下,统计学成为了处理概率的基本工具。后来戈赛特和费希尔重新定义了一些统计概念,纠正了皮尔逊的一些错误。尤其是费希尔,极具原创性,他提出的实验设计方法、方差分析法、回归分析方法等,很快成为许多学科的研究基础,他出版的教材和论文也极大地推进了统计学在各领域的应用。
总的来说,整个20世纪的统计革命虽然起源于皮尔逊的思想,但整个理论框架和研究方法体系却是由费希尔搭建起来的。所以,《女士品茶》是一部关于统计学历史与变革的书,该书以一种全新的视角带领大家进入统计学的世界,体会统计学带给哲学观、宇宙观的变革。
其他一些反直觉的统计,比如彩票悖论、辛普森悖论、威尔·罗杰斯悖论、排序不等式、本福特定律等,建议大家可以参考我前面推荐的阅读书单,限于篇幅,以后有机会我们再展开聊。