贝叶斯定理解释阴谋论 (贝叶斯定理是怎么回事)

贝叶斯定理解释阴谋论,贝叶斯定理讲解

概率思维预测未来

第3章 神奇的贝叶斯定理,做怀疑一切的人

绝大多数科学观察都不是只会发生一次的神奇事件,而是可以根据意愿多次重复的事件。合格的科学家就应该是个怀疑一切的人。

“我这辈子都没见过如此糟糕的一群人。”1 1745年,伊丽莎白·蒙塔古(Elizabeth Montagu)这样评价生活在肯特郡唐桥井温泉小镇上的人。这个小镇吸引着欧洲各地说着多国语言的贵族,以及想要趋炎附势的人。蒙塔古是一个来自伦敦的才女,也是一位贵族。后来,她对唐桥井的评价变得中肯了一些,认为这里“聚集着性格各异的人,使唐桥井成为大千世界中一个小小的缩影”。2

今天,唐桥井也被称为简·奥斯汀村(Jane Austen country)。奥斯汀的爸爸乔治·奥斯汀(George Austen)牧师曾在这里度过童年。当奥斯汀家族家道中落之后,他们又想搬回这个小镇。后来,有了奥斯汀家族的这层关系,唐桥井的经济发展迅速。由于在奥斯汀的小说中被多次提起,这个小镇已经变成了书迷的朝圣地和电影的翻拍胜地。

唐桥井也和英国作家E. M.福斯特(E. M. Forster)有着千丝万缕的联系。长篇小说《看得见风景的房间》(A Room with a View)的女主角露西叹气道:“我已经习惯唐桥井了,在这里我们都无可救药地落后于时代。”在福斯特那个年代,这个衰败的度假胜地就已经被视作英国僵化的保守主义象征。从20世纪40年*开代**始,人们幽默地以“唐桥井的讨厌鬼”为笔名给编辑写信,呈上自己“古板守旧”的评论。

尽管如此,唐桥井依旧是当今世界上最具颠覆性观点的一个诞生地。作为这个小镇曾经的牧师,贝叶斯没有留下什么痕迹。贝叶斯家族几代之前在谢菲尔德做餐具生意发家。3贝叶斯在爱丁堡大学学习神学和逻辑学。在伦敦住了几年后,他于1733年到1734年间搬到唐桥井并成为锡安山教会的牧师。贝叶斯是长老会的非国教教徒,不同意英国教会以及《公祷书》的倡导,但在如今的长老会成员看来,他反对的立场其实并不明确。

贝叶斯并不是因为他布道讲得好而闻名,事实上,他名不见经传,连一幅画像都没有。然而,他和伦敦的科学家圈子有着紧密的联系。第二代斯坦厄普伯爵是一名业余数学家,在唐桥井附近有一幢乡间宅邸,也就是他将贝叶斯引荐进了英国皇家学会。4斯坦厄普伯爵十分欣赏贝叶斯所著的一篇文章,文章里贝叶斯为牛顿微积分辩护,反对贝克莱主教(Bishop Berkeley)对牛顿的批评。这是贝叶斯一生中发表的两篇论文之一,另一篇哲学论文名为《神的仁慈,或者试证神圣旨意及神的治理最终使被造获得幸福》(Divine Benevolence, or an Attempt to Prove That the Principal End of the Divine Providence and Government Is the Happiness of His Creatures)。

启蒙运动中的伟大思想都在摈弃教堂的教义。英国哲学家大卫·休谟在他的著作《人类理解研究》(An Enquiry Concerning Human Understanding)中质疑基督教神迹的真实性,点燃了一场18世纪的文化大战。《圣经》中说,耶稣可以在水上行走,可以将水变成酒,可以使鱼和面包数量倍增,可以使拉撒路(21)复活,还可以复活自己。休谟大胆地提出,法院所用到的证据与证明神迹所用的证据应该是同一套标准。因而休谟更偏向于苏格兰裁定的结论,即这些神迹“未能被证明”。

关于神迹,比较麻烦的一点是它们只发生过一次,也不会为了那些看不到证据绝不罢休的人(22)而重复发生。你必须亲临现场——而大概率你并不会在那儿。休谟认为,我们应当考虑事件本身固有的可能性,也应当考虑其证词的可信度:“永远没有证词充足到可以证明一个神迹,除非‘此证词是虚假的’这件事本身比它想要去证明的东西更加不可思议”。5

数学家和牧师的双重身份将贝叶斯推到了宗教文化大战的前沿阵地。他本来也有理由去琢磨“相信神迹”与启蒙运动的思想是否一致,或者如何达成一致。人们推测休谟对神迹的批判激发了贝叶斯在概率论上的学术成就。6但是,在贝叶斯最具影响力的阐述自己学说观点的论文《机会的学说概论》(An Essay Towards Solving a Problem in the Doctrine of Chances)中,他却既没提到休谟,也没提到神迹。我们也不知道这篇论文是什么时候撰写的。这是在贝叶斯死后,理查德·普莱斯将他写于18世纪40年代末期的手稿整理出版的。

贝叶斯的哲学

概率论起源于*场赌**。吉罗拉莫·卡尔达诺(Gerolamo Cardano)是文艺复兴的终极代表。他是一名哲学家、数学家、物理学家、天文学家、占星家、发明家、化学家、生物学家、内科医生。同时,卡尔达诺赌瘾极大,他承认自己连续25年每天都会赌博。他写了一篇有关概率论的短文,尝试去了解这些年有多少钱从他指缝中溜走。赌徒们已经知道扑克、*子骰**和轮盘的游戏规则了,他们需要知道的是概率:怎样计算抽到两张A、掷两枚*子骰**得到7,或是反复转到红色轮盘的可能性。卡尔达诺与他的法国继承者皮埃尔·德·费马(Pierre de Fermat)和布莱士·帕斯卡(Blaise Pascal)早在贝叶斯之前就提供了这些问题的解决方法。

贝叶斯主要研究了这些问题的反面:逆向概率(Inverse Probability),也称作原因概率。假如我们已经知道了结果(已经拿到手上的这副牌),我们能否反推出一些导致这个结果的原因(荷官是否作弊了)呢?这对于任何一个认真的赌徒来说都是个迫切的问题。

如果这个荷官为了不发到A而耍花招,那这将影响到我会抽中什么牌。贝叶斯定理为此类问题的推理提供了数学框架。从一个先验概率开始,比如从一副无偏差的扑克牌里抽出一张A的概率是1/13。每发一张牌,我都可以将这个概率向上或向下调整,它不但反映出这副牌不断改变的构成,也体现了在和荷官一来一回的交手中,我对对方了解的深入。这一系列调整产生的后验概率,是在新证据的基础上更新先验概率之后得到的。

如果发现自己抽到A的次数一直少于从一副无偏差扑克牌中应该抽到A的次数,那我可以推测它的成因:我面前是一个作弊的荷官或是这副扑克牌缺了A。这个推测绝不是100%确定的,譬如也有可能是我一直非常倒霉。但是,荷官作弊的可能性会随着我一直“倒霉”而增加。虽然我们生活在一个什么都不确定的世界上,但是一个理智的赌徒应该果断放弃那个可能被荷官操纵的赌局。

贝叶斯的《机会的学说概论》被公认是一篇提出了极佳概念却写得一塌糊涂的数学论文。他的阐述被认为是有漏洞的,论证不够清晰且没有真正解决问题——贝叶斯在该文中大量使用晦涩难懂的类比,理解这些类比,比理解它们想要阐明的观点还难。普莱斯的序言给论文加上了贝叶斯本人没能提供的导向性陈述。普莱斯形容这篇论文是一个警示,帮助信徒们信靠他们的终极目标上帝:“这篇文章的目的是解释我们凭什么相信这个世界是某种智慧和超自然力量的产物,以此来证实从最根本原因得出的神存在的论点。”7

普莱斯的观点如今也被称为设计论证(23)。简单来说就是,由于我们已知宇宙像是一台精心打造的时钟,那么我们就可以反过来推论存在一个神圣的钟表匠设计了这台时钟。

不过,贝叶斯的论文纯粹就是一篇数学论文。他的论点从许多方面来说都算是基本常识。下面我们将介绍一些简短精要的贝叶斯哲学。

第一点,“非凡的观点需要非凡的证明”,用这句当代怀疑主义的箴言当作贝叶斯思想的介绍再合适不过了。以休谟举的例子来说,《圣经》里说,耶稣是木匠的儿子,他在很小的时候就用智慧折服了众人。他曾在一座山上对众人布道,也曾在被本丢·彼拉多(Pontius Pilate)下令把他钉在十字架上之前和他的信徒一起吃晚饭。《新约全书》是以上这些言论唯一的来源,大家普遍认为它是真的,但《新约全书》里的神迹却不被非基督徒承认。为什么呢?有一种说法是《新约全书》里四福音书的作者都不可靠。如果真的是这样的话,那《圣经》里的每一件事都很可疑啰?8

这倒不一定。不过,神迹确实是非凡的一种说法,所以需要更严谨的证明。根据我们对世间其他事物的了解,我们会认为神迹这种只发生一次的事件的先验概率非常低。《圣经》手稿里的证据(通常以传记、传说和寓言的方式呈现)并不足以让这个概率上升多少。但是像“耶稣是木匠的儿子”这样的细节会让整个事情听起来更像是真的,以至于连非基督徒都对《圣经》故事将信将疑了。

贝叶斯和普莱斯都是有信仰的人。普莱斯在他的评述中写道,贝叶斯定理并没有否认神的存在,这就给启蒙运动中的基督徒留下了继续相信神迹的理由。9如果能证明神迹发生的人越来越多,那么慢慢地人们就会对神迹的存在确信不疑。

这就是人们对贝叶斯定理最不满的地方,它把可能性究竟是多少留给使用它的人自行判断。的确,贝叶斯定理是有这个问题,但所有用在我们这些凡人身上的规则、法律和信条不都有这个问题吗?

第二点,其实,缺少信息这件事本身也可以透露很多信息。在阿瑟·柯南道尔(Arthur Conan Doyle)的短篇故事《银斑驹》(The Adventure of Silver Blaze)里,福尔摩斯正在调查一起驯马师谋杀案,他发现没有一位目击证人说他们听到了这个马厩看门狗的吠声。如果凶手是陌生人的话,狗是一定会叫的。因此,福尔摩斯推断凶手是看门狗和死者都熟悉的人。

柯南道尔也认同贝叶斯这个颠覆性的想法,即没有证据(看门狗没有叫)和有一个确定性的证据一样可以揭露真相。贝叶斯定理认为,问题的关键是概率的比率。一只狗很可能不会冲着熟悉的人叫,但不可能不冲着陌生人叫。因此,我们会选择相信作案者是一个熟人。

第三点,“当你听到蹄声的时候,应该是马来了,而不是斑马来了”。10在所有条件一样的情况下,我们一般会选择更常见的解释。

再举一个例子,“三年级的时候,我获得了一个足球奖杯”,以下哪种情况更可能是真的?

· 因为我是整个三年级学生里足球踢得最好的,所以我获得了奖杯。

· 这是一个参与奖(所有参加了足球比赛的小朋友都会得到,以示鼓励)。

在第二种情况下我肯定会得到这个奖杯,它不是什么以一敌百的巨大胜利。因此,我们觉得第二种情况更合情合理。就像约翰·莱斯利说的:“一件事情可以被视为普通事件时,不要把它看成是多么特别的。”11我们不应该轻易将现实归因于侥幸、偶然或神奇的巧合。

10还是1000,瓮里究竟有多少个球

春田镇的集市里有一个需要技巧和运气的游戏。现在,有两口一模一样且无标签的瓮,一个里面装着10个球,另一个则有1000个。两口瓮里的球上都标注着连续的数字——从1到10或者从1到1000。参与者选一口瓮,工作人员从里面随机抽取一个球,并向参与者展示上面的数字。接下来,参与者需要猜他选的那口瓮里一共有多少个球以赢得丘比娃娃。

霍默·辛普森(24)决定花1美元参与这个游戏。他选择了左边那一口瓮。

工作人员从左边的瓮里随机选了一个球,上面的数字是7。“好了伙计,这口瓮里一共有多少个球呢?”

“1000个!”辛普森猜道。12

傻傻的辛普森没有用到贝叶斯定理。在没有看到球上的数字之前,我们没有任何理由相信某一口瓮里有1000个球的可能性更大,抽到的瓮的可能性应该是1比1。当随机抽取了一个球之后,辛普森就应该可以用上新的信息了。如果抽到了一个像7这样比较小的数字,我们会认为这口瓮里只装着10个球的可能性大幅提高了。

假如左边的瓮里只有10个球的话,那抽到数字7的可能性是1/10。如果有1000个球的话,抽到数字7的可能性就是千分之一。说实话,从任何一口瓮里抽到数字7的可能性都不大,但是既然现在已经知道数字7被抽中了,我们凭常识会觉得这口瓮总共应该有10个球。常识也会让我们觉得这口瓮里有10个球的概率和有1000个球的概率比是1000:10,也就是100:1。其实,如果用贝叶斯定理来计算的话,我们就会得到这个结果。

下面,我将给出贝叶斯定理的简单说明。你应该听说过假阳性和假阴性吧。医疗测试既可以诊断出我们真正所患的疾病(称为真阳性),也可能会把我们误诊为患了某种疾病(假阳性)。这些术语可以帮助我们准确又简洁地表述贝叶斯定理。我们用某件事情出现真阳性的概率除以这件事情出现的全部阳性(包括真阳性和假阳性)的概率来计算已知实验结果的条件下这件事会发生的概率。

如果你想看更直观的公式的话,请看下方:

P(H|E)=P(H&E)/P(E)

P(H|E)就是我们想要求得的概率。这个概率P代表“已知关于某个假设H(如这口瓮有10个球)的一些证据E(如抽取到一个数字很小的球),这个假设H成立的可能性”。在贝叶斯定理下,我们用“这个假设成立且已知证据支持这个假设(真阳性)”的概率除以P(E),即得到这个证据(无论是真阳性还是假阳性)的全部概率,来计算P(H|E)。

将春田镇集市里的游戏套进贝叶斯公式,检验这口瓮里是否只有10个球。假如我们拿到数字很小的球,即拿到1~10,这就是一个阳性结果,它很可能会让我们觉得这口瓮里只有10个球。如果这个结果真的是我们从一个只有10个球的瓮里抽到的,我们就叫它真阳性。而真阳性出现的概率是50%。

这是因为我们有50%的概率选择从装有10个球的瓮里抽取球。当你选择了有10个球的瓮之后,你抽取的球上的数字一定不会超过10,那么结果就一定是真阳性的(当然,如果你选择的是装有1000个球的瓮,无论你抽到什么数字,结果都不会是真阳性)。

得到所有阳性结果的概率是得到真阳性结果的概率和得到假阳性结果的概率之和。要想得到一个假阳性结果,那就得同时选择有1000个球的瓮并且抽到了10以内的数字。从1000个球的瓮里抽中10以内数的概率只有1%。所以,得到假阳性结果的概率就是50%乘以1%,即0.5%。

总结一下,贝叶斯定理告诉我们,已知从一口瓮里抽取了一个10以内数字的球,这口瓮共有10个球的概率是50%/(50%+0.5%),也就是100/101,或者说比99%多一点。也就是说,左边的瓮中只装了10个球和装了1000个球的可能性之比是100:1,因此辛普森应该很确定左边那口瓮只装了10个球!

这些计算不需要多高深的数学知识,它们只是一些运算常识。辛普森的错误回答源于他认为抽到数字7不是什么有用的信息。假如他抽到的是11或11以上的数字,那么他就可以非常坚定地推测这口瓮里有1000个球了。正因为两口瓮里都有写着数字7的球,所以抽到“7”意味着证据不足,不过任何理性的参与者都不会忽略这个7带来的隐藏信息。

尼克·波斯特洛姆曾说:“理性信仰不仅会受到一系列演绎规则的限制,还会受到概率推论的限制。”13

合格的科学家,怀疑一切的人

贝叶斯的论文《机会的学说概论》吸引了一名非常有影响力的读者,他就是皮埃尔·西蒙·拉普拉斯(Pierre Simon de Laplace)。拉普拉斯是一位法国贵族,同时也是数学家、物理学家、天文学家和无神论者。他将贝叶斯不堪卒读的论文改编成一篇严谨的数学论文。因此,很多人觉得拉普拉斯才是贝叶斯学派真正的创始人,而贝叶斯只不过是有个头衔罢了。14

很多人都读拉普拉斯的文章,不过这也改变不了它很复杂的事实,即便拉普拉斯对原因概率充满热情与抱负。在某些简单的情形中,贝叶斯定理的结果即使不用数学计算也是显而易见的,但在其他的情形中,贝叶斯定理的主观性就让是非对错变得非常难以界定。很多时候,贝叶斯定理的计算非常复杂,很难在纸面上完成。任何尝试亲自计算不断更新的概率的人,往往耗尽了耐心也得不到什么更深入的见解。

接下来的几个世纪,概率论和统计学开始另辟蹊径。我们认为绝大多数科学观察都不是只会发生一次的神奇事件,而是可以根据意愿多次重复的事件。合格的科学家就应该是个怀疑一切的人,除非亲眼看到,否则绝不相信。无论是在英国的伦敦、印度的勒克瑙还是秘鲁的利马,我们用同样的方式做同一个实验就应该得到同样的结果。如果结论不一样的话,那我们就该警惕了。

如果一个证据是道听途说来的,那我们就不用那么在意了。每个人应该都有这样一个邻居、同事或者朋友的朋友,他们吃着昂贵的保健品,遵循着独特的养生之法,迷信一些传世秘方。然而如果想要知道某一种疗法是否有效,我们需要做到随机化,即可以完成双盲测试。如果这个疗法的确有效,那么这种疗法的效果应该比安慰剂的效果更好,而且效果之间的差距应该大于统计误差。

可重复性和随机实验是现代思想重要的里程碑之一。现代统计学大多把重心放在设计实验、寻找样本人口和分析数据上,这也导致贝叶斯概率长期被边缘化。直到20世纪可以计算贝叶斯概率的机器出现,这一现象才得以扭转。

没有人知道贝叶斯想用他的理论来做什么。他自己可能永远都想不到他的理论如今在各种不同的领域发挥着功效。人们甚至用贝叶斯定理打击纳粹势力、对抗垃圾邮件。

盟军在谋划诺曼底登陆时需要知道德国*队军**装甲V型坦克的制造量。当时同盟国俘获了一些德国坦克,并且知道德国人在编排序号方面一丝不苟。坦克的变速箱、引擎和底盘上都有序号。被俘获的坦克可以被看作从所有坦克中随机抽取的样本,*队军**的统计学家就可以凭借这些随机样本来估算坦克的制造量。当时,他们估算的结果是每月制造270辆,比谍报中的制造量要少很多。战争结束后,公开文件显示当时的德国坦克月制造量为276辆,和统计学家的估计只差一个零头。

而今,还有一种所谓的“贝叶斯垃圾邮件过滤器”,其运行原理是运用持续更新的词汇列表来过滤垃圾邮件。这个列表由经常出现在垃圾邮件中的词语构成,其中比较典型的词汇有:免费、赢钱、治疗脱发、伟哥、揭露好友的丑闻、在家工作、帮你追女孩、你是赢家,等等。出现了这些词不代表这条信息就是垃圾信息,就好比你正在读的这一段话就囊括了所有这些词汇,但这段话并不是一条垃圾信息。但是,出现了一个或多个类似这样的词汇的信息往往比没有出现这些词汇的信息更有可能是垃圾信息。贝叶斯垃圾邮件过滤器的原理就是计算出每条信息是“垃圾”的概率。当这个概率大于某个值的时候,过滤器就会将它标记为垃圾信息。虽然这个过滤器不是万无一失的,但如果打开垃圾邮件箱,你会发现它比你想象的更聪明一些。