贝叶斯定理思维方法 (贝叶斯认知公式)

贝叶斯定理通俗讲解,贝叶斯定律推导过程

我们在《上帝能让2+2=5吗？》那篇文章中曾说，这个世界是数学的，世间的哲学难题也许最终都要靠数学去解决。今天，我们就用一个数学定理—著名的贝叶斯定理，来解决如何升级我们的认知这一重大难题

贝叶斯定理通俗讲解,贝叶斯定律推导过程

福尔摩斯是鼎鼎有名的大侦探，他第一次见到华生时，就断言华生刚到过阿富汗。他是怎么知道的？他看到华生是医生，但却一副军人做派，判断他是军医；又看到华生面色黝黑但手腕皮肤很白，判断他肯定刚从热带回来；又因为华生面容憔悴，且左臂受伤，判断他肯定历经艰难。综合所有信息，一名英国军医，刚从热带回来，负伤且历经磨难，结论就是刚从阿富汗回来。一问毕生，果然如此。

大侦探根据蛛丝马迹就能得到真相，很多人又赞叹又羡慕：真神人也，要是我也有这种能力就好了。大侦探的这种能力，我们能学吗？答案是：能学，真的能学！

福尔摩斯大侦探运用的其实是 贝叶斯定理 ，根据新信息不断调整判断，不断接近真相，这是一种非常高明的思维方式。只要真正学懂弄通了贝叶斯定理，并且坚定不移地运用，我们就会不断接近大侦探的判断水平。

那什么是贝叶斯定理？

贝叶斯定理是一个以英国数学家托马斯·贝叶斯（Thomas Bayes，1701-1761）名字命名的著名数学定理，历经260多年的时间洗礼，无数次的实验实践检验，它的正确性早已得到了验证。

贝叶斯是英国统计学家，在概率论领域是里程碑式的人物，贝叶斯定理是他对概率论和统计学做出的最大贡献。在人工智能时代，贝叶斯定理正在变得越来越重要。在几乎所有的机器学习算法中，贝叶斯定理都以某种形式存在，已经成为了机器学习的核心算法和底层框架。

贝叶斯定理是下面这个数学公式。

贝叶斯定理通俗讲解,贝叶斯定律推导过程

常用的贝叶斯定理公式如下：

贝叶斯定理通俗讲解,贝叶斯定律推导过程

注：P(A)是指现象A发生的概率；P(B)是指现象B发生的概率；P(A∣B)是指现象B发生后现象A发生的概率；P(B∣A)是指现象A发生后现象B发生的概率。

贝叶斯定理翻译成文字说的是：现象B出现的情况下事件A发生的概率，等于事件A发生时现象B出现的概率，乘以事件A发生的概率，再除以现象B出现的概率。

光看公式，我们不好理解贝叶斯定理是用来做什么的。

让我们先用两个例子来说明。

假设老张家有两个孩子，已知老大是女孩，问老二是男孩的概率是多少？老大的性别已经确定了，所以老二要么是男孩，要么是女孩， 故老二是男孩的概率是1/2 。

如果换成“其中一个是女孩，问老二是男孩的概率是多少？”两个孩子，其中一个是女孩，就有“女孩男孩”、“男孩女孩”、“女孩女孩”三种情况，有男孩的情况有两种， 所以老二是男孩的概率是2/3 。只要条件稍微改一下，概率马上就变了。

假设要计算一个人酒驾时发生交通事故的概P(A∣B)。

P(A)就是发生交通事故的概率。这个概率可以任性设置，一般根据历史数据、参考专家意见甚至主观猜测来设置，假设为2%。

P(B∣A)是在发生交通事故中司机酒驾的概率。假设每100起交通事故，平均有3起司机是酒驾的，那P(B∣A)就是3%；P(B)就是人们酒驾的概率，假设为1%。

则一个人酒驾时发生交通事故的概率：

P(A∣B)=3%/1%×5%=15%。

现在，随着大数据的应用和对酒驾处罚加重，假设酒驾概率由1%变为0.3%，那P(A∣B)就要变成3%/0.3%×5%=50%。

从上述两个例子，我们可以看到： 首先，贝叶斯定理是用来计算概率的。 概率问题分为两种：一种是我们知道“原因”，要去推测某个“现象”。比如知道了硬币两面都是平的，问正面朝上的概率；知道了*子骰**点数是均匀的，问掷出三点的概率，这种叫 正向概率 ；另一种是我们看到了“现象”，要去推测背后的“原因”。比如，这个人发烧了，问得流感的概率有多大；傍晚看到天空的晚霞，问明天下雨的概率有多大。这种 叫逆概率 。贝叶斯定理主要用来解决逆概率问题。

其次，贝叶斯公式一共有四个数。 P(A∣B)是我们想求解的答案，P(A)是我们可以主观设定的概率，P(B∣A)和P(B)是调整因子，是我们必须要去探索的新事实、新证据，必须要是客观的，不能拍脑袋随便设定。这既是贝叶斯公式的难点，也是奇妙点。

最后，贝叶斯定理是个动态的、迭代的过程 。每个新信息的加入都要重新计算一遍，然后得到一个新概率；这个过程只要持续推进，最后一定会无限逼近真理。就像打麻将，必须要根据牌桌局势的不断变化，其他人的出牌情况，不断调整自己的打法。

用一句话来说贝叶斯定理就是： 新概率=新信息的调整因子×先验概率。

贝叶斯定理虽然是18世纪的产物，看着普通，但其实是一种非常高明的思维方式，思想之深刻远超普通人的认知。可以说，它是这个时代升级我们认知水平的底层法则。

按照*京大南**学副教授刘嘉的说法，贝叶斯定理之所以是一种非常高明的思维方式，是因为它有两大优势：

一个是起点不重要，迭代很重要。 刚开始时我们随便猜都可以，真正重要的是迭代，要根据客观事实不断修正。贝叶斯不是推理一次就完了，而是要反复推理，每找到一个新信息、获得一个新知识，就要进行一次推理，然后得到一个新判断。而下一个新信息，要么进一步证实我们的判断，要么削弱我们的判断。就这样不断的微调，不断迭代，贝叶斯最后一定会无穷接近真理。

另一个是信息越充分，结果越可靠。 为什么我们总是要寻找新信息，获取新知识，总是希望信息越完备越好？其实也是为了运用尽可能多的信息，提高我们判断的准确率。机器学习的底层理论是贝叶斯定理。之所以谷歌训练人工智能识别猫狗图片时要给它喂成千上万张照片，特斯拉训练自动驾驶时要收集数以亿计小时的数据，就是因为数据越多，信息越充分，计算结果就会越精确，越逼近真相。

起点不重要，迭代很重要，就需要我们保持开放的头脑，持续地学习；信息越充分，结果越可靠，就需要我们随时调整认识，观点要随事实而改变。 按照贝叶斯定理，每次精进一点，持续精进，人可不就越活越聪明，越活越通透，认知越来越高级了吗？

如果说对贝叶斯定理的一阶认识是公式和日常例子；二阶认识是它的两大优势和道理；那么，三阶认识就是要用它深刻的思想来升级我们的认知水平。

贝叶斯定理之所以能成为我们升级认知水平的底层法则，是因为它蕴含了三种顶级思维： 概率思维、演化思维和科学思维。

我们一个一个来说。

第一种是概率思维。 贝叶斯定理是典型的概率思维，计算出的任何结果都是一个概率，它要我们用概率思维来看待世界。从概率的角度看，我们对世界的认识，就是对概率大小的认识，追求真理的过程，就是追求概率无限逼近1的过程。

比如，决定经济增长的因素到底有多少种？影响股票涨跌的因素到底有多少种？决定恒星运动的力到底有多少种？原子衰变到底能释放出多少种粒子？每一次这样的认知突破，都是在增加信心的充分度，提高我们对世界的认识概率。按照概率学家的说法， 是在“增加样本的完备性”。

我们都说这个世界是复杂的、不确定性的，事实上也是，随机、概率原本就是这个世界的常态和底色。越是充满不确定性，我们越追求确定性。追求确定性，我们必须要有概率思维。为什么？

因为概率是对随机事件发生可能性大小的定量描述，是对世界可能性的度量。概率论解决随机问题的本质，就是把局部的随机性变成整体上的确定性。概率论不是帮我们预测下一秒会发生什么，而是为我们刻画世界的整体确定性。

比如，城市里，我们不知道今天会有哪几个家庭的婴儿出生，但这座城市的出生率却大致是确定的；对保险公司而言，虽然不知道下一刻哪里会发生交通事故，但这个地方一年发生的交通事故率基本是确定的；买彩票时，我们不知道明天开奖的数字是多少，但彩票公司这一期的收益率基本是确定的；著名的薛定谔的猫，我们不知道下一秒它是生是死，但它生死可能性的叠加态是确定的。某一次结果的随机，是低层次的事；而概率论，是高层次的、确定性的认知。

概率论就像一个城市，我们可以不知道城市里每一栋建筑的样子，但我们可以确定地知道这个城市的建筑模式。

讲概率思维，首先就是要掌握现实世界的数学模型，找到代表现实世界的规律。现实世界纷繁复杂，各种随机变量数不胜数，但在概率学家眼里，就只分为两种，一种是已经是找到了变化规律的，常见的有几十种，比如正态分布、幂律分布、泊松分布、指数分布等；另一种是还没有找到变化规律，还不能用概率分布模型去描述的。

碰到第二种情况怎么办呢？正确的做法是：先假设它服从某个概率分布模型，然后去验证假设，若出现了新的证据、新的发现，就对假设进行修正；若发现模型错了，就重新选一个。就这样不断的修正模型，不断的发现模型，我们对世界的认知就会越来越确定。

一句话，概率思维要求我们去学模型、建模型，用模型来不断探索真理，向真理世界靠拢。有了模型，我们就能从有限信息中猜测出上帝底牌，最大可能理解未来，预测未来，抓住未来。

第二种是演化思维。 贝叶斯定理要求观点随事实而改变，随时跟进条件变化做调整，本质上就是演化思维。“物竞天择、适者生存”的演化思维我们都懂，但我们今天要说的演化思维要往前再走一步。

人类最主要的一个弱点是，总是沉迷于自己的主观偏好，更要命的是为了证明自己观点是正确的，为了不认知失调，人类会自我合理化、冠冕堂皇解释自己的主观认知。一个主观偏好就像棵大树，背后可能是一组人际关系、过往历史、利益格局、价值观念和行动方式，根深叶茂，复杂程度远远超过我们想象，所以普通人要不让过去的经验影响现在，也不让未来的妄念影响当下，要做到“事实改变观念”有不小的难度。

哲学家叔本华说：阻碍人们发现真理的障碍，并非是事物的虚幻假象，也不是人们推理能力的缺陷，而是人们此前积累的偏见。

所以，乔布斯才说，Stay hungry，Stay foolish。保持饥饿，保持愚蠢。

也许我们要向金融大亨达里奥学习。雷·达里奥是世界最大的对冲基金，桥水联合基金创始人，他不仅是超级富豪，也是一名思想家，把他的思想写成了超级畅销书《原则》。

达里奥认为，所有道理中的最大道理，是演化，这个世界是讲理的，不是全凭运气完全随机的。演化是世界作为一个整体在不断优化的过程，比如技术进步总是从落后到先进，从低级到高级。一切好东西都是在刚刚出来的时候是好东西，时间长了这个东西就不行了，老的东西一定会被淘汰，新的东西一定会出来。演化的规律要求我们必须不断地创新和进步， 要不断尝试—失败—学习—改进，理想人生就是这个永无止境的循环。

在达里奥看来，要有演化思维，首先要激进地开放头脑，只看逻辑、证据，只看想法的精英政治，谁的观点对，就听谁的。这个过程当中充满了痛苦、失败。但痛苦和失败恰恰是演化的必然环节，只有这样敢于与自己做斗争，你才能拥有理想人生。

牛人之所以牛，就是因为他们能够和直觉，和本能相对抗，能够与自己的存量做斗争，始终保持对世界探索的热情，敢于不断放空自己，回到原点进行虚怀若谷式的思考。

一句话，演化思维就是要不断 尝试—失败—学习—改进， 在这个过程中勇于与自己做斗争，勇于破掉自己的固有偏见，让观念随事实而变。

第三种是科学思维。 贝叶斯定理讲的是一定要找到更多、更新的客观事实、客观数据作为调整因子，这样贝叶斯值才能无限逼近真理。 贝叶斯值不断提高的过程，就是科学不断被证伪的过程。

判断科学的核心依据是波普尔提出的“可证伪性”，科学追求的是可证伪性，愿意、甚至追求被别人证明说“我错了”。

科学发现的逻辑是这样的：先提出问题，针对问题提出理论猜想，再用事实证据来检测这个猜想。如果检测和猜想相符，就保留猜想，如果反面证据一直没有出现，猜想就一直维持；如果出现了反面证据，就放弃这个猜想，重新构想新的理论。然后进入下一轮检测。

提出猜想的前提是提出好问题。苏格拉底说，一个好问题能让复杂的事情变简单，这是人类智慧的高级形式。 好的问题是成功的一半，一个好问题在我们脑子里出现，其实也是我们认知能力出现实质性突破的信号。

科学思维的第一步是提出好问题。有了好问题，就有了解释模型，旧的解释模式不断的被验证、被*翻推**，就提出新的解释模型，然后进入新一轮的验证、检测。这个过程循环往复，人的认知水平、人的能力就会持续不断的提高。 要提高认知水平，首先一定要提出好问题，或找准好问题。

科学思维讲究实事求是，只看证据、逻辑，不在意观点提出者的尊卑、背景，哪怕你是诺贝尔奖获得者，过去一贯正确，如果现在验证是错了就是错了，错也也得改。

科学思维也讲究共识，所以你还得懂得范式，得相信点什么。库恩在《科学革命的结构》中说，科学其实是不断在老观念里做小修小补，到了不得不推倒重来的时候，再来个大颠覆。然后又进入新一轮的小修小补，再来个颠覆。老观念、大颠覆，基本上是绝大部分科学家都认可的共识，这个共识就叫做科学的范式。

在贝叶斯定理中，这个共识可以是计算的起点，你主观估算的那个值，你总得相信点什么；也可以是客观影响因子，总之你得按照科学的思维来计算贝叶斯定理。如果你总得相信点什么，我们建议你相信数学，数学的对错是绝对的，相信对的总没错。

借用范式的比喻，我们升级认知的过程像造房子，开始是按照过去的图纸造，风格、功能需求、模式都是当时的，都是先进的，但随着时代变化，渐渐地发现功能不够用了，风格落后了，有更好的大平层框架了，刚开始舍不得推倒重建，就搞点内部装修，这里补补、那里改改凑合住着，直到有一天，发现实在不行了，一狠心推倒重来，重新设计、重新建造。然后进入新一轮的修修、补补循环。

我们讲用科学思维升级认知，包含两重意思：提出好问题，确定思考框架；找到模型去回答问题，持续去证伪；根据新证据、新事实去修正模型，甚至颠覆模型，否定之否定，我们的认知水平一定会提高。

最后的话

观点随事实而改变，是贝叶斯定理的核心思想。

我们要用概率思维，把局部的随机性变为整体的确定性，用模型从有限的随机信息中获得对世界确定性的认知。

我们要用演化思维，激进地开放头脑，Stay hungry，Stay foolish，持续尝试—失败—学习—改进。

我们要用科学思维，懂得好问题的价值大过答案的价值。在好问题的框架内，不断提出猜想—验证猜想---修正猜想，构建和升级自我认知新范式。

以上这些，就是我们希望你从贝叶斯定理中拿走的东西！