与人类思想史许多革命一样,很难找到统计模型概念融入科学的时刻

与人类思想史许多革命一样,很难找到统计模型概念融入科学的时刻

与人类思想史的许多次革命一样,我们很难找到统计模型概念融入科学的确切时刻。我们可以在19世纪早期德国和法国数学家的作品中找到统计模型概念的具体例子,甚至可以在17世纪伟大天文学家约翰尼斯·开普勒(Johannes Kepler)的论文中找到它的影子。正如本书序言所说,拉普拉斯发明了所谓的“误差函数”,用于解决天文学的统计问题。我个人倾向于认为统计革命始于19世纪90年代卡尔·皮尔逊(Karl Pearson)的工作。查尔斯·达尔文(Charles Darwin)认为生物变异是生命的一个基本要素,并将其作为适者生存理论的基础。他的英国同胞卡尔·皮尔逊则首先认识到了统计模型的基本性质及其与19世纪科学决定论迥异的观念。

在20世纪60年*开代**始学习数理统计学时,我的老师很少提到皮尔逊的名字。当我与这个领域的大腕见面交谈时,我也很少听到人们提及皮尔逊或者他的作品。人们不是将他遗忘,就是把他看作一个无足轻重的小人物,认为他所从事的活动早已过时了。例如,在卡尔·皮尔逊人生的最后几年,美国国家标准局的邱吉尔·艾森哈特(Churchill Eisenhart)当时在伦敦大学学院学习,他印象中的皮尔逊压根是一个没有什么精神头的老头,统计研究的发展已经把他远远甩在了后面,将他和他的大部分作品扔进了历史的垃圾堆。伦敦大学学院年轻而聪明的学生们都聚集在比他更加年轻的伟大人物身边,其中包括卡尔·皮尔逊的儿子。没有人愿意来看望年迈的卡尔,他的办公室冷冷清清,与远处喧嚣繁忙的新兴学术中心形成鲜明的对比。

情况并不总是这样。19世纪70年代,年轻的卡尔·皮尔逊离开英国,到德国攻读政治学研究生。在那里,他迷上了卡尔·马克思(Karl Marx)的作品。为了向马克思表达敬意,他改变了自己名字的首字母。他在这个领域写了两本不错的作品,取得了政治学博士学位,然后回到了伦敦。在保守的维多利亚时代,在英国的中心,他竟然组织了一个青年男女讨论俱乐部。在俱乐部里,青年男女们仿照德国和法国上流社会沙龙的形式,以男女人数相等的形式聚在一起(没有年长妇女陪同)。在这里,他们讨论世界上的重大政治和哲学问题。事实上,皮尔逊在这个环境中结识了自己的妻子,这表明他成立俱乐部的动机可能不止一个。通过这个小型社交活动,我们可以领略到卡尔·皮尔逊最初的内心想法和他对既有传统的蔑视。

虽然皮尔逊获得了政治学博士学位,但他主要的兴趣却是在科学和数学模型的本质上。19世纪80年代,他出版了《科学的语法》。这本书后来多次再版。在第一次世界大战之前的大部分时间里,这本书被看作介绍科学和数学本质的最伟大书籍之一。书中充满了具有原创性的杰出思想,使其成为科学史上的一部重要作品。而且,这本书文笔流畅,语言平实,任何人都可以拿来一读。即使你不懂数学,你也能读懂这本《科学的语法》。这本书到现在已经有100多年历史了,但书中的思想和洞见仍然非常适合21世纪的数学研究,其对科学本质的理解即使在今天仍然适用。

高尔顿的生物统计实验室

此时,皮尔逊受到了英国科学家弗朗西斯·高尔顿爵士(Sir Francis Galton)的影响。大多数听说过高尔顿的人都知道他是指纹的“发现者”。高尔顿发现每个人的指纹都是独一无二的,并提出了指纹分类和识别的常用方法。指纹的独特性在于指纹图案的不规则突起和凹陷,它们被称为“高尔顿标识”。高尔顿的工作成果远不止这些。他是一位独立而富有的业余科学家,希望通过对大量模式的研究将数学的严格性引入生物学。他的一项早期研究是天赋的遗传。他寻找公认的非常聪明的父子,搜集他们的信息。不过,他发现这个问题非常难以解决,因为当时并没有很好的智力测量手段。因此他决定研究更容易测量的遗传特征,如身高。

高尔顿在伦敦建立了一家生物统计实验室,征集家庭成员前来测量。在生物统计实验室,他收集了家庭成员的身高、体重、特定骨骼数据以及其他特征。他和助手将这些数据制作成表格,反复研究。他希望找到某种方法,根据父母的测量数据预测孩子的测量数据。例如,高个子父母显然更容易拥有高个子后代,但是否存在某种只用父母身高就能预测孩子身高的数学公式呢?

相关与回归

通过这种方法,高尔顿发现了一个现象,他称之为“均值回归”。实际上,如果父亲非常高,孩子往往比父亲矮;如果父亲非常矮,孩子往往比父亲高。似乎存在某种神秘力量让人类身高远离极端,朝着所有人的平均值靠拢。均值回归现象不仅仅适用于人类身高,几乎所有科学观测都面临着均值回归问题的困扰。我们将在第5章和第7章看到费希尔如何将高尔顿的均值回归转变成目前主导经济学、医学研究和大部分工程学的统计模型。

高尔顿对这个不同寻常的发现进行了思考,发现实际情况只能如此,即使不进行这些观测,他也能预测到这一现象。他认为,假如不存在均值回归现象,那么平均来说,高个子父亲的后代会和他们的父亲一样高。这样一来,有些儿子的身高就会超过父亲(为了平衡比父亲矮的儿子)。高个子父亲的后代这一代平均身高与父亲相同,所以有些儿子就会比父亲高。这种结果会一代一代持续下去。类似地,有的儿子会比父亲矮,一些孙子会更矮,依此类推。用不了许多代,人类当中就会出现一些越来越高的人和越来越矮的人。

这种情况并没有发生。平均来说,人类身高基本维持稳定。只有在非常高的父亲后代平均身高比他矮、同时非常矮的父亲后代平均身高比他高的情况下,才会出现这种结果。均值回归现象可以维持物种平稳,确保一个物种代与代之间保持基本的“相似性”。

高尔顿发现了对这种关系的一种数学度量,他称之为“相关系数”。高尔顿给出了一个公式,并根据生物统计实验室收集到的相关数据计算该系数。这是一个非常具体的公式,可以测量均值回归的一个参数,但它并不能告诉我们这种现象出现的原因是什么。高尔顿首先在这个语境下使用了“相关”这个词语。从此,这个词语融入了大众语言。“相关”常常用来表示某种比高尔顿的“相关系数”更为模糊的概念。它听上去是个科学术语,普通人常常随意使用这个词,仿佛它描述了两种事物的关联方式。不过,高尔顿使用的这个词语是有特指意义的,如果你使用这个词时并不是在描述高尔顿的数学度量,那么你对它的使用就不是很准确,或者说不是很科学。

分布与参数

高尔顿提出的相关公式已经与即将改变20世纪所有科学领域的革命性新思想非常接近了。不过,首次将这种思想以公式形式完整表达出来的人却是他的学生卡尔·皮尔逊。

为了理解这种革命性思想,你需要抛开一切已有的科学观念。老师常常教导我们,科学就是测量。我们通过仔细的测量发现了描述自然的数学公式。在高中物理课上,老师告诉我们,物体自由落体的距离与时间的关系可以用一个公式表示,公式中包含一个符号g,表示重力加速度常量。老师告诉我们,可以用实验确定g的值。不过,当高中学生为确定g的值而进行一系列实验——让小型重物滚下斜坡、测量它们抵达斜坡不同位置所需时间时,发生了什么现象呢?他们很少能测出正确的结果。学生的实验次数越多,他们就越困惑,因为不同的实验测出了不同的g值。这时,老师从高高的讲台上探下身来,安慰学生们说,他们之所以没有得到正确的结果,并不是因为他们马虎粗心或者抄错了数字。

老师并没有告诉学生们,所有的实验都是不准确的,即使是最仔细的科学家,也很少能测出准确的数字。每个实验都会出现无法预测的、难以观测到的干扰。室内的空气可能过于温暖;下滑的重物可能在滑动之前停顿了一微秒;一只蝴蝶经过时产生的一丝微风可能也会产生影响。我们真正从实验中得到的只是一堆数字,其中没有一个数字是正确的,但我们可以用这些数字对准确值作出近似的估计。

根据皮尔逊的革命性思想,我们无须将实验结果看作仔细测量的精确数字。相反,它们只是一堆数字,更常用的说法叫做数字的分布。这种数字的分布可以写成数学公式,用于描述某个观测值等于某个给定值的概率。这个数在某个具体实验中取什么值是无法预测的。我们只能谈论数值的概率,而不是确定的数值。每个实验的结果是随机的,因为它们是无法预测的。不过,我们可以用分布的统计模型描述这种随机性的数学本质。

科学界花了很长时间才意识到观测值固有的随机性。18、19世纪,天文学家和物理学家提出的数学公式对观测值的预测准确性是可以被人们接受的。人们觉得观测值和预测值之间的偏差是观测仪器本身的不精确造成的,可以忽略不计。他们认为,行星和其他天体按照基本运动公式所决定的精确轨道运行。不确定性是糟糕的测量仪器导致的,并不是大自然固有的。

随着物理学测量仪器精度的不断提高,随着这种测量科学在生物学和社会学上的扩展,大自然的固有随机性变得越来越明显。如何处理这个问题呢?一种方法是保留精确的数学公式,将观测值和预测值之间的偏差看作不重要的微小误差。实际上,早在1820年,拉普拉斯就在数学论文中描述了首个概率分布:误差分布,即这些不重要的微小误差概率的数学公式。这种分布被普通民众称为“钟形曲线”,或者叫正态分布。①

皮尔逊在正态分布或者叫误差分布的基础上又向前迈进了一步。皮尔逊在研究生物学积累的数据时,想到具有概率分布的可能不是测量值的误差,而是测量值本身。我们测量到的数据只是随机分布的一部分,而随机分布的概率是由分布函数这个数学函数描述的。皮尔逊发现了一系列分布函数,他称之为“偏斜分布”。他宣称偏斜分布可以描述科学家在一切数据中可能看到的任何一种分布。在这个体系中,每个分布由四个数值确定。

确定分布函数的数值与观测值并不是同一种“数值”。这些数值无法观测,但是可以根据观测值的分布方式推算出来。这些数值后来被称为参数——这个词来自希腊语,意为“准观测值”。能够完整描述皮尔逊体系中数字的四个参数分别叫做:

1. 均值——观测值分布的中间值;

2. 标准差——大多数观测值相对于均值的分散程度;

3. 对称度——观测值偏向均值一边的程度;

4. 峰度——罕见观测值相对于均值的分散程度。

用皮尔逊的偏斜分布系统思考问题,思想就会发生某种微妙的转变。在皮尔逊之前,科学的处理对象是看得见摸得着的真实存在。开普勒试图发现能够描述行星在太空中运行规律的数学公式;哈维的实验试图确定血液在某个动物静脉和动脉中的流动方式;化学处理的是元素和由元素组成的化合物。不过,开普勒试图掌控的“行星”实际上只是一组数据,用来给地球上的观测者所看到的天空中微弱的光点定位。血液在一匹马静脉中的准确流动路径可能与另一匹马不同,或者与某个人不同。没有人能制造出纯粹的铁单质,尽管人们知道铁是一种元素。

皮尔逊提出,这些可以观测到的现象只是一些随机的映象,概率分布才是真实的东西。科学研究的真正对象不是我们可以触摸观测到的物体,而是描述我们观测的事物随机性的数学函数。在科学研究中,我们真正需要确定的是分布的四个参数。从某种程度上说,我们永远无法真正确定这四个参数,只能通过数据对它们进行估计。

皮尔逊没有认识到最后这个区别。他认为,如果我们收集到足够多的数据,就可以获得参数的真实值。他的年轻对手费希尔指出,皮尔逊的许多估计方法并不是最优方法。20世纪30年代后期,在卡尔·皮尔逊人生的最后时刻,年轻而又聪明的波兰数学家耶日·内曼(Jerzy Neyman)指出,皮尔逊的偏斜分布系统并没有涵盖所有分布,而且无法解决许多重要的问题。

不过,让我们放过1934年孤独年迈的卡尔·皮尔逊,回头来看不到四十岁、充满干劲的皮尔逊,当时他对自己发现的偏斜分布充满了热情。1897年,他接手了高尔顿位于伦敦的生物统计实验室,组织许多年轻女性(被称为“计算员”)根据高尔顿在人体测量方面积累的数据计算相关的分布参数。到了世纪之交,高尔顿、皮尔逊和拉斐尔·韦尔登(Raphael Weldon)联合创办了一个新的科学期刊,用于将皮尔逊的思想应用到生物学数据上。高尔顿用他的财富建立了一个信托基金,以支持这家新创办的期刊。在创刊号上,编辑们制定了一个雄心勃勃的计划。

《生物统计》的计划

包括高尔顿、皮尔逊、韦尔登在内的一群充满干劲的英国科学家正在研究如何利用一位杰出同胞——查尔斯·达尔文的思想。达尔文的进化论认为,生命形式在环境压力下会发生改变。他认为,变化的环境能让更适应新环境的随机生物获得微弱优势。渐渐地,随着环境的变化和生命形式的不断随机突变,一个更加适合在新环境下生存繁衍的新物种就会出现。这种思想简称为“适者生存”,它对社会学产生了不利影响,因为傲慢的政治学者将其搬到了社会生活中,宣称在经济博弈中获胜的富人比失败的穷人更适合生存。适者生存理论为猖狂的资本主义提供了一个合法证明,富人得以心安理得地鄙视穷人。

在生物学领域,达尔文的思想似乎具有很强的合理性。达尔文指出,亲缘物种的相似性表明这些现代物种源自某个相同的早期物种;居住在不同岛屿上、差异很小的鸟类物种在结构上有许多相同点。他还指出,不同物种的胚胎具有相似性,包括最初长有尾巴的人类胚胎。

美中不足的是,达尔文无法举出一种在人类历史上产生的新物种。达尔文认为新物种产生的原因是适者生存,但是他并没有证据。他只能指出现代物种非常“适应”它们的环境。达尔文的观点看起来可以解释我们已知的事实,而且拥有迷人的逻辑结构。不过,犹太人有一句古话这样说——“举例并不是证明”。

皮尔逊、高尔顿和韦尔登在新期刊中试图弥补这个缺点。根据皮尔逊将现实看作概率分布的观点,达尔文雀(他在书中使用的一个重要例子)并不是科学研究的对象,真正的对象是某个雀鸟物种所有个体的随机分布。如果能测量出某个雀鸟物种所有个体的喙长,就能得到这些喙长的分布函数的四个参数,而这四个参数就代表了该物种的喙长。

皮尔逊说,假设某种环境力量能够让某些特定的随机突变获得生存优势,进而改变某个物种。我们可能无法在有生之年看到新物种出现,但我们也许可以看到四个分布参数的变化。在创刊号中,三位编辑宣布,他们的新期刊将收集来自全世界的数据,以确定分布参数,希望最终能看到与环境变化相关的参数变化。

他们将新期刊命名为《生物统计》。这份期刊得到了高尔顿成立的生物统计学信托基金的慷慨资助。资助可谓非常慷慨,因为该期刊是第一份刊印全彩照片并带有复杂绘图的半透明折页期刊。它使用优质碎布纸,并且用到了极其复杂昂贵的排版技术,以便将最复杂的数学公式刊登出来。

接下来的25年,《生物统计》刊登了记者发来的各种数据。有的记者深入非洲丛林,测量当地生物的胫骨和腓骨;有的记者在中美洲热带雨林捕捉鸟类,测量其喙长;还有的记者造访古墓,挖出人类头骨,倒入*弹铅**,测量颅容量。1910年,该期刊登载了几幅全彩照片,这些照片上俾格米男人裸身躺在地上,松弛的生殖器旁还摆着量尺。

1921年,年轻的女记者朱莉娅·贝尔(Julia Bell)描述了她试图对阿尔巴尼亚*队军**招收的新兵进行人体测量时遇到的麻烦。她离开维也纳,千里迢迢来到阿尔巴尼亚的一个军事据点,相信能找到讲德语的军官帮助她。结果,那里仅仅有一位会说三个德语单词的军士。朱莉娅并不气馁,她取出青铜测量杆,然后咯吱那些年轻人,结果他们像她希望的那样抬起了手和脚。士兵们终于理解了她的意图。

对于每一组数据,皮尔逊和他的计算员们都会算出四个分布参数。他们会在文章中展示拟合程度最好的分布图像,并就这种分布与其他相关数据的分布有何区别发表见解。现在想来,我们很难看出所有这些活动对证明达尔文的理论有什么帮助。在浏览《生物统计》期刊时,我感觉到这些活动很快变成了一种为了计算而计算的工作,除了估计出一组给定数据的参数外,没有其他实际作用。

期刊中还夹杂着其他一些文章。有些涉及理论数学,用于解决伴随概率分布的发展而产生的问题。例如,1908年,不知哪位作者以“学生”为笔名,提出了“学生”的“t检验”,这一检验至今仍然在几乎所有现代科学工作中发挥着重要作用。我们在后面几章还会提到这位匿名作者,讨论他在卡尔·皮尔逊和罗纳德·费希尔之间不成功的调解工作。

高尔顿死于1911年,而韦尔登之前已死于阿尔卑斯山的一场滑雪事故。这让皮尔逊成了《生物统计》的唯一编辑和信托基金的唯一使用者。接下来的20年,《生物统计》成了皮尔逊的个人期刊,只刊登皮尔逊认为重量级的文章,不刊登皮尔逊认为不值一提的文章。期刊中充斥着皮尔逊撰写的评论,他在评论中运用丰富的想象力涉猎了各个领域的问题。人们在翻修一座古老的爱尔兰教堂时,在墙壁中发现了白骨,皮尔逊通过对这些骨骼进行测量以及复杂的数学推理,以判断它们是否是某个中世纪圣徒的骨骼。有人发现了一个头骨,称这是奥利弗·克伦威尔(Oliver Cromwell)的头骨。皮尔逊在一篇精彩的文章中对此进行了研究。文章描述了当时已知的克伦威尔尸体的可能遭遇,然后比较了根据克伦威尔油画得到的测量结果与头骨的测量结果。②在其他文章中,皮尔逊研究了古罗马君主的在位时间和古罗马贵族的衰落,还涉猎了社会学、政治学、植物学,所有这些都用到了复杂的数学工具。

临终前,卡尔·皮尔逊发表了一篇短文,名为《论犹太人与非犹太人的关系》。他在文中分析了来自世界各个地区的犹太人和非犹太人的人体数据,认为国家社会主义*党**人(即纳粹*党**人的正式称呼)的种族理论没有任何意义,世界上并不存在犹太种族或雅利安种族。这份遗作体现了他思路清晰、条理分明、推理严谨的一贯风格。

皮尔逊用数学方法研究了人类思想的许多领域,不过很少有人会认为这些领域属于正常的科学范畴。通读他在《生物统计》中撰写的文章,我仿佛看到了一个兴趣广泛的人,这个人拥有一种出众的本领,能够发现任何问题的本质并找到一个解决问题的数学模型。通读他的文章,我仿佛又看到了一个意志坚定、固执己见的人,这个人将下属和学生看作自己意志的一种延伸。我想我愿意跟卡尔·皮尔逊待上一天——前提是我和他不会发生思想上的冲突。

他们证明了达尔文的适者生存进化论吗?也许吧。通过比较古墓中头骨的颅容量和现代人的颅容量,他们证明了人类在数千年的历史中一直保持着稳定的特征。通过证明澳大利亚土著的人体测量结果与欧洲人的人体测量结果具有相同的分布,他们*翻推**了澳大利亚人关于土著不属于人类的论断。在这项工作中,皮尔逊提出一种被称为“拟合优度检验”的基本统计工具,这是现代科学不可缺少的一项工具。科学家可以通过它判断一组给定的观测值是否符合某个数学分布函数。在第10章,我们将会看到皮尔逊的儿子如何用这种拟合优度检验将其父亲的大部分工作成果*翻推**。

随着时间的推移,《生物统计》的文章越来越多地关注数理统计中的理论问题,很少再去关注具体数据的分布。当卡尔·皮尔逊的儿子埃贡·皮尔逊(Egon Pearson)继任编辑时,这份期刊已经完全转移到了理论数学领域。今天,《生物统计》仍然是该领域的一份杰出期刊。

他们到底是否证明了适者生存理论呢?最接近答案的一次探索发生在20世纪早期。在那时韦尔登设计了一项大型实验。由于18世纪英国南部瓷器工厂的发展,一些河流淤积了大量黏土,普利茅斯和达特茅斯的港口也因此发生了改变,内港区的淤泥含量高于外港区。韦尔登在这些港口捕捉了几百只螃蟹,将它们放入单独的玻璃罐中,其中一半的玻璃罐使用内港区富含淤泥的水,另一半的玻璃罐使用外港区淤泥含量较少的水。过了一段时间,他对活下来的螃蟹的甲壳进行测量,以确定在清水中和泥水中幸存的两个螃蟹群体的分布参数。

正如达尔文预测的那样,在泥水中幸存的螃蟹的分布参数发生了改变!这是否证明了进化论呢?遗憾的是,韦尔登还没来得及整理实验结果就去世了。皮尔逊在对数据的初步分析中描述了这个实验及其结果,但最终分析结果一直没有出来。英国政府作为实验经费的提供者,要求他们提交一份最终报告,但这份报告一直没有出现。既然韦尔登已经去世,实验也就只能不了了之了。

对细菌和果蝇等短命物种而言,达尔文的理论被证明是真实的。通过这些物种,科学家可以在短时间内对数千代个体进行实验。现代DNA研究,作为遗传的基石,已经为物种之间的联系提供了更有力的证据。如果我们假设基因的突变速度在过去1000万年或更长的时间里保持稳定,我们就可以通过研究DNA来估计灵长类物种和其他哺乳类物种诞生的时间范围。至少,它们已经有数十万年的历史了。目前,大多数科学家都相信达尔文的进化论是正确的。除了进化论,没有哪个理论能够与所有已知事实匹配得如此完美。科学家对此很满意,没有人再去尝试通过分布参数的变化证明生物在短时间内发生了进化。

皮尔逊掀起的这场革命为我们留下了一份宝贵的思想遗产,那就是,科学研究的对象不是可以观察到的事物,而是描述观测值概率的数学分布函数。今天,医学研究用精妙的数学分布模型确定各种治疗方法可能对患者产生的长期影响;社会学家和经济学家用数学分布来描述人类社会的行为表现;物理学家在量子力学中用数学分布描述亚原子粒子。没有哪个科学领域能够躲过这场革命。有些科学家认为使用概率分布只是暂时的权宜之计,最终我们一定有办法回归19世纪的科学决定论。爱因斯坦(Einstein)的名言“我不相信上帝在宇宙中掷*子骰**”就是这种观点的一个例子。其他人则相信宇宙的基础是随机的,唯一的现实存在于分布函数之中。不管你持有哪种观点,你都不得不承认,皮尔逊关于分布函数和参数的思想统治了20世纪的科学,而且这种趋势在21世纪初依然没有衰退的迹象。

①正态分布有时又叫高斯分布,这是因为人们曾经认为高斯是第一个写出正态分布公式的人。实际上,首个写下正态分布公式的不是卡尔·弗里德里希·高斯,而是一位更早的数学家,名叫亚伯拉罕·棣莫弗。另外,我们有理由相信,在此之前,丹尼尔·伯努利曾在无意中发现了这个公式。这些事实可以证明当代科学史学家斯蒂芬·施蒂格勒所说的误称定律,即数学上一切以人命名的概念都不是以发现者的名字命名的。

②在君主复辟、取代克伦威尔的独裁统治后,英国内战中的双方达成停战协定,约定新的统治者不会对任何在世的克伦威尔追随者提起诉讼。不过,停战协定并没有提及死者。所以,克伦威尔和下令处死查理一世的两名法官的尸体被挖出来,并以弑君罪接受审判。结果他们被判有罪,头颅被砍掉,挂在了威斯敏斯特教堂的尖顶上。三颗人头在那里挂了很多年,最后不见了。后来,一颗据称属于克伦威尔的人头出现在了伦敦一家“博物馆”中。皮尔逊研究的正是这颗人头。他的结论是,这的确是克伦威尔的头颅。