爱尔兰都柏林市久负盛誉的吉尼斯酿酒公司即将步入20世纪的时候,在科学领域做了一项投资。少东家吉尼斯刚刚继承这家企业,他决定雇用牛津大学和剑桥大学化学领域的杰出毕业生,将现代科学方法引入企业。1899年,他将23岁的威廉·西利·戈塞特(William Sealy Gosset)招入公司,当时戈塞特刚刚从牛津大学毕业,获得了化学和数学双学位。戈塞特接受的是传统数学教育,包括微积分、微分方程、天文学以及以科学决定论为基础的其他分支学科。当时卡尔·皮尔逊的创新和量子力学的萌芽还没有写进大学教材。公司招聘戈塞特时看重的是他的化学知识。的确,啤酒厂要数学家有什么用呢?
事实证明,吉尼斯公司的这项投资是正确的。戈塞特的管理水平非常出众,而且最终成为了公司整个大伦敦地区的主管。实际上,戈塞特对酿酒工艺的第一个重要贡献源于他的数学知识。数年前,丹麦电话公司是最早雇用数学家的工业公司之一,但他们亟需解决的数学问题是明确的,那就是电话交换总机的容量究竟达到何种程度合适?而在啤酒和麦芽酒的制作过程中,有什么需要解决的数学问题吗?
戈塞特1904年发表的第一篇论文讨论的就是这种问题。当人们准备发酵用的麦芽浆时,需要使用经过仔细测量的酵母。酵母是一种生物,人们将酵母加入麦芽浆前,在装有液体的罐子里培养和繁殖酵母。工人需要测量罐子里的酵母含量,以决定使用多少液体。他们提取液体样本,放在显微镜下检查,计算其中酵母细胞的数量。这种测量的准确度如何呢?这一点很重要,因为人们需要严格控制麦芽浆中的酵母含量。放少了会导致发酵不充分,放多了又会导致啤酒味道变苦。
请注意,我们此时可以使用皮尔逊的科学方法。我们测量的是样品中酵母细胞的数量,但我们研究的真正“对象”是整个罐子里的酵母细胞浓度。由于酵母是活的,细胞又在不断繁殖分裂,因此这个“对象”实际上并不存在。从某种程度上说,现实中存在的仅仅是单位容积内酵母细胞的概率分布。戈塞特对数据进行了研究,认为酵母细胞数量可以用一种概率分布来模拟,这种分布被称为“泊松分布”①,它并不属于皮尔逊的偏斜分布。实际上,这是一种特殊的分布,只包含一个参数,而不是四个。
确定了样品中活酵母细胞的数量服从泊松分布以后,戈塞特设计出了一些测量酵母细胞浓度的规则和方法,大大提高了测量的准确性。利用戈塞特的方法,吉尼斯公司极大地提高了产品的稳定性。
“学生”的诞生
戈塞特想在一份合适的期刊上发表这项结果。泊松分布(或者说其公式)已经出现100多年了,人们曾努力在现实生活中寻找它的例子。例如,有人曾在普鲁士*队军**中统计被马踢死的士兵人数。戈塞特统计的酵母细胞显然服从泊松分布,而且这也是统计分布新概念的一个重要应用。不过,公司不允许员工发表任何文章。几年前,吉尼斯的一位酿酒师写了一篇文章,公布了某个酿造环节使用的秘密原料。从那时起,为避免公司宝贵财产的进一步损失,吉尼斯禁止员工发表任何作品。
当时,戈塞特和《生物统计》的编辑之一卡尔·皮尔逊成了朋友,戈塞特出众的数学才华给皮尔逊留下了深刻的印象。1906年,在戈塞特的恳求下,他的老板相信了新的数学思想对啤酒公司是有价值的,并且给了戈塞特一年的假期,允许他在高尔顿生物统计实验室跟随皮尔逊学习。两年之前,当戈塞特讲述他在酵母实验中取得的结果时,皮尔逊急切要求戈塞特在他的期刊上把这个结果发表出来。他们决定用一个笔名发表这篇文章。就这样,戈塞特以“学生”为笔名发表了他的第一项研究成果。
接下来的30年,“学生”撰写了一系列非常重要的论文。几乎所有论文都是在《生物统计》上发表的。后来,吉尼斯家族发现了他们“亲爱的戈塞特先生”一直在秘密地撰写和发表科学论文,这违反了公司政策。“学生”的大多数数学活动都是在正常工作时间之外、在家里进行的。戈塞特在公司里不断获得提拔,责任越来越重,说明他的业余活动并没有影响工作。有一个故事不一定是真实的,但很能说明问题:戈塞特1937年突然死于心脏病时,他的数学家朋友们来到吉尼斯公司,希望出钱将他的论文结集出版,此时吉尼斯家族才第一次听说戈塞特所做的工作。不管这个传说是真是假,至少我们可以相信美国统计学家哈罗德·霍特林(Harold Hotelling)在回忆录中提到的事实。哈罗德在20世纪30年代末想和“学生”见见面,结果他受到了秘密接见,整个过程就像间谍活动一样。这表明当时“学生”的真实身份对吉尼斯公司来说仍然是一个秘密。“学生”在《生物统计》上发表的论文介于理论和应用之间,因为戈塞特时而将非常现实的问题提炼成复杂的数学公式,时而又将理论性的解决方案应用到现实世界中,供其他人参考。
尽管戈塞特取得了巨大的成就,但他为人却十分谦逊。我们可以在他的信件中发现,他经常写下这样的话语:“我的个人研究仅仅为这个问题提供了一个粗略的概念……”或者澄清某项发现并不是他一个人的功劳,因为“所有数学基础实际上都是费希尔完成的……”
“学生”的t检验
1908年,戈塞特在《生物统计》上发表了一篇短文《均值的概然误差》。即使不考虑戈塞特的其他贡献,这篇论文也足以让所有科学家记住他的名字。费希尔最先指出了这篇论文的普遍意义。戈塞特遇到了一个具体问题,他还是像以前一样利用晚上的时间在家里进行耐心而细致的研究。找到解决方法以后,他又用其他数据检验了这个方法,重新核对结果,并且检查自己是否忽略了任何细微的差异。他对需要做出的假设进行了思考,并对他的发现进行了反复计算。他采用了现代计算机经常使用的蒙特卡洛方法,即对一个数学模型进行多次模拟,以确定其概率分布。不过,他手上并没有计算机。他极其辛苦地将数据相加,对数百个样本取平均,并将得到的频率画出来——这一切都是手工完成的。
戈塞特研究的是小样本问题。卡尔·皮尔逊通过对一个分布进行数千次测量来计算四个分布参数。由于他使用了大样本,因此他认为自己得到的参数估计值是正确的。后来,费希尔证明他的想法是错误的。在戈塞特的实验中,科学家很少有条件获得如此巨大的样本。通常的实验只能获得10到20个观测值。他进而发现,这一情况在所有科学领域都很常见。他在一封寄给皮尔逊的信中写道:“如果我是你遇到的唯一一个使用小样本的人,这就太奇怪了。在这个问题上,我和斯特拉顿(Stratton,剑桥大学的一位教员)进行了一些交流……他曾在一项研究中仅仅使用了4个样本!”
皮尔逊的研究认为,如果收集到足够大的数据样本,就可以精确地计算出参数。对此,戈塞特提出了疑问:如果使用小样本,会出现什么情况呢?我们如何处理这些注定会在计算结果中出现的随机误差呢?
戈塞特每天晚上坐在餐桌前,寻找小样本数据,计算均值和标准差的估计值,将二者相除,然后把结果画在坐标纸上。他计算出这个比率的四个参数,将其与皮尔逊偏斜分布中的一个进行对比,发现了一个重要结果:我们并不需要知道原始分布所有四个参数的精确值。前两个参数估计值的比值即可制作成表格的概率分布。这些数据的来源以及标准差的绝对值是多少并不重要,因为这两个参数估计值的比值拥有一个已知的分布。
正如弗雷德里克·莫斯特勒(Frederick Mosteller)和约翰·图基(John Tukey)所说,如果没有这个发现,统计分析的回归步骤将无穷无尽地进行下去。如果没有这个被称为“学生”的t检验②,分析师需要估计观测数据的四个参数,然后估计四个参数估计值的四个参数,再对这些估计值的四个参数进行估计,依此类推,这种计算永远也无法得到最终结果。戈塞特的发现表明,分析师只需要进行第一步估计就足够了。
戈塞特的工作有一个基本假设,他认为最初的测量值服从正态分布。后来,在使用“学生”的t检验的过程中,许多科学家认为这个假设是没有必要的。他们常常发现,不管最初的测量值是否服从正态分布,“学生”的t检验都具有相同的分布。1967年,斯坦福大学的布拉德利·埃弗龙(Bradley Efron)证明了这一点。准确地说,埃弗龙发现了不需要上述假设的一般条件。
随着“学生”t检验的发展,统计分布理论在科学界得到了广泛应用,不过,这种应用存在深层次的哲学问题。这些理论被称为“假设检验”或“显著性检验”。我们将在后面一章进一步讨论这个问题。现在我们只需要知道,几乎所有人都在使用“学生”提出的科学方法——虽然很少有人真正理解其思想。
与此同时,“亲爱的戈塞特先生”成了两大对立天才卡尔·皮尔逊和费希尔之间的调解人。他和两个人维持着亲密的关系,尽管他常常向皮尔逊抱怨说,他不理解费希尔在信中所写的内容。费希尔还在剑桥大学上学时,戈塞特就和他建立了良好的关系。1912年,通过助教③的介绍,费希尔认识了戈塞特,当时费希尔刚刚成为剑桥大学的“牧人”(最高数学荣誉)。他正在研究一个天文学问题,为此写了一篇论文,重新发现了“学生”1908年得到的结果——年轻的费希尔显然不知道戈塞特之前的工作。
费希尔向戈塞特展示的论文中有一个小错误,被戈塞特发现了。当戈塞特回到家里时,他发现费希尔寄来了两页详细的数学公式。年轻的费希尔重新完成了戈塞特的原创性工作,并进行了推广,他还发现了戈塞特犯下的一个错误。戈塞特给皮尔逊写信说:“附上一封信,它证明了我关于‘学生’t检验的频率分布公式,您是否介意替我看一下。即使我可以理解,超过三维空间我还是觉着不自在。”费希尔用多维几何证明了戈塞特的成果。
戈塞特在给皮尔逊的一封信中解释了自己和费希尔认识的过程。当时他去剑桥见一位朋友,这位朋友在冈维尔与凯厄斯学院担任费希尔的导师,这位朋友将戈塞特介绍给了这位22岁的学生。戈塞特接着写道:“这个叫费希尔的小伙子写了一篇论文,提出了‘一个新的概率标准’或者某种与此类似的东西。这篇论文形式非常工整,不过根据我的理解,这种看待事物的方法非常不切实际,几乎没有任何意义。”
在描述了他与费希尔在剑桥的讨论之后,戈塞特写道:
对此,他回复了两页大纸,上面写满了极为复杂的数学公式,证明了(后面是一堆数学公式)……我无法理解这些内容,于是写信说,我会在有空的时候研究这封信。实际上,我把它带到了苏格兰西北湖区,然后把它弄丢了!
现在,他又给我寄了这些东西。我觉得如果合适的话,你也许愿意把这个证明过程放在注释里面。这个证明非常优雅,运用了大量数学推导,也许会吸引一些人……
就这样,20世纪最伟大的天才之一登上了历史舞台。皮尔逊在《生物统计》上发表了这位年轻人的证明过程。三年之后,在皮尔逊以屈尊俯就的口气给费希尔写了一系列信件之后,在他确认费希尔的一篇论文只能被看作对皮尔逊一位同事所做工作无关紧要的补充之后,他才第二次发表了费希尔的论文。此后,皮尔逊再也没有让费希尔的论文出现在自己的期刊上。费希尔继续在皮尔逊最引以为傲的工作成果中寻找错误,皮尔逊也经常在《生物统计》的文章中指出“费希尔先生”或“费希尔先生的一位学生”在其他期刊发表的论文中存在的错误。我们会在下一章讲述这些内容。戈塞特还会在后面某些地方出现。作为一位慈祥的导师,他将许多年轻男女带进了统计分布的新世界里,他的许多学生和同事也为这门新的数学分支做出了重要贡献。尽管戈塞特作了许多谦虚的声明,但这个领域许多影响深远的重大贡献都是他一个人做出来的。
①泊松分布是以18~19世纪数学家西米恩·丹尼斯·泊松的名字命名的,但伯努利家族的一个成员之前描述过这个分布。这是施蒂格勒误称定律的又一个例子。
②我们也许可以根据施蒂格勒误称定律导出一个推论,而这就是该推论的一个例子。戈塞特用字母z表示这个比值。而几年以后,教科书作者形成了一个传统,用字母z表示服从正态分布的变量,同时开始用字母t表示“学生”的比值。
③像剑桥这样的英国大学会为每个学生分配一名教员,对他的学习进行辅导,这名教员被称为学生的助教。