第10章 t-分布
t-分布是数据分析的主要工具之一。你可能听说过“t检验”,例如,它经常用于比较医学研究和科学实验中的两组数据。
这个简短的章节介绍了t-分布的基本特征和用途。你将了解它与正态分布的比较(更多内容请参见第9章),以及如何使用t表格来查找概率和百分位数。
t-分布的基础知识
在这一部分,您将了解t-分布的概况,主要特征,以及在何时使用以及它与Z-分布(详见第9章)的关系。
比较t-分布和Z-分布
正态分布是那个众所周知的钟形分布,其均值为μ,标准差为σ(更多关于正态分布的内容请参见第9章)。最常见的正态分布是标准正态分布(也称为Z-分布),其均值为0,标准差为1。
t-分布可以看作是标准正态分布的表亲——在中心为零且具有基本钟形的外观上相似,但它比Z-分布更矮更扁。相对于Z-分布,其标准差较大,这就是为什么在两侧看到较厚的尾巴的原因。
图10-1比较了t-分布和标准正态(Z-)分布的最一般形式。

t-分布通常用于研究一个总体的平均值,而不是研究总体中的个体。特别是在许多情况下,当您使用数据估计总体均值时使用 t-分布,例如估计加利福尼亚州所有新房屋的平均价格。或者当您使用数据测试有关总体均值的某人声明时,例如,加利福尼亚州所有新房屋的平均价格是否为50万美元?
这些程序称为置信区间和假设检验,分别在第13章和第14章讨论。
正态分布与 t-分布之间的关系在于,如果总体呈正态分布(或接近正态分布),通常会使用 t-分布来分析总体均值。如果数据集较小或者您不知道总体的标准差(通常是这种情况),t-分布的作用尤为重要。
当统计学家使用术语 t-分布时,他们并不是在谈论一个特定的分布。有一整个特定的 t-分布家族,具体取决于用于研究总体均值的样本大小。每个 t-分布都由统计学家称为其自由度的因素来区分。在您只有一个总体且样本大小为n的情况下,相应 t-分布的自由度为n – 1。例如,大小为10的样本使用具有10 – 1,或9个自由度的 t-分布,表示为t9(发音为tee sub-nine)。涉及两个总体的情况使用不同的自由度,将在第15章讨论。
探索变异性对 t-分布的影响
基于较小样本大小的 t-分布具有比基于较大样本大小的 t-分布更大的标准差。它们的形状更扁平,其值更分散。这是因为基于较小数据集的结果比基于大数据集的结果更具变异性。
样本大小越大,自由度就越大,t-分布就越接近标准正态分布(Z-分布)。 t-和 Z-分布变得相似的一个大致截断点(至少足够相似以完成任务)是在 n = 30 左右。
图10-2展示了不同样本大小的不同 t-分布的外观,以及它们与标准正态(Z-)分布的比较。

使用 t-表
每个正态分布都有自己的均值和标准差进行分类,因此单独为每个正态分布查找概率并不是一个好方法。幸运的是,您可以将任何正态分布的值标准化为标准正态(Z-)分布的值(其均值为0,标准差为1),然后使用 Z-表(附录中)查找概率。 (第9章介绍了正态分布的信息。)
相比之下,t-分布不是由其均值和标准差进行分类的,而是由正在使用的数据集的样本大小(n)进行分类。不幸的是,没有一个单一的“标准 t-分布”可以用于转换数字并在表上查找概率。由于人类不可能为每种可能的 t-分布创建概率和相应 t-值的表,统计学家创建了一个表,显示了一些 t-分布的特定自由度和一些概率的值。此表称为 t-表(它出现在附录中)。在本节中,您将了解如何使用 t-表查找概率、百分位数和置信区间的临界值。
使用 t-表查找概率
t-表(见附录)的每一行代表一个不同的 t-分布,由其自由度(df)进行分类。列代表各种常见的大于概率,如0.40、0.25、0.10和0.05。横穿一行的数字表示 t-分布上的值(t-值),对应于列顶部显示的大于概率。行按自由度排列。
大于概率的另一个术语是右尾概率,它表示这些概率代表 t-分布右侧端(尾巴)的区域。
例如,t-表的第二行是 t2 分布(2个自由度,发音为 tee sub-two)。您可以看到第二个数字0.816是 t2 分布上的值,其右侧区域(右尾概率)为0.25(请参阅第2列的标题)。换句话说,t2 大于0.816的概率等于0.25。用概率符号表示,这意味着 p(t2 > 0.816) = 0.25。
t-表第二行的下一个数字是1.886,它位于0.10列。这意味着 t2 分布大于1.886的概率为0.10。因为1.886位于0.816的右侧,其右尾概率较低。
计算 t-分布的百分位数
您还可以使用 t-表(附录中)来找到 t-分布的百分位数。百分位数是分布上的一个数,其小于概率是给定百分比;例如,具有 n – 1 自由度的 t-分布的第 95 百分位数是 tn – 1 的值,其左尾(小于)概率为 0.95(右尾概率为 0.05)(有关百分位数的详细信息,请参见第 5 章)。
假设您有一个大小为 10 的样本,并且想找到其相应 t-分布的第 95 百分位数。您有 n – 1= 9 自由度,因此您查看 df = 9 的行。第 95 百分位数是一个数,其中 95% 的值在其下方,5% 在其上方,因此您希望右尾区域为 0.05。沿着行移动,找到 0.05 的列,您得到 t9 = 1.833。这是具有 9 自由度的 t-分布的第 95 百分位数。
现在,如果您将样本大小增加到 n = 20,第 95 百分位数的值会减小;查看 df = 20 – 1 = 19 的行,在 0.05 的列(右尾概率为 0.05)中,您会找到 t19 = 1.729。请注意,t19 分布的第 95 百分位数小于 t9 分布的第 95 百分位数(1.833)。这是因为较大的自由度表示较小的标准偏差, t-值更集中在均值周围,因此您可以用较小的 t-值达到第 95 百分位数(请参见本章前面的“发现 t-分布的变异性效应”部分)。
选择置信区间的 t* 值
置信区间通过使用一个统计量(例如样本均值)加上或减去一个误差限来估计总体参数,比如总体均值。(有关所有与置信区间以及更多信息,请参见第 13 章。)要计算置信区间的误差限,您需要一个临界值(您添加和减去以获取所需误差限的标准误差的数量;请参见第 13 章)。当样本大小较大(至少为 30)时,您使用 Z-分布上的临界值(请参见第 13 章)来构建误差限。当样本大小较小(小于 30)和/或总体标准差未知时,您使用 t-分布来找到临界值。
为了帮助您找到 t-分布的临界值,您可以使用 t-表的最后一行,其中列出了常见的置信水平,如 80%,90% 和 95%。要查找临界值,请查看表的底部行,这告诉您需要使用 t-表的哪一列。将此列与您的 df(有关自由度公式,请参见第 13 章)的行相交。您看到的数字是您置信区间的临界值(或 t*-值)。例如,如果您希望在有 9 自由度时获得 90% 置信区间的 t*-值,请转到表的底部,找到 90% 的列,并与 df = 9 的行相交。这将为您提供 t*-值为 1.833(四舍五入)。
在 t-表的顶部行,您可以看到 t-分布的右尾概率。但是,置信区间涉及左尾和右尾概率(因为您要加上和减去误差限)。因此,置信区间剩余的概率的一半分别进入每个尾部。您需要考虑到这一点。例如,90% 置信区间的 t*-值其右尾概率为 5%,左尾概率也为 5%(将 100% 减去 90% 并除以 2)。使用 t-表的顶部行,您必须寻找 0.05(而不是您可能倾向于寻找的 10%)。但是使用表的底部行,您只需查找 90%。 (使用任何一种方法得到的结果最终都在同一列中。)
在寻找置信区间的 t*-值时,使用 t-表的底部行作为您的指南,而不是表顶部的标题。
使用 t-表研究行为
如果您可以使用计算机软件来计算您所需的任何 t-分布(或任何其他分布)的概率、百分位数或临界值,那就太好了(如果可以的话,在考试中可能不可用)。然而,使用表格查找概率(而不是使用计算机软件)的一个好处是,表格可以告诉您有关分布本身行为的信息,即它可以给您一个大局观。通过扫描 t-表(在附录中)可以获取有关 t-分布的一些整体信息。
在图 10-2 中,随着自由度的增加,每个 t-分布上的值都变得更加集中在均值周围,最终类似于 Z-分布。t-表也证实了这一模式。由于 t-表的设置方式,如果您选择任何列并沿着该列向下移动,您将增加自由度(和样本大小),并保持右尾概率不变。当您这样做时,您会看到 t-值变得越来越小,表明 t-值变得越来越接近均值(因此更加集中在均值周围)。
我用 z 标记了 t-表的倒数第二行,并放在了 df(自由度)列。这表示 t-值在样本大小(n)趋于无穷大时的“极限”。该行中的 t-值大致与 Z-表(附录中)上相应的右尾概率相对应的 z-值相同。这证实了您已经知道的事实:随着样本大小的增加,t-分布和 Z-分布看起来越来越相似。例如,t-表中第 30 行对应右尾概率为 0.05(列 0.05)的 t-值为 1.697。这与 Z-分布上相应右尾区域为 0.05 的 z = 1.645 接近。 (参见 t-表的 Z 行。)
不需要非常大的样本大小,就可以使 t-分布上的值接近 Z-分布上的值。例如,当 n = 31 且 df = 30 时,t-表中的值已经非常接近 Z-表上相应的值。