第10章 t-分布

t-分布是数据分析的主要工具之一。你可能听说过“t检验”，例如，它经常用于比较医学研究和科学实验中的两组数据。

这个简短的章节介绍了t-分布的基本特征和用途。你将了解它与正态分布的比较（更多内容请参见第9章），以及如何使用t表格来查找概率和百分位数。

t-分布的基础知识

在这一部分，您将了解t-分布的概况，主要特征，以及在何时使用以及它与Z-分布（详见第9章）的关系。

比较t-分布和Z-分布

正态分布是那个众所周知的钟形分布，其均值为μ，标准差为σ（更多关于正态分布的内容请参见第9章）。最常见的正态分布是标准正态分布（也称为Z-分布），其均值为0，标准差为1。

t-分布可以看作是标准正态分布的表亲——在中心为零且具有基本钟形的外观上相似，但它比Z-分布更矮更扁。相对于Z-分布，其标准差较大，这就是为什么在两侧看到较厚的尾巴的原因。

图10-1比较了t-分布和标准正态（Z-）分布的最一般形式。

统计学分析零基础,统计学入门免费教学视频求和

t-分布通常用于研究一个总体的平均值，而不是研究总体中的个体。特别是在许多情况下，当您使用数据估计总体均值时使用 t-分布，例如估计加利福尼亚州所有新房屋的平均价格。或者当您使用数据测试有关总体均值的某人声明时，例如，加利福尼亚州所有新房屋的平均价格是否为50万美元？

这些程序称为置信区间和假设检验，分别在第13章和第14章讨论。

正态分布与 t-分布之间的关系在于，如果总体呈正态分布（或接近正态分布），通常会使用 t-分布来分析总体均值。如果数据集较小或者您不知道总体的标准差（通常是这种情况），t-分布的作用尤为重要。

当统计学家使用术语 t-分布时，他们并不是在谈论一个特定的分布。有一整个特定的 t-分布家族，具体取决于用于研究总体均值的样本大小。每个 t-分布都由统计学家称为其自由度的因素来区分。在您只有一个总体且样本大小为n的情况下，相应 t-分布的自由度为n – 1。例如，大小为10的样本使用具有10 – 1，或9个自由度的 t-分布，表示为t9（发音为tee sub-nine）。涉及两个总体的情况使用不同的自由度，将在第15章讨论。

探索变异性对 t-分布的影响

基于较小样本大小的 t-分布具有比基于较大样本大小的 t-分布更大的标准差。它们的形状更扁平，其值更分散。这是因为基于较小数据集的结果比基于大数据集的结果更具变异性。

样本大小越大，自由度就越大，t-分布就越接近标准正态分布（Z-分布）。 t-和 Z-分布变得相似的一个大致截断点（至少足够相似以完成任务）是在 n = 30 左右。

图10-2展示了不同样本大小的不同 t-分布的外观，以及它们与标准正态（Z-）分布的比较。

统计学分析零基础,统计学入门免费教学视频求和

使用 t-表

每个正态分布都有自己的均值和标准差进行分类，因此单独为每个正态分布查找概率并不是一个好方法。幸运的是，您可以将任何正态分布的值标准化为标准正态（Z-）分布的值（其均值为0，标准差为1），然后使用 Z-表（附录中）查找概率。（第9章介绍了正态分布的信息。）

相比之下，t-分布不是由其均值和标准差进行分类的，而是由正在使用的数据集的样本大小（n）进行分类。不幸的是，没有一个单一的“标准 t-分布”可以用于转换数字并在表上查找概率。由于人类不可能为每种可能的 t-分布创建概率和相应 t-值的表，统计学家创建了一个表，显示了一些 t-分布的特定自由度和一些概率的值。此表称为 t-表（它出现在附录中）。在本节中，您将了解如何使用 t-表查找概率、百分位数和置信区间的临界值。

使用 t-表查找概率

t-表（见附录）的每一行代表一个不同的 t-分布，由其自由度（df）进行分类。列代表各种常见的大于概率，如0.40、0.25、0.10和0.05。横穿一行的数字表示 t-分布上的值（t-值），对应于列顶部显示的大于概率。行按自由度排列。

大于概率的另一个术语是右尾概率，它表示这些概率代表 t-分布右侧端（尾巴）的区域。

例如，t-表的第二行是 t2 分布（2个自由度，发音为 tee sub-two）。您可以看到第二个数字0.816是 t2 分布上的值，其右侧区域（右尾概率）为0.25（请参阅第2列的标题）。换句话说，t2 大于0.816的概率等于0.25。用概率符号表示，这意味着 p(t2 > 0.816) = 0.25。

t-表第二行的下一个数字是1.886，它位于0.10列。这意味着 t2 分布大于1.886的概率为0.10。因为1.886位于0.816的右侧，其右尾概率较低。

计算 t-分布的百分位数

您还可以使用 t-表（附录中）来找到 t-分布的百分位数。百分位数是分布上的一个数，其小于概率是给定百分比；例如，具有 n – 1 自由度的 t-分布的第 95 百分位数是 tn – 1 的值，其左尾（小于）概率为 0.95（右尾概率为 0.05）（有关百分位数的详细信息，请参见第 5 章）。

假设您有一个大小为 10 的样本，并且想找到其相应 t-分布的第 95 百分位数。您有 n – 1= 9 自由度，因此您查看 df = 9 的行。第 95 百分位数是一个数，其中 95% 的值在其下方，5% 在其上方，因此您希望右尾区域为 0.05。沿着行移动，找到 0.05 的列，您得到 t9 = 1.833。这是具有 9 自由度的 t-分布的第 95 百分位数。

现在，如果您将样本大小增加到 n = 20，第 95 百分位数的值会减小；查看 df = 20 – 1 = 19 的行，在 0.05 的列（右尾概率为 0.05）中，您会找到 t19 = 1.729。请注意，t19 分布的第 95 百分位数小于 t9 分布的第 95 百分位数（1.833）。这是因为较大的自由度表示较小的标准偏差， t-值更集中在均值周围，因此您可以用较小的 t-值达到第 95 百分位数（请参见本章前面的“发现 t-分布的变异性效应”部分）。

选择置信区间的 t* 值

置信区间通过使用一个统计量（例如样本均值）加上或减去一个误差限来估计总体参数，比如总体均值。（有关所有与置信区间以及更多信息，请参见第 13 章。）要计算置信区间的误差限，您需要一个临界值（您添加和减去以获取所需误差限的标准误差的数量；请参见第 13 章）。当样本大小较大（至少为 30）时，您使用 Z-分布上的临界值（请参见第 13 章）来构建误差限。当样本大小较小（小于 30）和/或总体标准差未知时，您使用 t-分布来找到临界值。

为了帮助您找到 t-分布的临界值，您可以使用 t-表的最后一行，其中列出了常见的置信水平，如 80%，90% 和 95%。要查找临界值，请查看表的底部行，这告诉您需要使用 t-表的哪一列。将此列与您的 df（有关自由度公式，请参见第 13 章）的行相交。您看到的数字是您置信区间的临界值（或 t*-值）。例如，如果您希望在有 9 自由度时获得 90% 置信区间的 t*-值，请转到表的底部，找到 90% 的列，并与 df = 9 的行相交。这将为您提供 t*-值为 1.833（四舍五入）。

在 t-表的顶部行，您可以看到 t-分布的右尾概率。但是，置信区间涉及左尾和右尾概率（因为您要加上和减去误差限）。因此，置信区间剩余的概率的一半分别进入每个尾部。您需要考虑到这一点。例如，90% 置信区间的 t*-值其右尾概率为 5%，左尾概率也为 5%（将 100% 减去 90% 并除以 2）。使用 t-表的顶部行，您必须寻找 0.05（而不是您可能倾向于寻找的 10%）。但是使用表的底部行，您只需查找 90%。（使用任何一种方法得到的结果最终都在同一列中。）

在寻找置信区间的 t*-值时，使用 t-表的底部行作为您的指南，而不是表顶部的标题。

使用 t-表研究行为

如果您可以使用计算机软件来计算您所需的任何 t-分布（或任何其他分布）的概率、百分位数或临界值，那就太好了（如果可以的话，在考试中可能不可用）。然而，使用表格查找概率（而不是使用计算机软件）的一个好处是，表格可以告诉您有关分布本身行为的信息，即它可以给您一个大局观。通过扫描 t-表（在附录中）可以获取有关 t-分布的一些整体信息。

在图 10-2 中，随着自由度的增加，每个 t-分布上的值都变得更加集中在均值周围，最终类似于 Z-分布。t-表也证实了这一模式。由于 t-表的设置方式，如果您选择任何列并沿着该列向下移动，您将增加自由度（和样本大小），并保持右尾概率不变。当您这样做时，您会看到 t-值变得越来越小，表明 t-值变得越来越接近均值（因此更加集中在均值周围）。

我用 z 标记了 t-表的倒数第二行，并放在了 df（自由度）列。这表示 t-值在样本大小（n）趋于无穷大时的“极限”。该行中的 t-值大致与 Z-表（附录中）上相应的右尾概率相对应的 z-值相同。这证实了您已经知道的事实：随着样本大小的增加，t-分布和 Z-分布看起来越来越相似。例如，t-表中第 30 行对应右尾概率为 0.05（列 0.05）的 t-值为 1.697。这与 Z-分布上相应右尾区域为 0.05 的 z = 1.645 接近。（参见 t-表的 Z 行。）

不需要非常大的样本大小，就可以使 t-分布上的值接近 Z-分布上的值。例如，当 n = 31 且 df = 30 时，t-表中的值已经非常接近 Z-表上相应的值。

统计学三大分布讲解 (统计学入门很简单回归分析)