双样本
t
检验
如果有两个以上的组,该怎么办?
请使用多重比较方法。方差分析 (ANOVA) 就是这样一种方法。其他多重比较方法包括:用于检验所有配对差异的 Tukey-Kramer 检验,用于将组间均值与总体均值进行比较的均值分析 (ANOM),或用于将每组均值与对照均值进行比较的 Dunnett’s 检验。
如果两组方差不等,该怎么办?
您仍可以使用双样本
t
检验。可使用其他的标准差估计值。
如果数据不是接近正态分布的,该怎么办?
如果样本量很小,您可能无法检验正态性。这就需要依赖您对数据的理解。当您无法假设数据的正态性时,可执行
非参数
检验,非参数检验不需要做正态性假设。
我们还会有一些想法或假设,即:两个组的潜在总体均值不同。以下是两个示例:
-
有一些学生,英语是的他们的第一语言;有一些学生不是这样。所有学生都参加了阅读考试。这里的两个组也即是:英语为母语的学生和英语为非母语的学生。测量值是考试分数。假设,以英语为母语和英语为非母语的这两组人群的潜在总体的平均考试分数不同。我们想知道,英语为母语的人群的总体平均分数,是否与以英语作为第二语言的人不同。
-
测量两个不同品牌能量棒的蛋白质克数。这里的两个组就是这两个品牌。测量值是每根能量棒的蛋白质克数。假设两个品牌的潜在总体的平均蛋白质克数可能不同。我们想知道,是否有足够的证明来证明两个品牌能量棒的平均蛋白质克数不同。
双样本
t
检验假设
若要执行有效的检验:
-
数据必须是独立的。一个观测值的测量值不影响任何其他观测值的测量值。
-
每组中的数据必须是通过从总体中随机抽样获得的。
-
每组中的数据呈正态分布。
-
数据是连续型的。
-
两个独立的组的方差相等。
对于很小的数据组,可能难以检验这些要求。下面我们将讨论如何使用软件来检查这些要求,以及当不满足某个要求时该如何做。
双样本
t
检验示例
测量体脂百分比是衡量一个人健康状况的一种方法。平均体脂百分比因年龄而异,但根据某些指导原则,男性体脂的正常范围是 15-20%,女性体脂的正常范围是 20-25%。
我们的样本数据来自一组男性和女性,他们在一年中每周在健身房锻炼三次。然后,他们的教练测量了体脂。下表显示了这些数据。
图 1:体脂数据的直方图和汇总统计量
两个直方图在相同的测量尺度上。通过快速看一下直方图,可以看到,没有十分异常的点,即
离群值
。数据看起来大致呈钟型,因此我们最初假设数据是正态分布这种想法似乎是合理的。
通过检验汇总统计量,我们可以看到,标准差是相似的。这支持方差相等的想法。我们还可以使用方差检验来检查这一点。
从这些观测来看,双样本
t
检验这种方法似乎适合检验均值差异。
没有执行任何检验,我们就能看到,在样本中,男性和女性的均值是不同的。但它们是怎样不同呢?均值是否“足够接近”,可以让我们得出这样的结论:健身房中男性和女性更大总体的平均体脂相同?或者,均值是否差异过大,让我们无法得出这样的结论?
我们将在下面的统计详情中进一步说明支持双样本
t
检验的原则,但我们先从头到尾继续完成相关的步骤。首先计算检验统计量。此计算首先是要找到两个均值之间的差异:
$ 22.29 - 14.95 = 7.34 $
样本差异可以估计两组数据总体均值之间的差异。
接下来,计算合并标准差。这样可以合并起来估计总体标准差。估计值会针对不同的组大小进行调整。首先,计算合并方差:
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
$ s_p^2 = \frac{((10 - 1)5.32^2) + ((13 - 1)6.84^2)}{(10 + 13 - 2)} $
$ = \frac{(9\times28.30)+ (12\times46.82)}{21}$
$ = \frac{(254.7+ 561.85)}{21} $
$ =\frac{816.55}{21}= 38.88 $
接下来,取合并方差的平方根,以得到合并标准差。即:
$ \sqrt{38.88}= 6.24 $
现在有了计算检验统计量的所有要素。我们有了均值差异、合并标准差和样本大小。我们将计算检验统计量,如下所示:
$ t = \frac{\text{组平均值差异}}{\text{标准误差差异}} = \frac{7.34}{(6.24\times \sqrt{(1/10 + 1/13)})} = \frac{7.34}{2.62}= 2.80 $
为了评估均值之间的差异,以便做出关于健身房课程的决策,我们将检验统计量与来自
t
分布的理论值进行比较。此操作包含 4 个步骤:
-
确定我们愿意为宣告显著差异而承担的风险。对于体脂数据,我们愿意为得出错误结论(即,当男性和女性未知的总体均值实际上相等时,我们认为它们不相等)承担 5% 的风险。用统计学的表达方式,将以 α 表示的显著性水平设置为 0.05。最好在在收集数据之前以及计算检验统计量之前做出此设定。
-
计算检验统计量。检验统计量为2.80。
-
根据我们的原假设(即男性和女性的均值相等)从
t
分布中找到理论值。大多数统计学书籍都有
t
分布查询表。您也可以在网上找到这些表格。最可能的情况是,您会使用软件而非打印的表格。
为了找到这个值,我们需要有显著性水平 (α = 0.05) 和
自由度
。自由度 (
df
) 基于两组的样本大小。对于体脂数据,也就是:
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
α = 0.05 并且具有 21 个自由度的
t
值是 2.080。
-
将统计量的值 (2.80) 与
t
值进行比较。由于 2.80 > 2.080,我们将拒绝男性和女性的平均体脂相等这个原假设,并可以得出这样的结论:我们有证据证明男性和女性总体的体脂不同。
计算合并标准差。这假设潜在的总体方差相等。合并方差公式如下所示:
$ s_p^2 = \frac{((n_1 - 1)s_1^2) + ((n_2 - 1)s_2^2)} {n_1 + n_2 - 2} $
公式以
n
1
表示第一组的样本大小,以
n
2
表示第二组的样本大小。两组的标准差是
s
1
和
s
2
。这种估计允许两组有不同的观测值数量。合并标准差是方差的平方根,以
s
p
表示。
如果两组的样本大小相同,该怎么办?在这种情况下,合并方差估计值就是两组的方差平均值:
$ s_p^2 = \frac{(s_1^2 + s_2^2)}{2} $
检验统计量的计算方法是:
$ t = \frac{(\overline{x_1} -\overline{x_2})}{s_p\sqrt{1/n_1 + 1/n_2}} $
然后,将检验统计量与我们为数据所选择的 alpha 值和自由度得到的
t
值进行比较。以体脂数据为例,设置 a = 0.05。自由度 (
df
) 基于组大小,计算方法为:
$ df = n_1 + n_2 - 2 = 10 + 13 - 2 = 21 $
公式以
n
1
表示第一组的样本大小,以
n
2
表示第二组的样本大小。统计师将 α = 0.05 并且有 21 个自由度的
t
值写作:
$ t_{0.05,21}$
α = 0.05 并且有 21 个自由度的
t
值是 2.080。我们的比较有两种可能的结果:
-
检验统计量低于
t
值。您无法拒绝均值相等这个原假设。您得出的结论是:数据支持男性和女性有相同的平均体脂这个假设。
-
检验统计量高于
t
值。您将拒绝均值相等这个原假设。您无法得出男性和女性有相同的平均体脂这个结论。
当两组方差不等时,我们无法使用合并的标准差估计值。相反,分别取每组的标准误差。检验统计量是:
$ t = \frac{ (\overline{x_1} - \overline{x_2})}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} $
检验统计量的分子与前面相同。它是两组平均值之间的差异。分母是均值之间差异的总体标准误差估计值。它基于每个组单独的标准误差。
有不等方差的
t
值的自由度计算比有相等方差的自由度计算更为复杂,这通常留给统计软件来处理。需要记住的重点是:如果您无法使用合并的标准差估计值,您就无法使用简单的公式来计算自由度。
图 3:对体脂数据的不等方差进行的检验