7.2 阈值的选择

在假设检验中,我们必须注意两种类型的错误 。

  • I类错误(type I error),也称假阳性(false positive),指的是我们接受了一个本质为假的假设。也就是说,我们认为某个效应具有统计显著性,但实际上该效应却是由偶然因素产生的。
  • II类错误(type II error),也称假阴性(false negative),指的是我们推翻了一个本质为真的假设。也就是说我们将某个效应归结为随机产生的,但实际上真实存在。

假设检验中最常用的方法是为p值选择一个阈值〔1〕α,一旦p值小于这个阈值,我们就推翻原假设。通常情况下我们选择5%为阈值。在这个标准下,第一胎和非第一胎婴儿怀孕周期的差异就不具备统计显著性了,但是在出生体重上的差异就具有显著性。

〔1〕又称为显著性准则(significance criterion)。

对于这类假设检验,我们可以得到出现假阳性的精确概率,这个概率就是α值。

我们解释一下原因,首先回顾假阳性和p值的定义:假阳性是指接受了一个不成立的假设,p值是指假设不成立时出现测量效应的概率。

两者结合起来,我们的问题是:如果选择α为显著性阈值,当假设不成立时,出现该测量效应的概率会是多少呢?答案就是α。

我们可以通过降低阈值来控制假阳性。例如如果我们设置阈值为1%,那么出现假阳性的概率就等于1%。

但是降低假阳性也是有代价的。阈值的降低会导致判断效应确实存在的标准提高,这样推翻有效假设的可能性就变大,即我们更有可能接受原假设。

一般说来,I类错误和II类错误之间存在一种权衡,同时降低这两种错误的唯一方法是增加样本数量(或者,在某些情况下降低测量误差)。

习题7-2

为了研究样本数量对p值的影响,请读者试着去掉一半NSFG的数据,再计算一下p值,并比较结果。如果去掉3/4的数据呢?提示:使用radom.sample。

最少需要多少样本量才能保证差异有5%的显著性?如果要求有1%的显著性,又需要多少样本?

读者可以从 http://thinkstats.com/hypothesis.py下载到本节所用到的代码。