ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

t分布とt検定を振り返る

T統計量とt分布

正規分布する母集団から標本  {x_1, x_2, ..., x_n}が得られたとき、つまり、

 
\begin{aligned}
x_i  &\sim N\left(\mu, \sigma^2 \right) \\
i &= 1, 2, ..., n
\end{aligned}

のとき、 x_i が互いに独立であれば、 \Sigma x_i も正規分布に従い、その期待値・分散は元の変数の期待値・分散の和になるので、

 
\begin{aligned}
\Sigma x_i  \sim N\left(n\mu, n\sigma^2 \right) 
\end{aligned}

となる。互いに独立な変数X, Yの分散の線形結合には

 
\begin{aligned}
Var(aX+bY) = a^2 Var(X) + b^2 Var(Y)
\end{aligned}

の関係が成り立つので、

 
\begin{aligned}
\bar{x} = \frac{\Sigma x_i}{n}  \sim N\left( \mu, \frac{\sigma^2}{n} \right) 
\end{aligned}

となり、これを標準化すれば、

 
\begin{aligned}
\frac{\bar{x} - \mu}{\sigma/\sqrt{n}}  \sim N\left(0, 1 \right) 
\end{aligned}

が得られる(1)。

次に、標本平均からの偏位の和は0なので、

 
\begin{aligned}
\Sigma (x_i - \mu)^2 &= \Sigma (x_i - \bar{x} + \bar{x} - \mu)^2 \\
&= \Sigma (x_i - \bar{x})^2 + \Sigma (\bar{x} - \mu)^2 + 2\Sigma(x_i - \bar{x})(\bar{x} - \mu) \\
&= \Sigma (x_i - \bar{x})^2 + \Sigma (\bar{x} - \mu)^2 + 2(\bar{x} - \mu)\Sigma(x_i - \bar{x}) \\
&= \Sigma (x_i - \bar{x})^2 + n (\bar{x} - \mu)^2
\end{aligned}

と変形できる。両辺を \sigma ^2 で割って、標本分散 s2

 
\begin{aligned}
s^2 = \frac{\Sigma (x_i - \bar{x})^2}{n-1}
\end{aligned}

であることを使って書き換えると、

 
\begin{aligned}
\Sigma \left(\frac{x_i - \mu}{\sigma}\right)^2 = \frac{(n-1)s^2}{\sigma ^2} + \left( \frac{\bar{x}-\mu}{\sigma \sqrt{n}} \right)^2
\end{aligned}

となる。

カイ2乗分布についての以下の定理:

 
\begin{aligned}
X \sim N(0,1) &\rightarrow X^2 \sim \chi^2_{df=1} \\
X_i \sim N(0,1) &\rightarrow \Sigma X_i^2 \sim \chi^2_{df=n} \\
X_i \sim \chi^2_{df=\nu_i} &\rightarrow \Sigma X_i^2 \sim \chi^2_{df=\Sigma \nu_i}
\end{aligned}

が成り立つことから、

 
\begin{aligned}
\Sigma \left(\frac{x_i - \mu}{\sigma}\right)^2  &\sim \chi^2_{df=n} \\
\left( \frac{\bar{x}-\mu}{\sigma \sqrt{n}} \right)^2 &\sim \chi^2_{df=1}
\end{aligned}

となり、両辺を比べれば

 
\begin{aligned}
 \frac{(n-1)s^2}{\sigma ^2}  \sim \chi^2_{df=n-1}
\end{aligned}

となることが分かる(2)。

今、既知の値  \mu_0 を用いて、以下のように統計量Tを定め、式変形をする。

 
\begin{aligned}
T &= \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \\
&= \left( \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \right) \left( \frac{\sigma}{s} \right) \\
&= \frac{\left( \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \right)}{\sqrt{\frac{(n-1)s^2/ \sigma ^2}{n-1}}}
\end{aligned}

また、ある変数ZとWが互いに独立で、

 
\begin{aligned}
Z &\sim N(0,1) \\
W &\sim \chi^2_{df}
\end{aligned}

のとき、 \frac{Z}{\sqrt{W/df}} は自由度dfのt分布  t_{df} に従う(証明はこちら)。

(1), (2)より、

 
\begin{aligned}
\left( \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \right) &\sim N(0, 1) \\
\frac{(n-1)s^2}{\sigma ^2}  &\sim \chi^2_{df=n-1}
\end{aligned}

であることから、前述の統計量Tは自由度df=n-1のt分布に従うことがわかる。

 
\begin{aligned}
T = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \sim t_{df=n-1}
\end{aligned}

t検定ではこのT統計量を使う。

1標本のt検定(One-sample t test)

ある母集団における連続値の特性が、既知(あるいは理想)の値と異なっているかどうかを検定するときに使う。

例: 錠剤Aには有効成分が100mg含まれていると記載されている。サンプルとしてランダムに10錠選んで調べたい。

  •  \bar{x}:サンプルとして選ばれた10錠における有効成分の平均値
  •  s:サンプルとして選ばれた10錠における有効成分の標準偏差
  •  \mu_0:既知の値=100mg
  •  n:サンプル数=10

として計算し、自由度9のt分布を使ってP値を求める。

有意水準を0.05とすれば、

  • P<0.05のとき「錠剤Aの有効成分は100mgとは異なる」
  • P≧0.05のとき「錠剤Aの有効成分は100mgとは異なるとは言えない」

となる。

対応のあるt検定(paired t test)

2群の連続値を比べるとき、次のような状況では2群は独立しているとは言えず、観測値間の対応を考慮した解析を行わなくてはならない(というか、考慮した方が「比較したい要因以外に起因する差を相殺できる」のでお得)。

例:錠剤Aを1週間飲んだ前後で、血清コレステロール値が下がるのだろうか。ランダムに選ばれた10人の被験者に投与して調べたい。 (前値が高い人は内服後の値も高い傾向があると考えられる)

「各被験者の内服前の値と内服後の値に差があるかどうか」は、「前後の差が0かどうか」と同じ問いになるので、前述のone-sample t testと同様に、

  •  \bar{x}:サンプルとして選ばれた10人における前後差の平均値
  •  s:サンプルとして選ばれた10人における前後差の標準偏差
  •  \mu_0:既知の値=0
  •  n:サンプル数=10

として計算し、自由度9のt分布を使ってP値を求めればよい。

対応のない2標本のt検定(Unpaired two-sample t test)

前述のような対応関係がない場合に、2群の母集団の代表値に差があるかどうかを検定するときに用いる。

例:高コレステロール治療薬として薬Aと薬Bはどちらが効果があるだろうか。それぞれ10人ずつに内服してもらい、内服開始後1か月における血清コレステロール値を比較したい。

このときは、同じ人が薬Aと薬Bを内服するわけではないので、2群の被験者に対応関係はない。

この検定で問題になるのは、「母集団の分散をどうやって推定するか(どうやって標本分散で置き換えるか)」、そして「そのときの自由度をどうするか」ということ。 特に前者について、

  • 比較する群を全てまとめた標本における分散を用いる方法(Studentのt検定)
  • それぞれの群において標本分散を計算してから(加重平均として)まとめた値を用いる方法(Welchのt検定)

があり、「2群の母集団の分散が等しいと見なせるかどうか事前に検定してからt検定を使え」と言われていたこともあったが、近年は「事前検定は不要で、いつでもWelchのt検定を使えばよい」と言われていることが多いと思う。

おわりに

  • 教科書ではまず「分散が既知の場合にZ統計量を標準正規分布と比べる」ところから始まると思いますが、標準正規分布、カイ2乗分布とt分布の関係を思い出すための自分用のメモなので中途半端な説明になってしまっています(特に最後の方)。
  • そもそも母集団の分散が既知の状況に遭遇することがありません(理論的背景を勉強するときには必要だと思いますが)。
  • 修士のときのノートを久々に開きました。

参考資料

  • 1冊目は自炊のため解体してしまったので、もう1冊買いました。

  • 奥村先生のt検定に関する説明記事です。

okumuralab.org