高校生のためのデータ分析入門 (27)：量的変数を比較するとき、基本はt検定！

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回：高校生のためのデータ分析入門 (26)：カテゴリー変数を比較するとき、基本はカイ2乗検定！ - ねこすたっと

量的変数で比べたいのは代表値
- T統計量
- t分布
t検定を使うまでのステップ
おわりに

量的変数で比べたいのは代表値

例えば、隣のクラスと数学の点数を比べるとき、クラスの平均点で比べることが多いんじゃないでしょうか。 2グループ間で量的変数の平均値を比較するときに用いられる検定がt検定（t test）です。カイ2乗検定は3つ以上のグループを一度に比較でも用いることができましたが、t検定は3つ以上のグループを一度に比較することはできません（2つを選んで比較する必要があります）。

以前、P値の計算方法についていくつかパターンを紹介しましたね。 t検定（t test）は、検定統計量と確率分布を使ってP値を求めるタイプの検定です。

T統計量

用いられる統計量（T統計量）は、 2つの標本の平均を $x_1, x_2$ 、分散を $s_1^2, s_2^2$ 、標本数を $n_1, n_2$ とすると、次の式で計算されます*1。

$\begin{aligned} T &= \frac{| \overline{x}_1 - \overline{x}_2 |} {\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \end{aligned}$

2グループの平均値の差が大きくなればなるほど、T統計量は大きくなります。また、平均の差が同じでも、分布のバラツキが小さいほどT統計量は大きくなります。 平均の差を分布の分散を基準にして定量化しているわけです。

正規分布の話をしたときに、「標準化正規分布」というものが出てきました。変数Xが正規分布に従うとき、下のように変形することでZはN(0,1)に従う、というものです。

$\begin{aligned} Z &= \frac{X - \mu}{\sigma} \end{aligned}$

これは「変数Xが平均μからどれくらい離れているか」を、正規分布の標準偏差σを基準にして定量化するというものでした。T統計量の考え方も同様です。

t分布

しかし、T統計量からP値を計算するときに用いる確率分布は標準正規分布ではありません。下図の赤線グラフのような形をしている、t分布（t distribution）という確率分布です。

正規分布（青）によく似ていますが、裾が正規分布よりも厚くなっています（つまり、中心から外れた値を取る確率が正規分布よりも多い）。これは、母集団の分散が分かっている値として与えられているか（→正規分布）、標本から推定しないといけないか（→t分布）の違いです。

カイ2乗分布と同じように、t分布も自由度（degree of freedom）によって形状（裾の厚み）が変わります。自由度が大きくなり、裾が薄くなって正規分布に近づいていきます（下図）。

自由度をどう決めるかはちょっと複雑なので、ここでは説明しませんが、サンプル数が多いほど、使用するt分布の自由度も大きくなるとだけ理解しておいてください。

標本から得られたT統計量よりも極端な値になる確率、つまりP値は、t分布で下の部分の面積として求めることができます。下の例では、両側P値を求めています（P値の両側・片側の話はこちらの記事に追加しました）。

t検定を使うまでのステップ

順序変数にt検定は使えない

t検定は平均値を比較する検定方法なので、平均値に意味がないような変数の場合に用いることは適切ではありません。

例えば、「猫が好きですか？」という質問に対して、

0 = まあまあ好き
1 = 結構好き
2 = モフモフ〜ごろごろ〜（=めっちゃ好き）

で回答してもらったとします。回答は明らかに順序がありますが、0→1と1→2が同じ程度を意味しているとは限りません。1単位の変化の意味が異なるので、平均を取っても意味がありません。このように「順序はあるが、割り振られた数値の差に意味がない変数」を、順序変数（ordinal variable）と呼びます。順序変数を比較するときは、マンホイットニーU検定（Mann-Whitney U test）****2という検定方法が使われることが多いです。

変数の分布か正規分布かどうか

t検定において、T統計量がt分布に従うためには、変数Xが正規分布することが必要とされます。そのため、t検定を使う前に、まず変数Xが（それぞれのグループで）正規分布しているかどうかを検定するように推奨している本が多いと思います。

しかし、正規性を確認する検定は必要ないと説明しています。理由は、

t検定は正規分布から多少ズレていても問題なく使える
サンプル数が多かったら、標本平均の分布*3は正規分布とみなせるようになる

などです。なので、ヒストグラムなどで概ね山が1つに見えていればOKです。

もし、ヒストグラムで正規分布に見えない分布で、サンプル数もそんなに多くないときは、先程紹介したマンホイットニーU検定を用います。この検定は、変数について全体の中での順序だけしか考慮しないので、正規分布かどうかを気にする必要がなくなります。

2つの標本の分散が等しいかどうか

最初の方で「差をバラツキで定量化する」という話をしました。比べたい2つのサンプルの分散が同じ場合・違う場合で、T統計量の分母の計算が少し変わります。

分散が同じ値として計算するt検定をスチューデントのt検定（Student's t test）、分散か異なっているとして計算するt検定をウェルチのt検定（Welch's t test）と言います。

まず2つの標本分散が同じかどうかを検定で確かめてから、どちらのt検定を使うか選ぶことを推奨している本も多いですが、常にウェルチのt検定を使って問題ありません。

おわりに

t検定は「正規性や等分散性を確認して選ぶ」というお作法にとらわれすぎない方がいいです。
3つ以上のグループで量的変数を比較するときは、分散分析（analysis of variance）という手法を使います。分散分析とマンホイットニーU検定は名前だけでも覚えておくといいでしょう。
次回：高校生のためのデータ分析入門 (28)：ここまでの総復習！ - ねこすたっと