ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

対応のない2群の代表値を比較するときに用いるべき検定方法

「治療Aを受けた10人と治療Bを受けた10人で、1か月後の検査値Xがどちらが高いか?」というように、対応していない(同じ人でない)2群の連続変数の代表値(平均値)を比べるとき、下の手順を紹介されていることが多い。

  • 正規性の検定:標本が正規分布から得られたと考えられるか検定する(Kolmogorov–Smirnov検定、Shapiro–Wilk検定)
  • 等分散性の検定:標本が同じ分散の母集団から得られたと考えられるか検定する(F検定)
  • 以下の基準で方法を選んで、代表値を比較する
    • 正規性が仮定できないとき → Mann-Whitney U検定
    • 正規性は仮定できるが等分散性が仮定できないとき → Welchのt検定
    • 正規性・等分散性の両方が仮定できるとき → Studentのt検定

さらに「サンプル数が少ないのでMann-Whitney U検定を使った」とか、「とりあえず全部Mann-Whitney U検定でやっておけばいいでしょ?」という声を耳にすることも少なくない。

というわけで、正解にたどりつけるか分からないが自分なりに整理しておく。

正規性の検定は必要?

以前、下の記事でT統計量がt分布に従うためにはどのような前提条件が必要だったか振り返りました。

necostat.hatenablog.jp

スタートラインとして、

  • 各観測値が互いに独立であること
  • 各観測値が正規分布する母集団からサンプリングされていること

が必要だった。でも、Statistical Methods in Medical Research (4th edition), p.101には

As in significance tests,normality of the distribution of x is necessary for the strict validity of (4.7),but moderate departures from normality will have little effect on the validity.

と書かれており、多少正規分布からズレたところで大きな問題はなさそう。Rochon (2012)*1では、t検定の前に正規性の検定を行うとαエラーが増加するから事前の正規性検定は不要と結論している。

正規性の検定はそもそも検出力が低く、サンプル数が少なければ余計に意味がない。そして何より、「正規分布と異なっていると言えない」ということと「正規分布である」ということは違うから不要、というのは非常に納得のいく説明。

「サンプル数が多ければ、母集団が正規分布してなくても中心極限定理によって標本平均の分布は正規分布になるから正規性は気にしなくてよくなる」という理由については、確かにそんな気もするけど、「母集団の分散をサンプルの分散で推定して代用するにあたって、標準正規分布の代わりt分布を用いる根拠は、母集団が正規分布することが前提では?」と思ったり...。

「正規性は要る・要らない」と一見相反する推奨に混乱気味ですが、要は「理論的には正規性の仮定は必要だが、経験的にはサンプル数が多いときはt分布は非正規性に対して頑健(さっきのRochon先生の論文でも示されている)なので、サンプル数が大きかったらわざわざ正規性を検定で確かめるメリットはないし、αエラーも想定より増えちゃうよ」ということなんでしょうか。

結論:ある程度のサンプル数があるならば、t検定を行う前の正規性の検定は不要!
(ヒストグラムなどで分布を確認して、富士山様だったらさらに自信をもって行わない)

等分散の検定は必要?

「等分散性が仮定できればStudentのt検定、仮定できなければWelchのt検定を使いなさい」というのが過去の慣例(あるいは推奨)でしたが、「不等分散のときにSudent、等分散のときにWelchを使ったらどうなるか」については、青木先生がシミュレーションで比較されています。

aoki2.si.gunma-u.ac.jp

等分散のときにWelchのt検定を使ってもαエラーは想定内に収まっているけど、不等分散のときにStudentのt検定を使ってしまうとαエラーが想定している値から大きくかけ離れちゃってます。

等分散のときに「誤って」Welchを使うデメリットは少し検出力が落ちるくらいなので、等分散かどうか事前に検定なんかしないで、常にWelchを使えばよい(Ruxton (2016)*2でも同様の推奨)。

さらには、等分散性の検定も正規性の検定同様、有意差がなかったからと言って、分散が等しいことの証明にはならないこと、検出力が低いことも、行う必要がない理由。

青木先生の解説記事で、もう1つ大事なことは、Mann-Whitney U検定も不等分散の影響を受けること。Mann-Whitney U検定は母集団の分布が同じことを前提にしているので、分散が違うとαエラーが想定より増えてしまう。だから「Mann-Whitney U検定を使っておけば分散は気にしなくていい」は間違い。

結論:分散が等しいかどうかは気にせずに、常にWelchのt検定を使う

サンプル数はどれくらい必要?

じゃあ、最低限どれくらいあったらt検定していいんだろう。あるいはサンプル数が少なければMann-Whitney U検定をしておけば安全なんだろうか。

Neville (2006)*3では「各群30例以上なかったら正規分布を仮定できないし、ノンパラメトリックな方法を使うべき」と決めて、論文で発表された解析方法を評価しているので、この30例は1つの安全な下限と考えていいかもしれない。

hoxo_mさんの記事で、サンプル数が少なくてもt検定はαエラーが安定していることを示されています(z分布を使った場合はこうはいかない)。

hoxo-m.hatenablog.com

de Winter (2013)*4も、十分に大きいeffect sizeが想定される場合は非常に小さいサンプルサイズ(例えば3例ずつ)でもαエラーは想定を超えないと述べてる。

母集団が正規分布なら2-3例しかなくてもt検定は十分に安全そうだけど、母集団が正規分布からズレる度合いや、分散比、サンプルサイズ比に応じてどれくらいのサンプル数が必要かは変わりそう。

Neville (2006)のように、少ないサンプル数で正規分布かどうか自信がなければ、Mann-Whitney U検定を使うことを推奨している記載は他にも見かけるが、Mann-Whitney U検定が母集団の分散(分布)が等しいことを前提としているので、状況によっては必ずしも適切ではない。こんなときは、正規性も等分散性も前提としない「Brunner-Munzel検定*5」がいいらしい。

Brunner-Munzel検定については、

が勉強になりました。

BrunnerとMunzelの原著*6では各群10例ずつ以上で検討しているので、これ以下での使用は推奨していないみたい。そのときは、「並べ替えBrunner-Munzel検定(permuted Brunner-Munzel test)」が良いとのこと。

Brunner-Munzel検定のコードは一度自分で確認しよう。→確認してみました。(2022-11-01)

necostat.hatenablog.jp

結論:サンプル数が少ないときはMann-Whitney U検定ではなくBrunner-Munzel検定を使う!

おわりに

だいぶキャパオーバーですが、噛み砕いてまとめてみると、

  • 少なくとも1群30例以上あるなら、Welchのt検定を使う
  • 少ない方が10-30例なら、Brunner-Munzel検定を使う
  • 少ない方が10例未満なら、並べ替えBrunner-Munzel検定を使う
  • いずれの場合も正規性・等分散性を確認するための事前検定は行わない

という方針でいいんじゃないかと。

1群30例が簡単じゃない状況も多いと思うので、視覚的に正規分布に見えていれば、1群15例以上でWelchのt検定を許容してもいい だろう(いずれにせよ、単純な2群間比較だけで結論づけられる状況はあまりなさそうだけど)。

追加(2022-10-31):順序変数ならBrunner-Munzel検定を使う(そりゃそうだろう)。

参考資料

  • 奥村先生のページからt検定についての説明です。

okumuralab.org

  • 引用した書籍(Statistical Methods in Medical Research, 4th edition)です。

*1:Rochon J, Gondan M, Kieser M. To test or not to test: Preliminary assessment of normality when comparing two independent samples. BMC Med Res Methodol. 2012 Jun 19;12:81. doi: 10.1186/1471-2288-12-81. PMID: 22712852; PMCID: PMC3444333.

*2:Graeme D. Ruxton, The unequal variance t-test is an underused alternative to Student's t-test and the Mann–Whitney U test, Behavioral Ecology, Volume 17, Issue 4, July/August 2006, Pages 688–690, https://doi.org/10.1093/beheco/ark016

*3:Neville JA, Lang W, Fleischer AB Jr. Errors in the Archives of Dermatology and the Journal of the American Academy of Dermatology from January through December 2003. Arch Dermatol. 2006 Jun;142(6):737-40. doi: 10.1001/archderm.142.6.737. PMID: 16785376.

*4:de Winter, J.C.F. (2013) "Using the Student's t-test with extremely small sample sizes," Practical Assessment,Research,andEvaluation: Vol. 18 , Article 10. DOI: https://doi.org/10.7275/e4r6-dj05 Available at: https://scholarworks.umass.edu/pare/vol18/iss1/10

*5:ブルンナー・ムンツェル検定と読むそうです

*6:Brunner, E. and Munzel, U. (2000), The Nonparametric Behrens-Fisher Problem: Asymptotic Theory and a Small-Sample Approximation. Biom. J., 42: 17-25. https://doi.org/10.1002/(SICI)1521-4036(200001)42:1<17::AID-BIMJ17>3.0.CO;2-U