サンプルサイズ計算：2群の連続アウトカム（正規分布）を比較する [G*Power]

想定シナリオ
- 方法：t検定もとにして計算する
おわりに
参考資料

自分用のリファレンスとして、サンプルサイズ計算に関する記事をシリーズで書いています。なるべく体裁を統一するために、以下のように決めています。

群を示す添字について：
- c, C = 対照群
- t, T = 介入群*1
- e, E = 要因群
- 添字なし = 全体
使用する記号：
- p = 反応割合
- μ = 平均値
- σ = 標準偏差
- Φ = 割り付け比 Nt/Nc（デフォルトは1）
- α = αエラー（デフォルトは0.05）
- β = βエラー（デフォルトは0.2）
- z = 標準正規分布の累積分布関数

想定シナリオ

疾患Dに対する治療として、従来薬Cと新規薬Tのどちらが優れているだろうか？
ランダム化比較試験で患者を1:1に割り付けて、疾患活動度スコアを比較したいと考えている。
これまでの知見から、治療開始後のスコアは従来薬Cでは60点、新規薬Tでは50点となることが見込まれる。両側有意水準 5%, 検出力 80%として、必要なサンプルサイズはどれくらいだろうか？

このシナリオでサンプルサイズを計算するのに必要な条件を整理してみると、以下のようになる。

帰無仮説 $H_0: \mu_T = \mu_C$
対立仮説 $H_A: \mu_T \neq \mu_C$
有意水準：α = 0.05
検出力：1-β = 0.80
割り付け比：φ = $N_T / N_C$ = 1
従来薬C群における治療後活動度スコアの平均値（想定値）： $\hat{\mu}_C$ = 60
新規薬T群における治療後活動度スコアの平均値（想定値）： $\hat{\mu}_T$ = 50
治療後活動度スコアの標準偏差（想定値）： $\hat{\sigma}$ = 10（両群共通）

新規薬Tの効果は、2群の平均値の差 $\delta = \mu_T - \mu_S$ で推定され、効果サイズと呼ばれる。効果サイズの大小は、スコアのバラツキ具合、つまり標準偏差 $\sigma$ （standard deviation, SD）と比べて相対的に判断する必要があるので、

$\begin{aligned} \Delta = \frac{\delta}{\sigma} \end{aligned}$

で計算される「標準効果サイズ（別名：Cohen's d）」が用いられる。
標準効果サイズは現実的には0.1-1.0の範囲で設定され、目安は以下のとおり。

Δ=0.2：効果が小さい
Δ=0.5：効果は中等度
Δ=0.8：効果が大きい

設定する効果サイズが小さいほど、必要なサンプルサイズは大きくなる。小さい魚をすくおうとすると、細かい目の網が必要になるイメージ。ただし出来るだけ先行研究をもとにして効果サイズを見積もる方がよい。

方法：t検定もとにして計算する

無料のサンプルサイズ計算ソフトG*Powerを使って計算する。以下のように設定して右下の [Calculate] ボタンを押す。

[Test family]："t test"を選択
[Statistical test]："Means: Difference between two independent means (two groups)"を選択
[Type of power analysis]："A priori: ..."（= 与えられたαエラー、βエラー、効果サイズの条件下でサンプルサイズを計算する）を選択
[Input parameters]：
- [Tail(s)]：ここでは "Two"（= 両側検定）を指定。
- [Effect size d]：標準化効果サイズ。ここでは1を指定。[Determine] ボタンを押せば、左に新しいウィンドウが引き出され、各群の平均（50, 60）および標準偏差（ともに10）を入力して [Calculate and transfer to main window] ボタンを押せば、この欄の値を埋めてくれる。
- [α err prob]：有意水準（=0.05）
- [Power (...)]：検出力（=0.8）
- [Allocation ratio N2/N1]：割り付け比（=1）

出力結果画面は下のようになる。1群あたり17例、両群で34例必要という結果。