ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

マルチレベルデータの解析方法(3):一般化推定方程式(GEE)と混合効果モデル(MEM)のどちらを使うべきか

マルチレベルデータの解析

データに階層性がある場合、クラスター内でアウトカムの相関構造が生じてしまうため、これを考慮した解析を行わなければならない。解析する方法としては、一般化推定方程式(Generalized Estimating Equation, GEE)と混合効果モデル(Mixed-effects model, MEM)がある(それぞれ、詳細は以下の記事参照)。

necostat.hatenablog.jp

necostat.hatenablog.jp

推定方法の概要

噛み砕きまくった理解しかできないので、それが元と同じものかすら分からないが、ユーザーとして学ぶだけなら十分ではないかと思う(言い訳)。

最尤推定法(Maximum Likelihood Estimation, MLE)

MLEは尤度関数  L(\theta|X)、つまりデータが与えられた条件下でのパラメータの確率を最大化する値を推定値として得る。実際は対数をとった対数尤度関数  \log L(\theta|X) を最大化する方が計算が楽。

MLE自体は、原理的にはどんなモデルにも適用可能だが、簡単に計算可能とは限らない。一般化線形モデル(Generalized Linear Model, GLM)はMLEで簡単に推定できるための条件を備えたモデルと言える。

一般化線形モデル(Generalized Linear Model, GLM)は、従属変数の確率分布は指数分布族に限定され、従属変数の期待値を説明変数の線型結合で回帰するモデル。仮定した確率分布から対数尤度関数を作って、係数βで偏微分して極値を求める。

最尤推定値は以下の性質も持つ。

  1. 一致性:サンプル数が大きくなると、係数βの推定値は真の値に近づく
  2. 漸近正規性:サンプル数が大きくなると、推定値と真の値の差は、ある正規分布に近づく。(なので、係数βの区間推定を正規分布で近似して求めている)

制限付き最尤推定法(Restricted Maximum Likelihood Estimation, REML)

混合効果モデルでは、分散をクラスター間(between-cluster)とクラスター内(within-cluster)の2つのレベルに分けて考える。REMLはこの分散の構成を推定するための方法。

REMLでは、まず分散のことは忘れて、固定効果(fixed effect)のパラメータを推定する。推定された固定効果の部分を除いた残差は、クラスター内誤差(within-cluster error)と変量効果(random effect)から構成される(両者とも平均=0)。REMLの2段階目で分散の部分を推定する。推定の解はNewton-Raphson法などの数値計算で求める。

MEMについて調べると、潜在変数(latent variable)を扱う話がよく出てくるのも納得。

一般化推定方程式(Generalized Estimating Equations, GEE)

GLMでは従属変数が指数分布族に従うという条件があった。ポアソン分布やベルヌーイ分布など、1次元の指数分布族では分散が平均によって一意に決まってしまい、過分散(over-dispersion)が問題になる。そこで、分散として扱うのをやめて、単なる「重み」と考えるようにしたのが、擬似尤度(quasi-likelihood)。尤度ではなく擬似尤度とすることで、指数分布族にとらわれない分布を選択することができるようになる。この方法が擬似尤度スコア推定方程式と呼ばれるもの。

さらに「従属変数が互いに独立である」という条件も緩和したのが一般化推定方程式。擬似尤度スコア推定方程式の重みに相関構造を導入してやったもの。クラスター内の相関を係数βの推定誤差の大きさとして考慮している。推定の解はここでもNewton-Raphson法などの数値計算で求める。

GEEを調べるとロバスト分散推定の話がよく出てくるのも納得。

GEE vs. MEM

興味の対象

  • MEMでは回帰係数βの他に、分散の構成(つまり、クラスター間分散・クラスター内分散がそれぞれどれくらいなのか)を検証することができる。
  • GEEは分散については分からない。

パラメータ(係数β)の解釈

  • MEMでは、平均的なクラスター(つまり、クラスター効果が0のクラスター)における効果と解釈される。これは、ある特定のクラスターが与えられた条件下での解釈なのでconditonal effectである。クラスター効果をその分布をもとに積分消去すれば周辺化された効果(population average)も求められるが、モデルの誤設定があると、周辺化の結果も大きくズレてしまう。
  • GEEではpopulation averageとしてのみ解釈される。
  • リンク関数が恒等変換あるいは対数変換ならば両者の差は小さいが、ロジット変換だと差が大きくなりやすいらしい。
  • そもそも2値アウトカムの場合は、MEMは計算が厄介。

必要な仮定

  • MEMではモデルが完全に正しく設定されていることが前提条件。従属変数の分布だけでなく、クラスター効果がどこに(切片・傾き)どのように含まれるか、も含めてモデルの誤設定(misspecification)があると正しく解釈できない。
  • GEEではモデルの中で興味の対象(例:平均)が適切に設定されていればよい。モデル全体まで考えなくていいのでmisspecificationは起こりにくい。ただし、クラスターの数は十分ないとロバスト分散推定が適切に行えない。

欠測の影響

  • MEMでは欠測が観察された変数に依存して良い。つまりmissing at random(MAR)なら良い(らしい)
  • GEEでは欠測が完全にランダム(missing completely at random, MCAR)でないとバイアスを生じる(らしい)

おわりに

  • ん〜、結局両方試してしまいそう...

参考資料

  • Hubbard, Alan E.a; Ahern, Jenniferb; Fleischer, Nancy L.b; Laan, Mark Van dera; Lippman, Sheri A.b; Jewell, Nicholasa; Bruckner, Timc; Satariano, William A.b,d To GEE or Not to GEE, Epidemiology: July 2010 - Volume 21 - Issue 4 - p 467-474 doi: 10.1097/EDE.0b013e3181caeb90