ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

Hoyle拾い読み:構造方程式モデリング(SEM)とは

構造方程式モデリング(Structural Equation Modeling, SEM)の初学者が、 タイトルの "Handbook" に誘われて買ってしまったHoyle先生の分厚い本を拾い読みしたメモです。 といっても、私にとって重すぎる内容は拾い上げられていません。

まずは "Chapter 1:Introduction an Overview" から。

そもそもSEMとは何か

SEMの別名を紹介してSEMとは何か説明しています。

  • latent variable modeling:潜在変数(=直接観察できない変数)を扱う
  • covariance structure modeling:共分散を使って推定する
  • causal modeling:変数間の因果関係を推定・検証するために使う

やっぱり、主成分分析(PCA)、因子分析(FA)*1のように「潜在変数を扱う」というのが一番の特徴でしょうか。 これに分散分析・回帰分析が統合・拡張・一般化されたものがSEMのようです。

変数同士の関係性をより自由に設定できるので、因果関係に関する仮説をある程度忠実に数理モデルにすることができて有用です。 因果推論でお馴染みのDAG(Directed Acyclic Graph)も登場します(DAGについては下の記事がオススメです)。*2

www.krsk-phs.com

自分なりに拙い言葉でまとめてみます。
SEMとは、観察された変数だけでなく、その背後にあると考えられる因子を含めた関係性を仮説に基づいて設定し(モデル化)、 測定されたデータを使ってそのモデルを推定したり、モデルの妥当性を検証する方法である。

不正確を承知でさらに平たい表現をすれば、

SEM ≒ 因子分析 + 回帰分析

と理解しても大きく違いはないかもしれません。

解析の流れ

大まかな流れは回帰分析などモデルを使った解析と同じです。

1. データ収集・準備
頑張って集めます。そして解析に使えるようにクリーニングします。

2. モデル設定(specification)
「設定」という訳が適切なのか自信がありませんが、仮説に基づいてモデルのパス図(DAG)を描くステップです。
つまり、

  • どの変数を含めるか
  • どの変数間に関連を想定するか
  • その関連は一方向か双方向か
  • 各パラメータ(因子負荷量や誤差の分散など)は固定か、それともデータから推定するか

などを決める過程です。データ収集前に設定する方が望ましいとのこと。

3. 推定(estimation)
観察されたデータと推定値の差が小さくなるように係数を推定します。 回帰では観測値と予測値の差(距離)が最小になるように係数を求めていきますが、SEMでは分散・共分散の差を最小にするように推定するそうです。 推定方法の詳細は割愛します。

4. 当てはまりの評価・比較
仮説にもとづいて設定したモデルが、実際のデータにどれくらい当てはまっているかを評価して、仮説の妥当性を検証します。 複数のモデルを比較することもできますが、その場合は原則としてネストされた関係にあるモデルを比較することに限られます(ネストされていないモデルの比較は正式ではないとのこと)。

5. モデル修正(respecification)
当てはまりの評価に基づいて、モデルの修正を行うこともあります。

6. 解釈・報告
(1) モデル全体について(当てはまり具合など)と、(2) 個々のパラメータ(因子負荷量など)について報告します。

目的の分類

SEMを使う目的を分類しています。そもそも色々な分析方法を統合・一般化しているので、分類したら元の分析方法の話になりそうですが、本書の流れを整理するために書きました(今後どれくらい読めるんでしょうか...)。

1. 潜在的構造に興味がある
観察される変数の背後にある「共通性」を抽出することが目的の解析。 検証的因子分析(confirmatory factor analysis, CFA)からの流れですね。

  • Chap22:Confirmatory Factor Analysis
  • Chap23:Investigating Measurement Invariance Using CFA
  • Chap29:Measurement Models for Ordered-Categorical Indicators
  • Chap34:Latent Trait-State Models

2. 個々の要素間の直接的な関係性に興味がある
回帰分析と同じ目的です。潜在変数を含むことができたり、説明変数間の関係性を設定できることが回帰分析から拡張されている点です。

  • Chap25:Mediation/Indirect Effects in SEM
  • Chap26:SEM of Latent Interaction
  • Chap27:Autoregressive Longitudinal Models
  • Chap30:Multilevel SEM
  • Chap33:Dynamic Factor Models for Longitudinally Intensive Data
  • Chap35:Longitudinal Structural Models for Assessing Dynamics in Dyadic Interactions

3. 共分散構造だけでなく平均にも興味がある
平均値を比較するということで、ANOVAの流れでしょうか。測定された変数を比較するよりも、その背景にある潜在変数を比較する方が検出力が良い場合があるそうです。

  • Chap24:A Flexible SEM Approach for Analyzing Means
  • Chap28:Scale Construction and Development Using SEM
  • Chap31:An Overview of Growth Mixture Modeling
  • Chap32:Latent Curve Modeling of Longitudinal Growth Data
  • Chap36:SEM in Genetics
  • Chap37:SEM of Imaging Data
  • Chap38:Bayesian SEM
  • Chap39:Spatial SEM

おわりに

  • あたかも現在進行形で読みながら書いているように見せていますが、読みはじめては挫折するを10回くらい繰り返して今に至っています。
  • お客さんが帰ると警戒を解いて擦り寄ってくるのを見ると、猫も家族を認識してるんだな〜と感じます。

*1:SEMでは事前にモデルを設定するので、検証的因子分析(comfirmatory factor analysis, CFA)とする方が正確でしょうか

*2:SEMではフィードバックループがあるモデル(非逐次モデル, nonrecursive model)でも扱える