Hoyle拾い読み：構造方程式モデリング（SEM）とは

構造方程式モデリング（Structural Equation Modeling, SEM）の初学者が、タイトルの "Handbook" に誘われて買ってしまったHoyle先生の分厚い本を拾い読みしたメモです。といっても、私にとって重すぎる内容は拾い上げられていません。

まずは "Chapter 1：Introduction an Overview" から。

そもそもSEMとは何か
解析の流れ
目的の分類
おわりに

そもそもSEMとは何か

SEMの別名を紹介してSEMとは何か説明しています。

latent variable modeling：潜在変数（=直接観察できない変数）を扱う
covariance structure modeling：共分散を使って推定する
causal modeling：変数間の因果関係を推定・検証するために使う

やっぱり、主成分分析（PCA）、因子分析（FA）*1のように「潜在変数を扱う」というのが一番の特徴でしょうか。これに分散分析・回帰分析が統合・拡張・一般化されたものがSEMのようです。

変数同士の関係性をより自由に設定できるので、因果関係に関する仮説をある程度忠実に数理モデルにすることができて有用です。因果推論でお馴染みのDAG（Directed Acyclic Graph）も登場します（DAGについては下の記事がオススメです）。*2

www.krsk-phs.com

自分なりに拙い言葉でまとめてみます。
SEMとは、観察された変数だけでなく、その背後にあると考えられる因子を含めた関係性を仮説に基づいて設定し（モデル化）、測定されたデータを使ってそのモデルを推定したり、モデルの妥当性を検証する方法である。

不正確を承知でさらに平たい表現をすれば、

SEM ≒ 因子分析 + 回帰分析

と理解しても大きく違いはないかもしれません。

解析の流れ

大まかな流れは回帰分析などモデルを使った解析と同じです。

1. データ収集・準備
頑張って集めます。そして解析に使えるようにクリーニングします。

2. モデル設定（specification）
「設定」という訳が適切なのか自信がありませんが、仮説に基づいてモデルのパス図（DAG）を描くステップです。
つまり、

どの変数を含めるか
どの変数間に関連を想定するか
その関連は一方向か双方向か
各パラメータ（因子負荷量や誤差の分散など）は固定か、それともデータから推定するか

などを決める過程です。データ収集前に設定する方が望ましいとのこと。

3. 推定（estimation）
観察されたデータと推定値の差が小さくなるように係数を推定します。回帰では観測値と予測値の差（距離）が最小になるように係数を求めていきますが、SEMでは分散・共分散の差を最小にするように推定するそうです。推定方法の詳細は割愛します。

4. 当てはまりの評価・比較
仮説にもとづいて設定したモデルが、実際のデータにどれくらい当てはまっているかを評価して、仮説の妥当性を検証します。複数のモデルを比較することもできますが、その場合は原則としてネストされた関係にあるモデルを比較することに限られます（ネストされていないモデルの比較は正式ではないとのこと）。

5. モデル修正（respecification）
当てはまりの評価に基づいて、モデルの修正を行うこともあります。

6. 解釈・報告
(1) モデル全体について（当てはまり具合など）と、(2) 個々のパラメータ（因子負荷量など）について報告します。

目的の分類

SEMを使う目的を分類しています。そもそも色々な分析方法を統合・一般化しているので、分類したら元の分析方法の話になりそうですが、本書の流れを整理するために書きました（今後どれくらい読めるんでしょうか...）。

1. 潜在的構造に興味がある
観察される変数の背後にある「共通性」を抽出することが目的の解析。検証的因子分析（confirmatory factor analysis, CFA）からの流れですね。

Chap22：Confirmatory Factor Analysis
Chap23：Investigating Measurement Invariance Using CFA
Chap29：Measurement Models for Ordered-Categorical Indicators
Chap34：Latent Trait-State Models

2. 個々の要素間の直接的な関係性に興味がある
回帰分析と同じ目的です。潜在変数を含むことができたり、説明変数間の関係性を設定できることが回帰分析から拡張されている点です。

Chap25：Mediation/Indirect Effects in SEM
Chap26：SEM of Latent Interaction
Chap27：Autoregressive Longitudinal Models
Chap30：Multilevel SEM
Chap33：Dynamic Factor Models for Longitudinally Intensive Data
Chap35：Longitudinal Structural Models for Assessing Dynamics in Dyadic Interactions

3. 共分散構造だけでなく平均にも興味がある
平均値を比較するということで、ANOVAの流れでしょうか。測定された変数を比較するよりも、その背景にある潜在変数を比較する方が検出力が良い場合があるそうです。