ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

Hoyle拾い読み:SEMのパス図と構成要素

構造方程式モデリング(Structural Equation Modeling, SEM)の初学者が、 タイトルの "Handbook" に誘われて買ってしまったHoyle先生の分厚い本を拾い読みしたメモです。 といっても、私にとって重すぎる内容は拾い上げられていません。

今回は "Chapter 3:Graphical Representation of SEM using Path Diagram" と "Chapter 4:Latent Variables in SEM" から。

SEMを表す方法として、

  1. パス図を使って表す方法
  2. 個々の関係性を方程式を使って表す方法
  3. 方程式を行列を使ってまとめて表す方法

が紹介されていますが、直感的に1番理解しやすい「パス図を使った表記方法」をまとめてみます。

下の例のように、パス図は丸や四角で囲った変数(定数もあるのでまとめてノードと呼びます)と、それらを結ぶ矢印で描かれています。

例1

例2

ノードの種類

パス図に含まれるノードには以下の3種類あります。

  1. 観測変数(observed variable)
  2. 潜在変数(latent variable)
  3. 切片/定数項(intercept/constant term)

観測変数はデータとして直接測定される変数です。後述の因子(factor)と繋がっているものは、"Indicator" とも呼ばれます。パス図の中では四角囲みで表します。

潜在変数は概念的で、データとして測定されない変数です。潜在変数には、研究において興味がある理論的な要素である共通因子(common factor)あるいは単に因子(factor)と、測定や関係性の揺らぎに相当する誤差項(error term)があります。潜在変数はパス図の中では丸囲みで表します。

切片/定数項は、変数ではなく固定された数字で、大抵の場合は1に固定されています。パス図の中では三角囲みで表します(冒頭のパス図例2参照)。

矢印の種類

Nodeをつなぐ矢印には、

  • 単方向矢印(→)
  • 双方向矢印(↔︎)

があります。

単方向矢印(→)は、原因X→結果Yのように、XからYへの直接効果(direct effect)を表します。
ここで、変数Xは独立変数(independent variable)や予測変数(predictor)などと、 変数Yは従属変数(dependent variable), アウトカム(outcome), 効果(effect)*1などと呼ばれます。

双方向矢印(↔︎)は、方向性のない2変数の関連(nondirectional association)を表すほか、外生変数(後述)の分散を表すときにも用いられます。

矢印の隣には次のようなパラメータが書き添えられることがあります。

  • 因子負荷量
  • 重み付け係数(回帰係数)
  • 分散・共分散

データをもとに推定したいパラメータ(free parameter)はギリシャ文字や "*" などが添えられます。ある値に固定されているパラメータ(fixed parameter)の場合はその数値を書きます(ほとんどの場合1)。 それぞれの対象者の変数の値によって係数(因子負荷量など)が変わる場合は、その変数(definition variableと呼びます)を菱形で書き添えることもあります(冒頭のパス図例2参照)。

外生変数と内生変数

モデルの中で「親」となる原因を有するかどうかによる分類です。

モデルの中で原因となる変数がないものを外生変数(exogeneous variable)と呼びます。 外生変数の平均・分散・共分散は、外から値が与えられることになります。

外生変数ではないものは全て内生変数(endogeneous variable)です。 内生変数の平均・分散・共分散は、外生変数の関数として与えられます。

モデルの分類

モデルの分類といっても自由度が高いので、ここでは全体を分類するのではなく、モデルの中に見られる「パターン」を見ていきます。 矢印が刺さる変数を左側にして数式を書くと、右辺はいずれの場合も線型結合(つまり、βXの和)になっているもののみ扱います(非線形の扱いはまだコンセンサスなし)。

観測モデル

観測モデル(measurement model)とは、潜在変数とそれに繋がる観測変数の関係性を示したモデルです。 因子とindicatorの関係性によって、さらに次の2つに分類されます。

形成的モデル(formative model):
観測変数Xによって因子Fが形成されるモデル、つまりパス図で "X→F" と示される部分です。

  • 観測変数(formative indicator, cause indicator)の係数は回帰の重み付け係数(regression weight)
  • 因子の測定誤差(= 撹乱項, disturbance)を設定しない場合は、因子ではなく単なる重み付け合計スコアになる
  • 観測変数同士には相関があってもなくてもよい

反映的モデル(reflective model):
観測変数Xを特徴づける因子Fが上流にあるモデル、つまりパス図で "F→X" と示される部分です。 子にあたる観測変数の共通性(commonality)が因子Fに反映されることになるのでこのような名前になっています。

  • 観測変数(reflective indicator, effect indicator)の係数は因子負荷量(factor loading)
  • 「観測変数の測定誤差(= 測定誤差, measurement error)と因子の間には相関関係がない」と設定される(多分モデル識別に必要)
  • 観測変数同士は因子を介して相関関係を持つ。因子の影響が強いほど、観測変数間の関連は強くなる

構造モデル

これに対し、構造モデル(structural model)は潜在変数同士の関係性を示したモデルです。因子のindicatorになっていない観測変数同士の関係性も構造モデルに分類されます。*2

構造モデルの頻出パターンはまた別の機会にまとめます。

  • 閾値モデル(threshold model)
  • 潜在成長モデル(latent growth model)
  • 成長混合モデル(growth mixture model)
  • 2次因子モデル(second-order model), 高次因子モデル(high-order model)
  • 双因子モデル(bifactor model)

おわりに

  • テキストを読むにはまず用語から。
  • iRobot(ルンバ j7+)が来て1週間、ネコたちも少し慣れてきました。

*1:因果推論のハナシで出てくる効果と定義が異なるので避けた方がよさそうです

*2:この場合は単なる回帰モデルですが、要は潜在変数の観測がなければ構造モデルに分類されるんだと思います