ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

Hoyle拾い読み:SEMにおけるモデル設定と識別条件

構造方程式モデリング(Structural Equation Modeling, SEM)の初学者が、 タイトルの "Handbook" に誘われて買ってしまったHoyle先生の分厚い本を拾い読みしたメモです。 といっても、私にとって重すぎる内容は拾い上げられていません。

今回は "Chapter 8:Model Specification in SEM" と "Chapter 9:Identification: A Nontechnical Discussion of a Technical Issue" から。

モデル設定(specification)のアプローチ

モデルを設定する際のアプローチとして次の4つが紹介されています。

strictly confirmatory approach:
研究者がその分野の背景から想定した1つのモデルについてのみ、データとの適合性を評価するアプローチ。あまり使われない。

alternative models approach:
手元のデータを見ずに設定した代替モデルと元のモデルと比較するアプローチ。

model-generating approach:
設定したモデルを解析し修正していくアプローチ。別のデータで当てはまりを検証することを念頭においている。

model discovery approach:
変数から想定される全てのモデルを自動的に評価して、相応しいモデルを探索するアプローチ。

2番目と3番目が多そうです。

モデル識別(identification)の条件

パラメータの値が1つに定まるとき、モデルは識別可能であると言います。 先に言ってしまうと、モデルが式べえつ可能な条件を数式で理解するのは(私には)非常に難しそうです。 実際にPCで計算してみて、識別できるかどうかで判断することになりそう...。

自由度

モデルが識別されるためには、「データから与えられる既知の情報」が「推定すべき未知の情報」よりも多いことが必要条件であることは直感的に理解できます(「既知の情報>未知の情報」だからといって必ずしも同定可能とは限らない)。 既知の情報個数と未知の情報個数の差を、自由度(degree of freedom, df)と呼びます。

k個の観測変数がある場合の既知情報は以下のとおりです。

  • k個の分散(variance)
  • k(k-1)/2個(←2組の異なる変数の組み合わせの数)の共分散(covariance)
  • 必要ならk個の平均(mean)

これに対し、未知の情報はモデルの中で推定が必要なパラメータ(分散・共分散、係数、因子負荷量)の個数です。

過小識別・適度識別・過剰識別

既知の情報が未知の情報よりも少ない状態(df<0)を過小識別(underidentified)と言います。既知の情報が不足しているので、モデルを識別することができません。 一見、既知の情報が足りてそうでも、非常に類似した変数が含まれていて実際には解が得られないことを、経験的過小識別*1(empirically underidentification)と言います。回帰モデルでいうところの多重共線性と似たような話だと思います。

既知の情報と未知の情報が等しい状態(df=0)を適度識別(just-identified)と言います。 全てのパラメータに対して、ちょうど1つの推定値が得られます。1つしか得られないということはバラツキがないということなので、推定誤差は分かりませんし、モデルの当てはまり具合を評価することはできません。

既知の情報が未知の情報よりも多い状態(df>0)を過剰識別(overidentified)と言います。 全ての条件をちょうど満たすことができる解が存在せず(解なし)、そのため得られた解は多少なり誤りを含んでいることになります。 この誤差を評価することでモデルへの当てはまり指標が得られます。

識別不能への対処方法

モデルが識別できないときは、(1)モデルが複雑すぎる、(2)少なくとも1つのパラメータが固定されていない、が原因として考えられます。 モデルの構造については、特に形成的因子(formative factor)で識別不能が問題になりやすいとのこと。1つの因子に対して3-4個のindicatorが望ましいと書かれています。

本の中ではモデルのパターンごとに識別に必要な条件が書かれています。 例えば、 フィードバックループのないパス解析モデルでは、「各々の内生変数のdisturbanceが、その内生変数の原因となっている変数と関連がないこと」が必要です(regression rule)。通常の回帰モデルで言えば、「従属変数の誤差項が説明変数と独立である」ということにあたります。

検証的因子分析(CFA)については、まずlatent variableの測定単位を固定する必要があります。このためには、

  • 1つの因子負荷量を1に固定する
  • 外生的潜在変数の分散を1に固定する

などが必要になります。CFAについてはこのほかにも、

  • 同一の因子に属する観測変数同士の制約
  • 異なった因子に属する観測変数同士の制約
  • 同一の因子の観測変数間と他の因子の観測変数との間に関する制約

について説明されています(vanishing tetrads)。

フィードバックループのあるパス解析モデル、欠落変数があるパス解析モデル*2に関して操作変数の話も書かれていますが、詳細はまた別の機会に勉強します。

おわりに

  • 非常に表面的になぞっただけで終わってしまいました。

参考資料

  • 欠落変数バイアスについて参考にしました。

yukiyanai.github.io

  • SEMにおける自由度の計算方法についての解説動画。

How to Calculate Degrees of Freedom in a SEM Model - YouTube

*1:訳語があっているか分かりません

*2:疫学でいうところの未測定交絡。計量経済学の領域と疫学の領域ではここらへんの言葉の使い方が微妙に違うので注意が必要そう