ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

Rothman拾い読み:交絡と交絡因子

Rothman先生のModern Epidemiology, 4th edition(以下ME)をパラパラめくって拾い読みしたメモです。 今回は "Chapter 5:Measures of Effect and Measures of Association" と "Chap 12:Confounding and Confounders" から、交絡について。

交絡(confounding)とは

関連の指標が因果効果の指標と一致しないときに「交絡がある(confounded/confounding)」と表現することについては前にまとめた。

necostat.hatenablog.jp

交絡を生み出す因子を交絡因子(confounder)と呼ぶことがある。

交絡因子の古典的3要件として

  • 要因と関連がある
  • アウトカムに効果を与える(予後因子)
  • 要因からアウトカムへの因果の経路上にない(中間因子でない)

はよく知られているし、これに沿って研究に登場する因子を整理して調整すれば、ほとんどの場合はOKだと思う。

ただ、調整することで却ってバイアスが発生してしまうことがある。このことの説明・理解にはDAG(directed acyclic graph)の話が不可欠だと思うので、また別の機会に。

ちなみにMEでは、DAGにもとづいて

We will then, in this book, refer to a confounder as a member of a minimally sufficient adjustment set.

つまり、「調整に必要十分な最小の因子の組み合わせ」を交絡因子と定義している。「交絡因子を調整する」というより「調整に必要な最小集合を交絡因子と呼ぶ」みたいな感じか。

後述のように、学術分野によってもどこまでを交絡と呼ぶかが微妙に違ったりするみたいなので、「関連 = 因果効果と言えない状況」を「交絡がある」と(曖昧に)呼んでおくことにする。

次に、前述の古典的定義の交絡により生じるバイアスと、それに類縁するバイアスを見ていく。

交絡バイアス(confounding bias)

古典的な定義にもとづく交絡により生じるバイアス。下のイラストでは、コーヒー摂取と肺ガン発症の因果関係をみる際に、喫煙が交絡バイアスをもたらす可能性を示している。

喫煙は肺ガンをもたらす効果があるし、喫煙は未測定因子  u を介してコーヒーと関連を持っている( uは喫煙者はコーヒーも好きという嗜好の傾向)。

これはDAG風に言えば、因果関係のバックドア(裏口)が空きっぱなしの状態。なので、喫煙について調整することで裏道をブロックすれば、コーヒーと肺ガンの関連を正しく推定できる。このとき、喫煙は興味ある2つの因子(コーヒー、肺ガン)に対する共通の原因(common cause)になっている。

選択バイアス(selection bias)

下のイラストは

  • 高血糖患者はICUに入りやすい
  • 担癌患者はICUに入りやすい

ということを表現したつもりです。

このとき、研究対象をICU入室者に絞ると、高血糖と担癌の関連が一般人口よりも強くなる可能性がある。

DAG風にいうと、変に調整したせいで因果関係ではないパスが空いちゃった状態。 2つの因子(高血糖、担癌)の共通の効果(common effect)である「ICU入室」で調整してしまうと、却って上流の2つの因子に関連が生じてまった状態であり、選択バイアス(selection bias)と呼ばれる。

「共通効果を調整することで、却って関連の通り道が開いてしまう」ということが変に思える人(私も最初はそうでした)は、次の例を考えてみてください。上流の2つの因子を「数学および国語の点数」、その下流にある因子を「合計点数」と考えると、合計点数があんまりよくなかったと判明した状態で「国語はよくできた」と言われたら、数学は悪かったんだろうと予想がつきますよね。

ちなみに、選択バイアスという言葉は分野によって使われ方が異なることがあるらしい。

  • 疫学系の選択バイアス:研究に組み込むかどうかにより生じるバイアス
  • 社会学系・経済学系の選択バイアス:暴露群・治療群に組み入れるかどうかにより生じるバイアス

後者は疫学では適応交絡(confounding by indication)と呼ばれる。

過剰調整(overadjustment)

因果パス上の因子を調整することにより生じるバイアス。そもそも交絡因子の古典的3要件その3に違反しているので、調整することはないと思う。

下のイラストで、ラーメン大量摂取が心筋梗塞をもたらす効果があることを見たいとき、血圧(= 中間因子)で調整してしまうと、因果の流れの一部がブロックされてしまう。

交絡因子の選び方

因子間の関係性について正解は誰にも分からないので、絶対的な正解はないと思う(MEでもどの方法を優先すべきなどは述べていない)。しかし、可能な限り先行研究や専門家としての知見にもとづいて、「因果関係がもたらされるメカニズム」を想定して選ぶ方がよいと思う。

以下、選び方について説明していますが、内容はかなり薄いので興味があればMEを読んでください。

治療前/要因前(pre-treatment / pre-exposure criterion)アプローチ:
治療や要因の決定よりも先に決まっている変数を調整する方法。調整によりかえってバイアスを生じる状況がありうる。

共通原因(common cause)アプローチ:
要因とアウトカムの両方の原因なっている変数を調整する方法。事象の因果のメカニズムに関する知見が必要。共通の原因でなくても調整すべき状況もある。

この2つについて、MEでは次のように述べている。

So whereas the “pre-exposure” criterion was too sensitive and could result in control for covariates that create bias, the “common cause” criterion is too specific and may result in not controlling for covariates that in fact would suffice to eliminate bias.

治療前/要因前アプローチは敏感すぎるが、共通原因アプローチは鈍感すぎる、とのこと。

分離原因(disjunctive cause criterion)アプローチ:
要因よりも前にあるもので、要因・アウトカムの少なくとも一方の原因になっている因子を調整する方法。前2者の中間的存在。未測定バイアスの存在下で、調整で却ってバイアスが増強する状況や、原因ではなくても調整した方がバイアスを減らせる状況(proxy confounder)などがある。

統計的(statistical)アプローチ:
共変量の候補に対して、データが相対的に少ないとき用いられることがある。

  • backward/forwardアプローチ:ステップワイズ法としてよく知られる方法
  • change-in-estimateアプローチ:含めるときと含めないときで係数が例えば10%以上変化する変数を含める
  • high-dimentional propensity scoreアプローチ
  • machine learningアプローチ

おわりに

  • 交絡、選択バイアス、測定についてはDAGと向き合ってまとめてみるつもりです。
  • 調整すべき因子の選択方法の話もそのときに。

参考資料