ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

高校生のためのデータ分析入門 (11):比較の質を落とすもの

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回:高校生のためのデータ分析入門 (10):サンプル同士を比較する - ねこすたっと

現実世界は複雑だ!

ケーブルテレビを見てると「サプリメントで体重が減った!」というCMがしょっちゅう流れてきますね。 サプリメントと減量の関連をみるためには、サプリメントを飲んだ人と飲まなかった人を比べることが必要だ、という話を前回しました。

necostat.hatenablog.jp

仮に、サプリメントを飲んだ人の方が体重が減ったとしましょう。あなたはすんなり効果を信じて、サプリを購入しますか? おそらく、次のようなことを疑って、効果を懐疑的にとらえるんじゃないでしょうか。

  • サプリを飲んだ人は、他に食事や運動にも気をつけたのでは?
  • サプリ飲んだ人は体重が減った人だけがモニターになってるんじゃないの?
  • サプリを飲む人は空腹時、飲まない人は食後に測ってるんじゃないの?

このような状況だったら、サンプルを比べても意味がないですよね。これらの状況は比較の質を落としている、と言えます。

データ分析における比較の質を、内的妥当性(internal validity)と言います。これに対し、分析結果を他の状況に適用できるかどうか、を外的妥当性(external validity)と言います。

比較の質を落とすもの

比較の質を落とす要因を整理していきましょう。

原因と結果の両方に影響している要因がある

例えば、健康意識の高い人がサプリを飲みたがって応募してきたとしましょう。健康意識が高い人は、食事や運動に気を使うので、体重をコントロールしやすいはずです。

もし、サプリを飲んだ人と飲んでない人で、食事や運動習慣が異なっていれば、結果で見られた差がサプリによるものとは限りませんよね。

図にすると次のようになります。「健康意識」がサプリ(原因)と体重(結果)の両方に影響を与えている様子が分かると思います。

このように、原因と結果の両方に影響を与える要因があると、原因と結果の関係性を適切につかめません。この状況を交絡(confounding)がある、と言います。

測定されている交絡は、データ分析で影響を調整した結果を推定することができます。しかし、測定されていない交絡(未測定交絡)は、データ収集後はどうしようもありません*1

サンプルの選ばれ方が違う

例えば、サプリを配られた人の中で、体重が減ったと回答した人にだけモニター募集の案内が配られていたらどうでしょうか。サプリを飲んでない人は体重の変化に関わらずサンプルとして選ばれるのであれば、サプリを飲んだ集団の方が体重が減っていて当然ですよね。

「サンプルに選ばれる」という変数が、サプリ(原因)と体重(結果)の両方から影響を受けていることになります。図に描くと下のようになります。

このように、原因と結果の両方から影響を受けている要因でサンプルを限定してしまうと、原因と結果の関係性を適切に評価できません。これを選択バイアス(selection bias)と言います*2。サンプルを選ぶときに起こりやすい「ゆがみ・偏り」ということで、このように呼ばれます。

測定の仕方が違う

測定には誤差がつきものですが、その誤差がサプリを飲んだかどうかで変わる場合を考えましょう。このように一定の傾向を持った誤差を、系統誤差と言うんでしたね。

例えば、サプリを飲んだ人には「体重は絶対朝イチの空腹時に測ってください」という注意書きが配られていたとします。おそらく一日で1番軽いときでしょうから、サプリを飲んでいる人たちの方が少し軽めの値を記録されるはずです。

別のケースとして、サプリを飲んでいたかどうかを思い出してもらって記録することを考えます。体重が思うように減った人は、サプリのことをよく覚えているかもしれませんよね。そうすると、体重の減り方が思い出し方に影響することになります。これは、「サプリを飲んだ」という変数を測定する際に、系統誤差が生じていると言えます。

このように、原因や結果の測定誤差が、それぞれ結果や原因に影響を受けていると、原因と結果の関係性を適切に評価できません。これを、情報バイアス(information bias)あるいは測定バイアス(measurement bias)と言います。

系統誤差があっても、グループ間で差がなければバイアスは生じません。体重計がいつも-1kgの値を表示していても、比較には影響ないですよね。

選択バイアスと同じく情報バイアスも、データが収集されてしまった後で対応することは難しいので、計画段階で注意する必要があります。

おわりに

  • 比較の質を落とす要因には、交絡、選択バイアス、情報バイアスがある。
  • バイアスは発生しやすい状況にちなんで名前がついているものもあるが、選択バイアス・情報バイアスのどちらなのかを整理して理解しよう。
    • 病気になった人の方が過去の原因を頑張って思い出そうとする(思い出しバイアス→情報バイアスの一種)
    • 健康に自信がある人が研究に積極的に応募する(ボランティアバイアス→選択バイアスの一種)
  • バイアスの中には、比較の質(内的妥当性)を落とすだけでなく、他の集団に分析結果を当てはめること(外的妥当性)を妨げるものもある
  • 次回:高校生のためのデータ分析入門 (12):期待値を計算しよう - ねこすたっと

*1:データ分析による対処方法がないわけではないですが難しいです

*2:領域によっては、選択バイアス(=研究参加に関する歪み)が交絡(=治療の選択に関する歪み)の意味を含んでいるかもしれません。特に計量経済学を習うときは用語の使われ方を確認しましょう。