ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

高校生のためのデータ分析入門 (15):変数の関係性を関数で表そう

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回:高校生のためのデータ分析入門 (14):2つの変数の間には相関がある? - ねこすたっと

回帰ってなに?

回帰(regression)という用語は、元々は「平均への回帰」(優秀な親から生まれた子は、親よりも平均に近くなる)という遺伝学の現象に由来します*1。その現象を解析する段階で、親の能力と子の能力の関係を関数として捉えたところが、現在の統計学の「回帰」の元になったということでしょう(多分)。

ただ、現在の統計学の「回帰」において、「回って帰る」という意味はありません(少なくとも私は感じません)。回帰とは、変数の関係性を数式で表すこと・関数を当てはめることである、と理解してください。

例えば、40日間の夏休みに、最高気温と学校のアイス自販機の売り上げ個数を記録して、下のような散布図が描けたとしましょう。「暑い日ほどアイスがたくさん売れる」という関係性が見てとれますね。

グラフに赤点線で加えた、気温とアイス売り上げの関係性を代表する線を、回帰直線(regression line)と呼ばれます*2。 下のように数式で書くこともあります。

例:(アイスの売り上げ) = 10 + 5 × (最高気温)

回帰直線を使えば、「明日は最高気温が38℃になりそうだから、アイスは200個くらい仕入れておかないと」のように、予測の参考にすることができそうですね。

相関と回帰の違い

前回、2変数の関係を見る方法として「相関」を説明しました。回帰とはどう違うんでしょうか。 端的に言えば、「相関は2変数が対等、回帰は上流・下流の区別あり」です。

相関係数の計算方法を思い出してください(忘れた場合はこちら)。XとYを入れ替えても、元の式と同じものになりますね。相関関係においては、2つの変数は交換しても同じ結果になります

これに対して、回帰の場合は「X→Y」と表せるような上下関係(どっちが偉いという意味ではない)があります。さっきの例で言えば、「気温 → アイスの売り上げ」は自然ですが、「アイスの売り上げ → 気温」は違和感がありますよね。だって、アイスをいくら売ったって、気温が上がる訳ではないですから*3

「Xが原因でYが結果」と考えられる状況もありますが、必ずしも因果関係を考えているばかりではないですし、仮に2つの変数に関連があったとしても、それをもって因果関係があるとは言い切れないので、ここでは「上流・下流」という表現にしました。統計学の用語を使うと、Xは独立変数(independent variable)とか、説明変数(explanatory variable)と呼ばれます。これに対し、Yは従属変数(dependent variable)とか、応答変数(response variable)などと呼ばれます。

どうやって回帰直線を引いたらいいの?

何となく真ん中を通る感じで線を引いたのでは、同じデータでも人によって引き方が異なりますし、同じ人でも気分によって違う線になるでしょう。「データを代表している線」を、客観的にどのように定義したらいいでしょうか?

データ分析において、全ての観測点がぴったり直線上に並ぶことは、まずありえません。必ずと言っていいほど、直線とズレがあります。このズレの総和が1番小さくなるような直線を選べば、みんな納得してくれそうです*4

おわりに

  • 回帰分析で当てはめる関数(およびそれにまつわる色々な前提条件)のことを回帰モデル、あるいは単にモデル(model)と言います。次回は最も簡単なモデルである線形回帰モデルについて説明します。
  • 回帰分析(回帰モデルを使った解析)はいろんな派生形があり、データ分析の土台と言えます。リバウンドを制するものはゲームを制すように、回帰を制するものはデータ分析を制す!
  • 次回:高校生のためのデータ分析入門 (16):回帰モデルを当てはめてみよう - ねこすたっと

*1:regress = 退行する

*2:ちなみに、北回帰線はthe tropic of Cancer、南回帰線はthe tropic of Capricornと言います。星占いで、夏至(6/22)から蟹座(Cancer)が始まり、冬至(12/22)から山羊座(Capricorn)が始まることに由来します。"The north/south regression line"ではないんですね〜。

*3:アイスの売り上げはすぐに分かるけど、最高気温は分からない状況で、アイスの売り上げをもとにして気温がどれくらいなのか知りたい、という状況なら「アイスの売り上げ → 気温」と書けますが、そんな変な状況はないですよね。

*4:もちろん他の決め方もあります