数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。
前回:高校生のためのデータ分析入門 (3):変数の分布を数値で示す - ねこすたっと
適切なグラフを選ぶポイント
変数の分布を数値で要約すると、分布の様子に関して多くの情報が失われてしまうことは、前に説明したとおりです。なので、データ分析で扱う変数は要約値だけを見るのではなく、必ずグラフを描いて確認するようにしましょう。
今は高校生でもエクセルを使う機会がありますし、おすすめのグラフを提案してくれたりします。頼るのはいいですが、どのようなデータにはどのようなグラフが適しているのか、一度は確認しておきましょう。
グラフの選び方を2つのポイントから整理します。
軸(要素)は3つまで
グラフはデータが持っている変数や要約値を、平面上に描いて見せるものです。平面は縦と横の2方向の軸があるので、グラフには少なくとも2つの要素を盛り込むことができます。
ときどき下のような、高さを軸に追加した3Dグラフを見たことがあるかもしれませんね。3Dグラフは一見カッコ良さそうに見えますが、極力避けましょう*1。影になっているところが分からなかったり、大小関係が伝わらなかったりするからです。下のグラフでM-AとM-Bとどちらが大きいか、すぐに分かりますか?
3Dグラフを避けるには、3つ目の要素*2を「点・線・面」を変えることで表現できないかを考えます。
- 点:プロットする記号の種類(⚪︎, +, ▲など)、色、大きさ
- 線:種類(実線、点線など)、色
- 面:塗り方のパターン、色
例えば、3つ目の要素(=カテゴリーに属する個数)を色で表すと、下のようになります。
「3つ目の要素は色で区別して、4つ目の要素は塗り方で区別して、...」ということは理論上は可能ですが、おそらくかなり判別しにくいグラフになるでしょう。なので、要素は3つまでに留めておくことをお勧めします。
何を軸(要素)に割り当てるか
まず1つ目の軸に、興味のある変数がとりうる値を割り当てます。下の図のように、質的変数であれば各水準を軸に沿って並べます。量的変数であれば、数直線のように目盛りを振ります。
最も簡単なグラフは、その変数が実際に取っている値をこの軸上にプロットしたものです。しかし、質的変数では点が重なってしまい、いくつあるのか分からなくなってしまうでしょう。そこで質的変数の場合は、2つ目の軸を使って個数・割合という要約値を示すことになります。
量的変数でも観察数が増えてくると判別が難しくなりますが、要約値(平均など)を示すだけであれば十分読み取ることができるでしょう。
2つ目以降の軸(要素)にも同じように、変数の取りうる値や、要約値を割り当てていきます。2つ目に別の質的変数を割り当てたときは、個数を示すために3つ目の軸が必要になります。
おわりに
- 少し抽象的な説明で難しかったかもしれません。後編では具体例を出します。
- 軸をどうやって表すか(縦軸・横軸・色など)と、軸に割り当てる項目を別々に整理することで、たくさんありそうなグラフを整理できるよ、という話でした。
- グラフを描くときは、文字の大きさ、軸の名前、凡例など細かいところにも気を配らないといけません。そこらへんは手を抜いてます。
- 次回:高校生のためのデータ分析入門 (5):グラフにするのは超大事!(後編) - ねこすたっと