高校生のためのデータ分析入門 (1)：まずは概要を知ろう

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

データとは
データにした段階で情報は失われている
データ分析の目的を分類してみる
おわりに

データとは

日常的によく使われている「データ（data）」という用語の意味を、改めて考えようとすると結構奥が深いです。

データは「物事の性質を表すために与えられた数値や記号」です。この記号そのものにはまだ意味がありません。解析して解釈して初めて意味や価値が与えられます（詳細は下のリンクを参照）。

例えば、

クラスの全員の身長（cm）：181, 190, 210, ...
→ 数値が並んでいるだけ。ただの「データ」。
クラスの平均身長：191cm（日本人の平均よりもだいぶ高そうだ）
→ 分析することで解釈され、意味のある「情報」になった！

データにした段階で情報は失われている

これは、記録した紙を捨てちゃったとか、パソコンが壊れちゃったとか、そういう話ではありません。データ収集は、物事の性質を捉えるために色々と測定して数値・記号にするプロセスですが、データにした段階で捉えたい性質の一部は必ず失われている、という話。

例えば、果物の色という特徴をデータとして測定するとします。リンゴなら赤とか緑（ときに黄色？）でしょうかね。でも、リンゴの色を「赤」とした時点で、赤の濃さとか色のムラとかいう情報は抜け落ちます。色の表現をもっと増やせば、拾える情報は増えるかもしれませんが、もとのリンゴの色の情報を完全に再現しようとすれば、元のリンゴを完コピすることになってしまいます。特徴をデータにして解析・解釈することが目的なので、ある程度単純化しないといけない。完コピでは意味がなくなっちゃいます。

ちなみに、解釈する段階でも情報は削ぎ落とされます（簡単にしないと人間が解釈できないから）。その話はまた今度。

データ分析の目的を分類してみる

何のためにデータを分析するのかと言えば、「何かを決断するときの根拠が欲しいから」でしょう。

例えば、

このお客さんに何をすすめたら買ってくれるかな
この商品を来月はどれくらい仕入れようか
この患者さんにはどちらの治療法が効果が高いだろうか

など、色んな決断をするときに、勘や雰囲気よりももっと客観的な根拠が欲しいですよね。

難しい言い方をすれば、データ分析の目的は、根拠となりうる情報を提供して意思決定を支援することだと言えます。ただ、それだけだと広すぎてつかみどころがないので、もう少し細かく分類してみます。

1. 特徴を発見する

数字・記号の羅列を見ていても、なかなか全体の特徴は分かりません。平均とか標準偏差とかを使ってデータを要約することで、対象全体の特徴がつかみやすくなります。

数値で要約すると、ノイズを落として特徴を見えやすくできる反面、大事な特徴も落としてしまうこともあります。こんなときはグラフを使う方がいいです。

例えば、下のグラフでは2つの山がありますが、平均値（赤線）は谷にある。つまり、全体の少数派の値が全体を代表してしまっています。

2. 似たグループを探す

データが似たもの同士のグループを探すことをクラスタリング（clustering）と呼んだりします（クラスター = かたまり）。

数値で要約することが、対象全体を1つにまとめてしまうことが目的だったのに対し、クラスタリングは対象を複数のグループに分けることが目的です。さっきのグラフで言えば、山を作っていた2つのグループに分けることです。

3. 予測する

将来のことが分かったら、めちゃめちゃ役に立ちます。どれくらい商品が売れるか予測できれば無駄が出ないように仕入れ数を決めることができますし、病気になるかどうか予測できればリスクが高い人に何かできることがあるかもしれない。

予測（prediction）というと、普通は過去〜現在のデータを使って、未来を言い当てることを思い浮かべますが、現在のデータで現在のことを言い当てることも「予測」です。例えば、ある病気かどうかを調べるためにはすごく痛い検査をしないといけない場合、簡単な検査で正解を言い当てられたら便利ですよね。

臨床研究だと、前者を予後予測（prognostic prediction）、後者を診断予測（diagnostic prediction）と言ったりします。

4. 介入の効果をみる

例えば、ヘルメットを被るとどれくらい死亡事故を減らせるのかとか、YouTubeで広告を出したらどれくらい売り上げが伸びたのか、といった状況です。「ヘルメットを装着させる」や「広告を出す」のように、何かを与えたり、やらせたりすることを介入（intervention）と言います。

やった場合とやってない場合を比べることで介入の効果をみます（比較が大事）。ただし、介入以外の条件が同じであることが前提です。例えば、売り上げが右肩上がりの状態で広告の前後を比較しても、広告の効果なのか（シナリオ1）、自然に増えただけなのか（シナリオ2）分かりませんよね。

5. 測定方法を評価する

何かを測定した結果が正しくなければ、データそのものが無意味になってしまいます。次のような項目を評価します。

信頼性（reliability）：
同じ条件下で測定を繰り返したときに、一貫した結果が得られるか
識別性（discriminability）：
測定結果によって異なった状態を区別できるか。例えば、ある検査の結果をもとにして、本当に病気があるかどうかをどれくらい言い当てられるか。*1
妥当性（validity）：
測定方法が測定しようとしている特性を正確にとらえられているか。例えば、抱えるストレスを新しい心理テストで測定したとき、新しいテストのスコアが他のストレステストの結果やストレスに関連する身体症状と関連があれば、新しいテストの妥当性は高いと考えられる。

おわりに

「データ分析とは何か」と偉そうなことを書いたけど、私は研究以外で使った経験はほとんどありません。
データ分析にもとづいて仕事の課題を解決するためには、上司や同僚に分析結果を分かってもらわないといけなかったり、業務に取り入れるときのコストやリスクを考える必要があったりと、他にもハードルがたくさんあります。なので、客観的に考えるためにはデータ分析は必要だけど、それだけで全てが解決するとは思わない方がいいです。
次回：高校生のためのデータ分析入門 (2)：変数ってなに？ - ねこすたっと

ランキング参加中

統計

*1:予測能の評価にも使う