数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。
前回:高校生のためのデータ分析入門 (1):まずは概要を知ろう - ねこすたっと
変数とは
数学では方程式を習うときに、変数と定数という用語が出てきたと思います。
- 定数:問題の中で、ある値を取ることが決まっている数
- 変数:問題の中で、制約がありながらも自由に値をとることができる数
例えば、「 が(1,2)を通っている」と言われたら、aは文字で書いてあっても本当はある値(a=2)に固定されていますよね。それに対し、x, yは制約はあるものの自由に色んな値を取ることができます。この文脈でaは定数、xとyは変数です。
データ分析(というか統計学)における変数は違う観点で説明されるので、少し戸惑うかもしれません。 データ分析では、変数(variable)は収集された各項目を指します。
例えば、クラスの人の身長を測定してデータにした場合、対象者によってその値は変わりますよね。だから身長は変数です。
変数はそれぞれの対象者についての値(value)を収めている箱だと思ってください。
変数のタイプ
変数にはいくつかタイプがあって、それに応じて扱い方、つまり要約方法や使用するグラフが変わります。
量的変数
量的変数(quantitative variable)とは、量や個数を値に取る変数です。
例:身長、時間の長さ、入場者数
数字で表されるので、合計したり平均を計算したりすることができます。
質的変数
質的変数(qualitative variable)とは、性質を表す値を取る変数です。カテゴリー変数(categorical variable)と呼ぶこともあります。
例:血液型、虹彩の色、人種
質的変数が取る値は、だいたいは文字を使って表されます(例:A型、B型など)が、数字を使っていても質的変数のことがあるので注意です。例えば、1組の子が2人、2組の子が2人いるからといって、「その4人の平均は1.5組である」とは言いませんね。
「あり・なし」や「勝ち・負け」のように、カテゴリーの数が2種類しかないものを2値変数(dichotomous variable)と呼びます。質的変数の中でも使う頻度が多いので特別に名前がついてます。
もっと詳しい分類方法が知りたかったら、下の記事を読んでみてください。
変数の分布を示す
対象集団において、変数がどんな値を取っているか、どんなふうにバラついているか、を変数の分布(distribution)と言います。 変数がどのように分布しているかを見ることは、データ分析の基本のキです。
「このクラスの数学の点数は、90点が1人、88点が3人、85点が…」と説明されても、全体の様子が分かりませんよね。全員分の点数を聞かなくても、平均点や再試験の割合を聞けばだいたいの様子はつかめます。
分布を数値で要約する以外にも、グラフを使って分布を可視化することで全体の様子がよく分かります(下のグラフで赤線は平均点)。
おわりに
- 変数は大きく、量的変数と質的変数に分けられる
- 数値で要約したり、グラフを描いたりすることで、変数の分布を示すことができる
- 実際は、変数ができる前、つまり「何をどんな方法で測定して変数にするのか」という方が難しいです
- 次回:高校生のためのデータ分析入門 (3):変数の分布を数値で示す - ねこすたっと