数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書いてきました。そろそろ終盤なので、登場した用語をまとめて確認しておきます。
変数
変数は、数や個数を表す量的変数(quantitative variable)と、 対象の性質を表す質的変数(qualitative variable)に分けられると説明しました。
「〇〇変数」は他にもいっぱい登場しました(一部初登場あり)。
- カテゴリー変数(categorical variable):質的変数と同じ意味(名義変数に限定して使うこともあるかも)
- 2値変数(dichotomous variable):カテゴリー数が2つだけの変数
- 連続変数(continuous variable):整数未満の数値も取る変数
- 離散変数(discrete variable):整数だけしか取らない変数。質的変数 + 個数・回数を表す量的変数。
- 順序変数(ordinal variable):質的変数のうち、カテゴリーに自然な順序がある変数
- 名義変数(nominal variable):質的変数のうち、カテゴリーに自然な順序がない変数
数値で要約
質的変数の分布は、度数(frequency)と割合(proportion)で要約します。 割合と率(rate)との違いも説明しましたね。
量的変数の分布は、
- 中心位置:平均値(mean)、中央値(median)
- 分布の広がり:標準偏差(standard deviation)、四分位範囲(interquartile range)、範囲(range)
で要約します。
グラフ化
質的変数に使うグラフとして、棒グラフ(bar chart)や円グラフ(pie chart)を紹介しました。
量的変数に使うグラフとしては、ヒストグラム(histogram)、箱ひげ図(box-whisker plot)、密度プロット(density plot)がありました。
2つの量的変数の関係を示すときは、散布図(scatter plot)を使えばいいんでしたね。
期待値・分散
期待値(expectation)とは「変数の確率重み付け平均値」、 分散(variance)とは、「各観測値と平均との差の2乗の期待値」です。分散の正の平方根が標準偏差です。
計算式がたくさん出てきて、ウンザリしたかもしれませんが、計算に便利な式変形は、知っておくとテストで役に立つかも?
確率分布
連続型確率分布
正規分布(normal distribution)は、「山ひとつ・左右対称・極端な外れ値なし」が特徴で、連続変数が従う確率分布の代表です。
検定の話で登場したカイ2乗分布(chi-square distribution)やt分布(t distribution)も連続型確率分布です。
離散型確率分布
二項分布(binomial distribution)は、「N回の試行で成功が出る回数」の分布です。 試行が1回の場合は、ベルヌーイ分布(bernoulli distribution)という名前でしたね。
ポアソン分布(Poisson distribution)は、「稀にしか起こらないことの回数」の分布で使います。
統計的推定
標本(sample)を調べて、母集団(population)の特性を統計学にもとづいて推測することを、統計的推定(statistical inference)といいます。推定には誤差(error)がつきもので、それには
- 系統誤差(systematic error)
- 偶然誤差(random error)
の2種類があるという話をしました。
推定値として、最もありそうな1点を推定することを点推定(point estimation)、ある程度の幅をもって推定することを区間推定(interval estimation)といいました。
区間推定の表し方として、95%信頼区間(95% confidence interval)がよく使われます。「何が95%なのか」は復習してください。
統計的仮説検定
標本で大小関係を調べることで、母集団の大小関係について判断を下すことを統計学的仮説検定(statistical hypothesis testing)といいます。ここでは大事な用語がたくさんでてきました。
- 帰無仮説(null hypothesis):主張したい仮説を否定したもの
- 対立仮説(alternative hypothesis):主張したい仮説
- P値(P-value):帰無仮説が正しいという仮定のもとで、標本よりも極端なデータが観察される確率
- 有意水準(significant level):得られたP値が大きいかどうか判断するために、事前に決めておいた基準
検定をするときは有意水準の他に、大小関係の方向を限定した片側検定(one-sided test)を使うのか、どちらが大きくても構わない両側検定(two-sided test)を使うのか、も事前に決めておかなければいけません。
P値の求め方を分類して説明しました。ちょっと難しめでしたね。
質的変数に使う検定
カテゴリー変数では、まずカイ2乗分布(chi-square distribution)を押さえておきましょう。 使えない状況があることも覚えておきましょう。
量的変数に使う検定
量的変数では、t検定(t test)が基本です。こちらも使用に際して注意が必要な状況があることを覚えておきましょう。
相関と回帰
相関
相関(correlation)は、2つの変数の間にある直線的関係のことで、相関係数(correlation coefficient)を用いて示しました。 相関係数がどのように計算されるか、その元になる共分散(covariance)とともに説明しましたね。
回帰
回帰(regression)とは、変数間の関係性を関数で表すことでした。相関と違って、「上流・下流」の区別があります(それぞれ下のように呼びます)。
- 「上流」の変数(原因):説明変数(explanatory variable)、独立変数(independent variable)
- 「下流」の変数(結果):応答変数(response variable)、従属変数(dependent variable)
線形回帰モデル
応答変数が連続変数の場合には、線形回帰モデル(linear regression model)が使われます。説明変数の関数として応答変数の条件付き期待値が与えられ、そこに誤差が加わって実際の観測値が得られると考えます。
応答変数は連続変数1つだけですが、説明変数はカテゴリー変数でもOKで、複数あっても構いません。直線だけじゃなくて曲線も当てはめることもできることを紹介しましたね。
一般化線形モデル
離散型の応答変数も扱えるように線形回帰モデルを拡張したのが一般化線形モデル(generalized linear model)でしたね。 アウトカムが2値変数の場合に用いられるロジスティック回帰モデル(logistic regression model)と、アウトカムが少ない回数の場合に用いられるポアソン回帰モデル(poisson regression model)を紹介しました。
データ分析全般
ひとくちにデータ分析と言っても、その目的は様々です。データに溺れて進む方向が分からなくなってしまわないようにしたいです(言うは易し、ですが)。
データ分析はデータだけを見ているわけではありません。必ずと言っていいほど、何らかの「仮定・仮説」(=モデル)を通してデータを見ています。 そして、この仮定が適切かどうかをデータのみで判断することはできません。そこで生きてくるのが、その領域の専門家の知識と経験だと思います。