ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

高校生のためのデータ分析入門 (7):サンプルから推定する(前編)

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回:高校生のためのデータ分析入門 (6):データ分析の大黒柱、正規分布 - ねこすたっと

全部調べるのは無理!

例えば、新商品の感想を知りたいと思っても、買った人全員にアンケートを取ることは難しいです。あるいは、出荷する製品の耐久性に問題がないか知りたくても、全ての製品について何日でダメになるかを調べたら、売り物がなくなってしまいます。

そこで、知りたい集団を代表するようなサンプルを選んで、そのサンプルにおける結果をもとに元の集団の結果を推測することになります。

興味がある元々の集団を母集団(population)、そこから取ってきたサンプルを標本(sample)と言います。抽出した標本について調べていても、その標本に興味があるわけではありません。興味の対象は必ず母集団です。

母集団の一部を調査して母集団の状態を推定することを標本調査といいます。反対に、国勢調査*1のように母集団全部を調べる調査を全数調査と言います。

推定に誤差はつきもの

標本調査の結果をもとにして、主観的な印象ではなく統計学にもとづいて母集団の特性を推定することを統計的推定(statistical estimation)と言います。そして、推定には誤差(推定誤差, estimation error)がつきものです。

例えば、日本全国でどれくらい猫好きがいるのか調べるために、100人にアンケートを取ったとしましょう。仮に80人(80%)が猫好きと答えたからといって、母集団における猫好きの割合がちょうど80%とは限りませんよね(そんなに低いはずがありません)。 母集団の真の値と、標本で得られた値には必ずズレ(=誤差)が生じます。

ライフルで的を撃った結果を例に、誤差のパターンを分類して考えてみましょう。

左上は弾が的の真ん中に集中していて理想的ですが、右上は弾が広い範囲に散らばっています 左下は弾は狭い範囲に集まっていますが、そもそも狙う場所がズレています。 この例から、誤差には次の2種類あることがわかると思います。

  • 偶然誤差(random error):方向が一定していない、ただの偶然によるズレ。偶然誤差が小さいことを「精度(precision)が高い」と言います。
  • 系統誤差(systematic error):一定の方向に偏ったズレ。系統誤差が小さいことを「正確度(accuracy)が高い」と言います。

系統誤差と偶然誤差、どちらも小さいに越したことはないですが、系統誤差の方が厄介です。 偶然誤差は測定の回数を増やすことで誤差を減らすことができますが、系統誤差は測定やデータ収集の方法に問題が潜んでいることが多く、 また、系統誤差はそもそも真の値からズレているかどうかに気づくことが難しいのです。

推定精度に影響を与えるもの

推定精度(推定における偶然誤差の小ささ)を決める要素は、次の2つです。

  • 標本として取ってくる数(サンプルサイズ
  • 母集団におけるバラツキ具合(母集団の標準偏差

まず、標本として調査する数が多い方が推定誤差が小さくなる、ということは感覚的にわかると思います。標本数が増えていけば、いずれ全数調査になって誤差0になりますよね。

母集団のバラツキ具合はどうでしょうか。箱から色球を取ってきて、毎回赤色が出るときと、赤・青・黒・金など毎回違う色が出るときと、箱の中身を想像するのにどちらが多く球を取ってくる必要がありそうか、を考えてみればわかると思います。 そう、母集団が均質であれば、少ないサンプル数でも推定誤差は小さくなります。 ただ問題なのは、多くのケースで「母集団がどの程度均質か」が事前に分からないことです。 これも標本から推定しなくてはいけません。

どれくらいのサンプル数を調べたらいいの?

推定誤差のうち偶然誤差は、標本として調べるサンプル数を増やすことで対応できると説明しました。 それでは、系統誤差がないと仮定して、どれくらいの人数を調査すればいいでしょうか? これは、どれくらいの誤差なら許容できるか、ということに依存します。

例えば内閣支持率を調査するときに、30%〜50%という結果ではほとんど役に立ちません。かといって、39.999%〜40.001%という高い精度は必要ありませんよね。それくらいの精度を求めると、時間がかかりすぎてしまい、結果が出た頃には役に立たないものになっているかもしれません。

精度は高いに越したことはないですが、使える時間とお金は限られているので、それも勘案してあらかじめ決める必要があります。

おわりに

*1:読みは「こくせいちょうさ」です。国税調査ではありません。