統計学的なモノの見方

しーぴー
·
公開:2024/12/11

世の中になんちゃって統計学が蔓延っている中、ちゃんとした統計学的的なモノの見方を養うのは悪くないことだと思う。

統計学には大きく分けて2つの目的があり、それぞれに名前がついている。

  • 大きすぎる集団のデータを集計して、特徴的な値を取り出す (記述統計)

  • 大きすぎる集団から一部を取ってきて、そのデータからもとの集団のデータを推測する (推測統計)

具体例を考えてみると分かりやすくて、試験の平均点数を求めるとかは前者で、世論調査とかは後者だ。それぞれに注意すべき点があるが、前者は比較的直感で理解しやすいので、ここでは後者について考えてみる。


たとえば先にも挙げた世論調査の例で考えてみる。世論調査の中でもNHKが行っている内閣支持率調査に絞って見ていくことにしよう。

本当なら有権者全て (≒ 18歳以上の日本国民全員) に意見を聴くのが正確だが、それを毎月やるのは難しい。なのでその一部にだけ聴いて、それを全体の意見の代表としているわけである。

ここで重要になってくるのは、サンプルの大きさとランダムさである。3人に内閣を支持しているか聞いて、たまたま3人全員が支持していたので内閣支持率100%、となったら納得できるだろうか。

具体的にどの程度の大きさがあれば十分なのかの計算方法は複雑なので省くが、有権者数1億人に対して2000人もいれば十分だろう。(もちろんどの程度の信頼性を求めるかにも強く依存するが) 案外少なく思えるのではないだろうか?その謎の鍵はランダム性にある。

サンプルはあらゆる意味でランダムでなければならない。そういう仮定に基づいて先の数値は計算されている。特定の年齢層に偏らず、特定の性別に偏らず、特定の職業に偏らず、その他あらゆる特性を無視してランダムに選ぶ必要がある。

しかしこれは非常に難しい。逆にみなさんがそういう方法を考えろと言われたらどういう方法を考えるだろうか?

仮に全国民のリストが手に入るとすれば、その中から調査対象を2000人ピックアップするのはさほど難しくない。が、その2000人に対してどうやって調査を行うのか。郵送なのか、電話なのか、オンラインなのか、直接口頭でなのか。どの方法でも良いと思われるかもしれないが、この選択は非常に重要である。

例えば電話でやるとしよう。昼の15時に急に電話がかかってきたら、あなたは電話に出るだろうか?ちなみにボクは高確率で出ない。つまり電話という方法を取ると、少なくともボクかそれ以外かで偏りが生じるので、完全なランダムとは言い難くなる。


と、ここまで見てくると世の中の調査とやらの怪しさが見えるようになって来たのではないだろうか。ぜひその視点を忘れずに生きてほしいものである。