【統計】必要なサンプル数の決め方

お勉強

視聴率や世論調査を行う際に、100%正確な数値を出そうとしたら全ての国民に調査を実施する必要があります。しかし、多くの場合その規模で調査を行うのは費用対効果が悪すぎるため、現実的ではありません。そこで、ある人数に絞って調査を実施することになります。

さて、有効な結果を得るためにはどれくらいの人数を調査すればいいのでしょうか?世論調査を行うのに10人では少なすぎますよね?

統計的には以下の3つを決めれば、必要なサンプル数を決定することができます。

  1. 誤差率
  2. 信頼係数
  3. 母偏差

それぞれの係数の意味

誤差率

得られた結果に対して発生する誤差の幅。例えば誤差率5%とすると、調査結果が70%だった場合、実際に全部を調べると65 ~ 75% の間になるということ。

信頼係数

出てきた結果に対して何%の信頼を求めるかの数値。よく使われるのは90%、95%、99%あたり。それぞれの信頼区間における値は以下を代入する。

  • 90% : 1.64
  • 95% : 1.96
  • 99% : 2.58

上の誤差率と合わせて、「95%の信頼度で65~75%になる」という表現になる。

母偏差

調査対象全体を見た時に全体に占める賛成/反対の割合。例えば、ある政策について賛否の世論調査をしたときに、賛成に投票した人が100人中70人いたときは母偏差は70%となる。計算上50%が最もサンプル数が大きくなるため、想像がつかない場合はとりあえず50%にしておきましょう。予備調査をして母偏差をある程度求めておくとより少ないサンプルで済むこともあります。

実際に必要なサンプル数を調べる

では実際にやってみましょう。番組の視聴率を調べます。±5%の誤差率信頼度95%とした場合に必要なサンプル数は以下で計算されます(母偏差はサンプル数が最大になるよう50%とした)

$$サンプル数 ≧ {(\frac{信頼係数}{誤差率})}^2 母偏差(1-母偏差)$$

$$サンプル数 ≧ {(\frac{1.96}{0.05})}^2 0.5(1-0.5)$$

$$サンプル数 ≧ 384.16$$

ということで、必要なサンプル数は385人以上ということになります。

母数が変わってもサンプル数は変わらない!?

上の計算を見てもらうとわかるかと思いますが、母数は入っていません。どういうことかというと、母数がどれだけ大きくても必要なサンプル数は変わらないということです。例えば母数が1万人でも1億人でも385人分のデータを集めれば誤差率5%、信頼度95%で結果が得られます

感覚と合わない部分もあるかもしれません。ただし、統計的にはこれが正しい結果になります。

もちろんこれには落とし穴もあります。それはサンプルのランダム性です。母数が1万人の場合、385人分のデータは全体の3.85%程度となり、取り方次第では全体の傾向を反映しているでしょう。しかし、1億人が母数の場合、0.000385 %しか情報を得ていないことになります。この集団が本当に1億人分の傾向を網羅するように含まれているかはかなり疑問です。

このサンプル数の決め方は、サンプリングした対象が十分ランダムで全体の傾向を反映したものであるという前提が必要になる点は注意が必要です。

以下に必要な情報を入力すると上記の計算式から必要なサンプル数を求めることができます。


コメント