確率についてメモ ~正規分布から標本誤差まで~

生活の知恵

こんにちは、しらすです。

今回は確立について勉強したので、知識ストックとしてまとめておきたいと思います。以前から確率には漠然とした苦手意識があり、無意識のうちに避けてきましたが、この機に身に着けたいと思います。

※特に標本誤差は必要サンプル数を考える時にとても有効な指標です。使われている方は多いかと思いますが、自身のメモとして記載しておきます。

正規分布

正規分布はアブラーム・ド・モアブル(1667~1754)が二項分布の研究過程で発見した。

※ちなみに「二項分布」は二者択一を繰り返してできる確率分布のこと。

構成する変数

平均(μ)、標準偏差(σ)の二つの変数で分布形状が決定される。

$$ \mu=\frac{データの値の合計}{データの個数}$$

$$\sigma=\sqrt{分散(V)}$$

※分散(V)=((データ1 – μ)2 + (データ2 -μ)2 + ・・・ + (データn -μ)2 ) / (データの個数)

 

特性

全データの存在確率は、平均と標準偏差を用いて以下のような確率になる。

μ±1σ:68.3%

μ±2σ:95.5%

μ±3σ:99.7%

標準偏差とは?

一言で標準偏差を表すのはかなり難しいです。イメージとしては「ばらつきの平均値」が近いですが、これも正確ではありません(分散の算出時に二乗していることからもわかる通り、平均ではありません)。「ばらつきの大きいものほど重みを付けたばらつきの平均値」あたりが妥当でしょうか。基本的には、標準偏差が何か?をわかりやすくイメージすることは難しいように感じます。

あくまで、使用すると非常に便利な値という風に筆者はとらえるようにしています。それだけでも、上記のような統計を語る上で非常に有益な特性が得られるものにはなります。

中央極限定理

いくつかの事象が互いに関係なく独立して発生する場合、それらの事象の和や平均の確率分布は「正規分布」になる。

標本誤差

母集団から抽出した集団に対して行った調査結果に対する母集団の調査結果の誤差(標本誤差)は95%の誤差範囲を以下の式で求めることができる。これはテレビの視聴率計算などにも用いられるものである。

$$標本誤差(95\%) = \pm 1.96\sqrt{\frac{p(1-p)}{n}}$$

※1.96とは標準偏差1.96個分という意味である。仮に標本誤差(99%)としたければ2.58個分となる。

これは使える?標本誤差は母集団の数に影響されない!

式からわかる通り、母集団の数はこの標本誤差には含まれていない。そのため1万人から選出した1000人に対する標本誤差と1億人から選出した1000人に対する標本誤差は同じになる。逆に言えば、1000人の調査結果を1万人、1億人とした場合にどうなるかも、確率として数値で算出することが可能になる。

実際の仕事の現場では、サンプル数をどれくらいにすればいいかわからない場合や、そもそものサンプル数が思う存分取得できないという場合がある。このような場合でも、この計算式を用いることで、市場に流れるものの数からどれくらいのばらつきが発生するかを算出することが可能となる。

標本誤差を1/10倍にするためには100倍のサンプルが必要!?

標本誤差は\(\frac{1}{\sqrt{n}}\)に比例するため、標本誤差を1/10にしようとしたら

\(\frac{1}{10} = \frac{1}{\sqrt{n}}\) より

$$n = (10)^2 = 100$$

となり、100倍のサンプルが必要になる。誤差を減らすためにサンプル数を増やすという作業は間々用いられるとは思うが、この計算から費用対効果を求めることで、本当に必要かどうかを判断することができる。

仮説検定

仮説を立てて、それがどのくらいの確率で正しいといえるかを検証する方法。t分布を用いて、効果範囲の確率を算出する。例えば新薬投与において投与したグループとしていないグループで回復までの日数が3日間違ったとする。新薬の効果を証明する基準を5%(※1)とした際、この結果をt分布でプロットし(仮に回復日数とおく)、確率統計上95%となる日数を確認3日以上となっていれば95%の確率でこの新薬が効果がある。

※1 : この基準は検証する側が自分で設定する必要がある。例えば、今回は5%だったが、より厳しい試験では1%など。

捕獲再捕獲法

全体の母数を推定できない際に用いる方法(アメリカ、イエローストーン湖でレイク・トラウトという外来種の残存個体数の推定のために用いられた)

一度目に捕獲した集団にマークを残し、一度はなった後十分な時間をおいて再度一定数を捕獲する。その際に一度目にマークした個体が何体存在するかで、母数の推定を行う。一部を捕獲するだけで全体の母数を効率よく推定する方法。

例えば、一度目に20匹捕獲し放った後、二度目に50匹捕獲した際に一度目に捕獲した個体が10匹混ざっていたとすると、全個体の20%(10/50)が20匹となるため、5×20匹で100匹存在することがわかるということになります。

参考資料

多くの方が学校教育などの中である程度確率については教育を受けているかと思います。当然古くからある学問なので、教科書のような参考書から漫画でわかるようなものまで実に様々な書籍が存在しています。私が本記事を書こうと思ったきっかけになったのが以下のNewton別冊です。何となくは知っているけど、もう一回ちゃんと調べたい!という方にはよい導入本ではないかと思います。(現に私がそうでした!)


Newton別冊『統計と確率 改訂版』 (ニュートン別冊)

コメント