【統計学】p値の意味と歴史

お勉強

こんにちは、しらすです。

統計学では「p値」と呼ばれる値があります。実験結果などに対して「統計的に有意」かを判定する基準となる数字です。

今回はこのp値についてまとめたいと思います。

p値の歴史

p値は1920年代にイギリスの科学者であるロナルド・フィッシャーが「The Design of Experiments」という論文で提唱した統計と確率により結果を分析する手順で提案されました。

この頃、ある女性が「私は、紅茶にミルクを注いだのか、ミルクに紅茶を注いだのか、飲んで見分けることができる」といいました。混ざったら一緒でしょ?そんなことできるわけない!と思いますよね?でも、もしかしたらできるかも、、、、

さて、ここでその女性にその能力があるかどうかを見分ける必要が出てきました。実験をしたところで、偶然運で言い当てられる可能性も十二分に考えられますね。その点に注意して実験を始めましょう。

まず、ミルクを入れた紅茶を一つ用意し、どちらかを当ててもらいます。この時、女性が正解を言い当てる確率は1/2で50%になります。この時点では、だれもが偶然だというでしょう。

では続けてもう一つ出しましょう。連続で言い当てる確率は1/2 × 1/2で25%になりました。まだまだ偶然出ないとは言い切れないと感じます。

さらに3,4、5回と繰り返すと、全て正解する確率は1/2 × 1/2× 1/2× 1/2× 1/2 = 3.125%となります。なんの力もない人が100人いれば3人は「偶然」正解できるということです。ここまでくると運とは言えなくなってきましたね。

このようにある事柄が「偶然」発生する確率をProbability = p値と呼びます。フィッシャーの論文で素晴らしかったことは定義だけでなく基準も示したことです。「p値が5%未満」であれば偶然である確率は十分少ない、これを統計的に有意と呼びました。

余談 ~p値ハッキング~

この後、この「5%の統計的に有意」が実験の成功基準として独り歩きし、研究助成金を得るためにp値が5%未満になるように調整する「p値ハッキング」という問題も発生したそうです。一般的に研究結果が有意かどうかの基準としてp値が5%未満であることが使われるようになりました。そのため、p値 = 8%などの結果が出た時に研究データに意図的に(無意識でも)手を加えて5%未満にする人がでてきました。p値ハッキングにはOverhachikng、Selection bias、Selective debuggingなどがある様子。詳細は以下のリンクにまとまっているので興味がある方はこちらをご覧ください。

研究をやっているとこういう場面は沢山あると思います。ただ、意図的でも無意識でもこれをやってしまうと研究の有意性を保てなくなってしまうだけでなく、その後の研究者/技術者としての信頼度を大きく損ねます。一度の甘えがその後の人生を大きく狂わせてしまうので、絶対にp値ハッキングはやらないよう意識しておくことが必要です。また、人間どうしても甘えが出ることはあるので、実験開始前に実験方法をオープンにしておくなどの対策も効果的です。

P値に関する問題-P値ハッキング - エナゴ学術英語アカデミー
研究の世界では統計的な有意性が求められ、その有意性の判定基準として一般的に使われているのは「P値(有意確率)」です。ところが、このP値については誤用や誤解が付き物であることから、使用を控える動きもあります。P値ハッキングを含め、どのようなことが問題視されているのか見てみましょう。

p値の本当の意味をしっかり理解しよう

統計学を少しかじると陥ってしまう落とし穴ですが、「基準」があると「それを満たせば大丈夫」と思ってしまう場合があります。p値は基本的には「感覚的に偶然ではないと感じる」というものであり、人や対象の事象によって必要なp値は異なることを理解しておく必要があります。

例えば、風邪を引いたときに、95%の確率で治るが5%の確率(p値 = 5%)で副作用で死ぬ可能性のある特効薬を進められてもほとんどの人は飲まないでしょう。しかし、重篤な病気にかかったときに、80%の確率で治るが20%の確率(p値 = 20%)で死ぬ可能性がある特効薬があれば使いたい人は多いかもしれません。このように、p値はあくまで確率であり、それで安心できるかかは人や状況によって異なるため、「5%だからOK」といった一つの基準で語られるべきではありません

帰無仮説が正だとすると、有意水準 5%となり、帰無仮説は棄却

ここで帰無仮説仮説検定ついても述べておこうと思います。

仮説検定とは「仮説を立てて、その仮説が正しいかどうかを検証する」という、言葉にすればそのままの意味のものです。統計的に有意であることを証明するために仮説検定を用います。

統計学の言葉は回りくどくて理解しづらいですが、要するに「この事象が起こる要因は○○が95%以上かかわっている」といっているだけです。これを統計学的に表現すると以下になります。

「ある事象には要因○○が関係する(対立仮説)と考える。このとき、この対立仮説を否定する帰無仮説が正とすると、有意水準5%で帰無仮説は棄却され、誤っていると判断される。よって対立仮説は正しい」

自分が立てた仮説を直接証明するのではなく、その仮説を否定する仮説を立てて、否定する仮説が間違っていることを証明します。すると結果的に最初に自分が立てた仮説が正しいことが証明できるという論法です。数学で言うところの背理法。

実際に計算する際には、ある要因○○を否定する要因を考え、それが全体の何%かかわっているかの確率を出します。これが例えば5%未満なら要因○○が統計的に有意といえます。

コメント