(分類で行うように)0.5レベルではなく0.05レベルで帰無仮説を棄却する理由


11

仮説検定は分類問題に似ています。したがって、観察(サブジェクト)には2つの可能なラベルがある-ギルティ対非ギルティ。Non-Guiltyを帰無仮説とします。問題を分類の観点から見た場合、データが与えられると、2つのクラスのそれぞれに属する主題の確率を予測する分類子をトレーニングします。次に、確率が最も高いクラスを選択します。その場合、0.5の確率が自然なしきい値になります。誤検知エラーと誤検知エラーに異なるコストを割り当てた場合、しきい値を変更する可能性があります。ただし、しきい値を0.05に設定するほど極端になることはほとんどありません。つまり、確率が0.95以上の場合にのみ、サブジェクトをクラス「ギルティ」に割り当てます。でもよくわかったら これは、仮説検定の問題と同じ問題を見るときに標準的な方法として行っていることです。後者の場合、「非ギルティ」である確率が5%未満の場合にのみ、「非ギルティ」というラベルは割り当てません。そして、もし私たちが無実の人々に有罪判決を下すことを本当に避けたいのであれば、これはおそらく理にかなっているでしょう。しかし、なぜこのルールがすべてのドメインとすべてのケースで適用されるのでしょうか?

どの仮説を採用するかを決定することは、データを与えられた真実の推定者を定義することと同じです。最尤推定では、データが与えられる可能性が高いという仮説を受け入れます。ただし、圧倒的に可能性が高いとは限りません。以下のグラフをご覧ください。

ここに画像の説明を入力してください

最尤法を使用すると、この例では予測子の値が3を超える場合(4など)、対立仮説が優先されますが、この値が帰無仮説から導出される確率は0.05よりも大きくなります。

そして、私が投稿を始めた例はおそらく感情的に訴えられますが、技術的な改善など、他のケースを考えることができます。新しいソリューションが改善である確率が改善ではない確率よりも高いことがデータから示されたときに、なぜステータスクオにそのような利点を与える必要があるのですか?


1
2

1
OPは、ここでの前提に欠陥があることは正しいです。従来のNHST手順では、5%で拒否する必要があるものは何もありません。これは議論の余地のある価値の文化的現象です。
マシュードゥルーリー2017

1
@Matthewドゥルーリー:戦略として欠陥がされていない「バスケットボールチームのために背の高い人を選択し、」ただ、それは含まれていないので、どのように背の高い正確なルールとして。他にも多くの問題がありますが、ご存じのとおり、ユーザーが線を引く場所を選択できるようにすることは、おそらくNHSTの機能です。リスクへの嫌悪は、パリやロンドンへの最近の旅行を除外しませんでしたが、多くの国への訪問を除外しました。仮説を棄却する時期について、グループごとに異なる慣例がある限り、文化的現象が存在することに同意します。
Nick Cox

ニックのコメントで何を読んでいるのかわかりません。私はもっ​​と明確だったと思います。私は、人々が問題固有のしきい値を設定することについてより多くの考えを入れてくれることを望みます。
Matthew Drury 2017

特定の拒否レベルを意味するものではないため、NHSTには欠陥があると言っているようです。問題固有のしきい値については同意します。
Nick Cox

回答:


17

あなたが法廷に行き、それをしなかったとしましょう。あなたがまだ有罪とされる可能性が50%あるのは公平だと思いますか?50%の確率で無実の「妥当な疑いを超えて有罪」になりますか?罪を犯していなくても、有罪とされる可能性が5%あるのは公平だと思いますか。私が法廷にいた場合、5%は十分に保守的ではないと考えます。

πe


質問の編集に応じて:

α


6
α=0.05α=0.05

8

それはあなたが言うようです-それはFalse PositiveとFalse Negativeエラーの重要度に依存します。

使用する例では、Maarten Buisがすでに回答したように、無罪である可能性が50%ある場合に有罪判決を受けることはほとんど公平ではありません。

それを研究に適用するときは、次のように見てください。特定の新しい薬が特定の疾患に対して役立つかどうかを知りたいと想像してください。治療を支持して、あなたの治療グループとあなたのコントロールグループの間に違いを見つけたとしましょう。すごい!薬は効くはずですよね?薬が効かないという帰無仮説を棄却できます。あなたのp値は0.49です!あなたが見つけた効果が偶然ではなく真実に基づいていた可能性が高くなります!
今これを考慮してください:薬は厄介な副作用を持っています。あなたはそれがうまくいくと確信している場合にのみそれを取りたいと思います。そしてあなたは?いいえ、まだ2つのグループの差が純粋に偶然だった可能性が51%あるためです。

たとえば、10%で満足できるドメインがあると想像できます。私は10%が受け入れられる記事を見ました。2%を選んだ記事も見ました。それは、帰無仮説を却下することは偶然ではなく真理に基づいていると確信しているというあなたがどれほど重要であると考えるかによって異なります。あなたが見つけた違いが純粋な運に基づいているという50%の確率で満足している状況を想像することはできません。


5

.05.50


あなたは「[h]仮説検定を分類問題に似ている」とします。ここでの明らかな類似性は表面的なものです。それは意味のある意味で本当に本当ではありません。

バイナリ分類問題では、実際には2つのクラスしかありません。それは絶対的かつ先験的に確立することができます。仮説検定はそうではありません。Stats 101クラスの電力分析または仮説検定のロジックを説明するために描かれることが多いため、図にはnullと代替仮説が表示されます。図は、そこにあることを意味する1つの帰無仮説と1つの対立仮説。(通常)nullが1つしかないことは事実ですが、代替案は(たとえば)平均差の1つのポイント値のみに固定されていません。研究を計画するとき、研究者は多くの場合、検出できるようにしたい最小値を選択します。ある特定の研究でそれが平均シフトであるとしましょう.67.67

00100%0.0¯00p<.5)。その結果、常に帰無仮説が偽であると結論することになります。これを明確にするために、質問の誤った前提は、提案どおりに使用できる単一の意味のある青い線(図に示されている)があることです。

.50


3

非常に優れた以前の回答に追加するには:はい、5%は任意ですが、選択する特定のしきい値に関係なく、それはかなり小さくなければなりません。そうでなければ、仮説テストはほとんど意味がありません。

あなたは効果を探していて、結果が純粋に偶然によるものではないことを確認したいと考えています。その程度まで、基本的に「実際に効果がない(帰無仮説が真である)場合、これは純粋に偶然にそのような結果(または極端)を得る確率になる」という有意水準を設定します。この値を高く設定しすぎると、多くの誤検知が発生し、研究の質問に対する有意義な回答を得る能力が損なわれます。

いつものように、関係するトレードオフがあるので、研究コミュニティはこの5%のガイドラインを思いつきました。しかし、それは分野によって異なります。素粒子物理学では、それは0.00001%かそれに近いものです。


0

分類と仮説検定は異なり、使用方法も異なります。ほとんどの場合、人々は

  • 「分類」は、「共有された品質または特性に従って何かを分類する」というタスクを実行します。
  • そして、「仮説検定」を使用して、いくつかの「重要な発見」を検証します。

仮説検定では、「帰無仮説」は「常識」であることに注意してください。ただし、帰無仮説を棄却できる場合は、中断します。

これが、仮説検定においてより厳しい基準を設けている理由です。新しいドラッグを開発する例を考えてみてください。これは重要で効果的であると非常に慎重に言いたいと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.