P値を誤解していますか?


16

したがって、P値を正しく解釈する方法について多くのことを読んでおり、私が読んだことから、p値は帰無仮説が真または偽である確率について何も言っていません。ただし、次のステートメントを読む場合:

p –値は、タイプIエラーを犯す確率、または真である場合に帰無仮説を拒否する確率を表します。p値が小さいほど、帰無仮説を誤って拒否する可能性が小さくなります。

編集:そして5分後に読んだ:

P値の誤った解釈は非常に一般的です。最も一般的な間違いは、P値を、真の帰無仮説(タイプIエラー)を拒否することにより間違いを犯す確率として解釈することです。

これは私を混乱させました。どちらが正しいか?そして、誰もがp値を正しく解釈する方法と、それがタイプIエラーを起こす確率に適切にどのように関連するかを説明できますか?


1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is truep –値は、タイプIエラーを犯す、つまり、帰無仮説が真であるという仮定の下で棄却するアプリオリ確率を表します。
ttnphns

4
@Paul:nullがtrueであることを条件にnullを拒否する確率は、タイプIエラーの確率です。これはp値とは異なります。タイプIエラーの可能性は、選択された有意水準と同じです(連続したランダム変数の場合)。以下の私の回答も参照してください。

はい、わかりました、あなたは絶対に正しいです。
ポール

4
@fcoppensタイプIエラーの確率は、帰無仮説が真であると条件付けた場合にのみ、アルファの事前に選択されたレベルに等しくなります。無条件の場合、nullがtrueかfalseかわからないため、nullの真理に事前の確率を指定した場合にのみ、タイプIエラーの確率を指定できます。
マイケルルー

@Michael Lew:このヌルに関する条件付けは、以下の私の回答で言及されていますか?

回答:


25

あなたのコメントのために、私は2つの別々のセクションを作ります:

p値

統計的仮説検定では、対立仮説の「統計的証拠」を見つけることができます。帰無仮説の棄却に失敗した場合に続くことで説明したように、、数学の「矛盾による証明」に似ています。

したがって、「統計的証拠」を見つけたい場合は、H 1と呼ばれる証明しようとするもののを示す反対のものを仮定します。この後、サンプルを描画し、サンプルからいわゆる検定統計量(t検定のt値など)を計算します。H0H1

次に、が真であり、サンプルがH 0の下の分布からランダムに引き出されると仮定すると、(ランダム)サンプルから派生した値以上の値を観測する確率を計算できます。この確率はp値と呼ばれます。H0H0

この値が「十分に小さい」、つまり選択した有意水準よりも小さい場合、を拒否し、H 1が「統計的に証明された」とみなします。H0H1

この方法では、いくつかのことが重要です。

  • が真であるという仮定の下で確率を導出しましたH0
  • H 0の下で想定された分布からランダムなサンプルを取得しましたH0
  • ランダムなサンプルから導出された検定統計量が超過する可能性が低い場合、H 1の証拠を見つけたと判断します。したがって、H 0が真である間に超過することは不可能ではなく、これらの場合、タイプIエラーが発生します。 H1H0

だから、タイプIエラーは何です:タイプIエラーがあった場合サンプル、無作為から引き出された、という結論につながるH 0は、実際に偽の間は、それは本当です。H0H0

これは、p値がタイプIエラーの確率ではないことを意味することに注意してください。実際、タイプIエラーはテストによる誤った決定であり、決定はp値を選択した有意水準と比較することによってのみ行うことができ、p値だけでは決定することはできません。決定が行われる選択された有意水準へのp値。決定が行われない限り、タイプIエラーは定義されません。

それではp値は何ですか?潜在的に間違って拒否、我々は下のランダムなサンプルを描くという事実によるものであるH 0、それは我々がサンプルを描画することによって、この「」運が悪い「」リードすることを「「」不運」を持っているかもしれませんので、H 0の誤った拒否に対して。そのため、p値(これは完全に正しいわけではありませんが)は、「不良サンプル」を描く確率に似ています。p値の正しい解釈は、H 0の下で無作為に抽出されたサンプルから導出された検定統計量の値を検定統計量が上回るか等しい確率ですH0H0H0H0


偽発見率(FDR)

上で説明したように、帰無仮説が拒否されるたびに、これを「統計的証拠」と見なします。そのため、新しい科学的知識を発見したため、発見と呼ばます。また、上記で説明したように、タイプIエラーを作成すると、誤った発見(つまり、H 0の誤った拒否)を行うことができます。その場合、科学的真実の誤った信念があります。私たちは本当に本当のことだけを発見したいので、偽の発見を最小限に抑えようとします。つまり、タイプIエラーを制御します。タイプIエラーの確率が選択された有意水準αであることを確認するのはそれほど難しくありません。したがって、タイプIエラーを制御するために、αH1H0αα-「偽の証拠」を受け入れる意思を反映したレベル。

直感的には、これは、膨大な数のサンプルを描画し、各サンプルでテストを実行すると、これらのテストの割合が間違った結論につながることを意味します。「多くのサンプルを平均化する」ことに注意することが重要です。同じテスト、多くのサンプル。 α

同じサンプルを使用して多くの異なるテストを行うと、複数のテストエラーが発生します(ファミリ単位のエラー境界に関するanserを参照してください:独立した質問の異なる研究でデータセットを再利用すると、複数のテストの問題が発生しますか?)。その場合、例えば、ボンフェローニ補正など、家族ごとのエラー率(FWER)を制御する手法を使用して、インフレーションを制御できます。α

FWERとは異なるアプローチは、偽発見率(FDR)を制御することです。その場合、すべての発見(D)のうち偽発見(FD)の数を制御するため、F Dを制御します。、Dは拒否されたH0の数です。FDDH0

したがって、タイプIのエラー確率は、多くの異なるサンプルで同じテストを実行することに関係しています。膨大な数のサンプルの場合、タイプIのエラー確率は、誤った棄却につながるサンプル数に収束し、描画されサンプルの総数で除算されます。

FDRは、同じサンプルに多くのテストを行うことやテストの膨大な数のために、それはなります持っているタイプIエラーが行われるテストの数に収束(すなわち偽発見の数)の拒否の総数で割っ(つまり、発見の総数)H0

上記の2つの段落を比較することに注意してください。

  1. コンテキストは異なります。1つのテストと多くのサンプル対多くのテストと1つのサンプル。
  2. タイプIのエラー確率を計算するための分母は、FDRを計算するための分母とは明らかに異なります。分子はある意味で似ていますが、コンテキストが異なります。

FDRは、同じサンプルで多くのテストを実行し、1000の発見(つまり拒否)を発見した場合、0.38のFDRで0.38 × 1000の偽発見が発生することを示しています。H00.38×1000


5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0そうですか?それは「等しいか超えている」ではありませんか?P値は、真のH0の下で、実際に観察されるよりこれ以上の差または関連を観察する確率です。
ttnphns

@ttnphns連続検定統計の場合、ポイントの測定値がゼロであるため、違いはありません。離散検定統計量については、正しい(+1)です。それに応じてテキストを変更しました。

1
P値とタイプIのエラー率を非常に便利に区別しますが、「実証済み」という言葉にはもっと注意する必要があると思います。私の意見では、「統計的に」修飾子を追加しても十分に軟化するわけではありません。
マイケルルー

1
証拠は、バイナリ状態のみが存在するものとして扱われました:存在と非存在。非統計的証拠の標準的な理解では、単語の概念には段階的な存在があり、一次元の強さが捉えることができるよりも複雑です。困難は、エラー率の考慮事項と証拠の通常の解釈との非互換性から生じます。私は、FDRの枠組み内で「証拠」の非バイナリ解釈をとらえたあらゆる記述を読むことに非常に興味があります。(私はまだ見ていません。)
マイケルルー

1
訂正していただきありがとうございます。昨夜、適切な変更を行い、あなたの投稿をクレジットしました。
アントニ・パレラダ

4

最初の文は厳密には真実ではありません。

重要性の誤解に関する気の利いた論文から:(http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf

「[このステートメント]は、タイプIのエラー(実際にはH0を拒否する確率)の定義に似ているように見えますが、実際にH0を拒否した場合、この決定は次の場合にのみ間違っています。したがって、「あなたが間違った決定をしている」確率はp(H0)であり、この確率...は帰無仮説有意性検定では導出できません。」

もっと簡単に言えば、H0を誤って拒否した確率を評価するには、このテストでは得られないH0が真である確率が必要です。


ありがとうございました!statisticsdonewrong.com/p-value.htmlの最初の部分を読んでいるとき、著者はFDRが38%であると結論付けているので、タイプIエラーの確率は38%ですか?
rb612

FDRは誤検出率であり、タイプIのエラーとは非常に異なるため、質問に対する答えは「いいえ」です。FDRは複数のテストに関係しています。つまり、同じサンプルに対して複数のテストを実行する場合は、stats.stackexchange.com / questions / 164181 /…を参照してください。FDRは、Familywise Error Rateの代替手段ですが、コメントの文字数が制限されすぎていることを説明するためのものです。

FDRを説明するための回答に2番目のセクションを追加しました。

1
事前なしでH0が真である確率を決定することが不可能であるように、事前なしでFDRを決定することはできません。FDRの論文をどのように解釈するかに注意してください。論文で使用されている事前分布は、あなた自身の実験的状況に必ずしも関連しないかもしれないからです。
マイケルルー

1

帰無仮説がtrueであると仮定すると、p値の正しい解釈は、観測値(少なくとも「極値」)と少なくとも同じくらい対立仮説に伝導性のある結果の条件付き確率です。誤った解釈には、通常、限界確率または条件の切り替えが含まれます。

p-value=P(At least as extreme as observed outcome|H0)P(Type I error).

-1

p値により、帰無仮説(または主張された仮説)を拒否できるかどうかを判断できます。p値が有意水準αより小さい場合、これは統計的に有意な結果を表し、帰無仮説は棄却されます。p値が有意水準αよりも大きい場合、帰無仮説は棄却できません。これは、テーブルを使用している場合、またはこのp-value calculatorなどのオンライン計算機を使用して検定統計量からp-valueを見つける場合にp-valueを検索する理由です。

これで、タイプIおよびタイプIIのエラーに言及したことがわかりました。これは、p値とはまったく関係ありません。これは、使用するサンプルサイズやデータに対して取得した値など、元のデータと関係があります。たとえば、サンプルサイズが小さすぎると、タイプIエラーが発生する可能性があります。


2
-1。私たちのサイトに下票を送ってすみませんが、この答えは明らかに間違っています。p値が帰無仮説の真の確率であるということではありません。これは、stats.stackexchange.com / questions / 31などのp値と仮説検定に関する多くのスレッドで十分に議論されています
whuber

1
より正確にするために、元の回答を少し変更しました。
-user1445657
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.