p値を理解する


33

p値を説明する多くの資料があることを知っています。しかし、この概念は、さらに明確にしないとしっかりと把握するのは容易ではありません。

ウィキペディアのp値の定義は次のとおりです。

p値は、帰無仮説が真であると仮定して、少なくとも実際に観測されたものと同じくらい極端な検定統計量を取得する確率です。(http://en.wikipedia.org/wiki/P-value

私の最初の質問は、「少なくとも実際に観察されたものと同じくらい極端な」という表現に関するものです。p値の使用の根底にあるロジックの私の理解は次のとおりです。p値が小さい場合、帰無仮説を仮定して観測が行われた可能性は低く、観測を説明するために代替仮説が必要になる場合があります。p値がそれほど小さくない場合は、帰無仮説を仮定するだけで観測が行われた可能性が高く、観測を説明するのに対立仮説は必要ありません。したがって、誰かが仮説を主張したい場合、彼/彼女は帰無仮説のp値が非常に小さいことを示さなければなりません。この見解を念頭に置いて、あいまいな表現の私の理解は、p値がmin[P(X<x),P(x<X)]、統計のPDFが単峰性の場合、Xは検定統計量、xは観測から取得した値です。これは正解?正しい場合、統計のバイモーダルPDFを使用することはまだ可能ですか?PDFの2つのピークが適切に分離されており、観測値が2つのピーク間の低確率密度領域のどこかにある場合、p値はどの間隔で確率を与えますか?

2番目の質問は、ヴォルフラムMathWorldからp値の別の定義についてです。

変量が偶然に厳密に観測値以上の値をとる確率。(http://mathworld.wolfram.com/P-Value.html

「偶然に」というフレーズは「帰無仮説を仮定する」と解釈されるべきだと理解しました。そうですか?

3番目の質問は、「帰無仮説」の使用を考えています。誰かがコインが公正であることを主張したいと仮定しましょう。彼は、頭の相対頻度が0.5であるという仮説を表現しています。帰無仮説は、「頭の相対頻度は0.5ではありません」です。この場合、帰無仮説のp値の計算は困難ですが、対立仮説の計算は簡単です。もちろん、2つの仮説の役割を入れ替えることで問題を解決できます。私の質問は、元の対立仮説のp値に直接基づいた拒否または受け入れ(帰無仮説を導入せず)はそれがOKかどうかです。うまくいかない場合、帰無仮説のp値を計算するときのそのような困難に対する通常の回避策は何ですか?




このスレッドでの議論に基づいて、より明確な新しい質問を投稿しました。




14
認識されないことが多い微妙な問題をキャッチしました。「より極端な」は、ヌルサンプリングの末尾にあるという明白な(ただし一般的には正しくない)意味ではなく、対立仮説の相対的な可能性の観点から測定する必要があります分布。これは、多くの仮説検定を正当化し、それらの重要な領域を決定するために使用されるNeyman-Pearson Lemmaの定式化で明示的です(そして、それらのp値)。これを熟考することは、最初の質問に答えるのに役立ちます。
whuber

1
私が思い出すように、ネイマン・ピアソン補題は、単純な仮説検定と単純な仮説検定に最適です(Ho:mu = mu_0、Ha:mu = mu_a)。複合テスト(Ho:mu = mu_0、Ha:mu> mu_a)の場合、代替テストがあります。
ロバートF

回答:


17

最初の答え

値やテスト対象のランダム変数の値ではなく、テスト統計の確率に関して極端な概念で考える必要があります。Christensen、R.(2005)からの次の例を報告します。フィッシャー、ネイマン、ピアソン、およびベイズのテストアメリカ統計学者、59(2)、121–126

(r|θ=0r|1234p(r|θ=0)|0.9800.0050.0050.010pvalue|1.00.010.010.02

ここで、は観測値、2行目は帰無仮説下で特定の観測値を観測する確率です。ここでは検定統計量として使用され、3行目は値です。ここにテストのフレームワークがあります。データが変であるかどうかを確認したい仮説(、この場合は)があります。最小の確率の観測値は、それぞれ0.5%の2と3です。たとえば、2を取得した場合、可能性が高いまたは低い可能性(および)を観測する確率は1%です。観測値は寄与しませんθ = 0 P H 0 θ = 0 、R = 2 、R = 3 、R = 4 、Prθ=0pH0θ=0r=2r=3r=4p 観察される可能性が高いため、値はさらに離れていますが(順序関係が存在する場合)。

この定義は、順序関係が定義されていないカテゴリ変数と多次元変数の両方に対応するため、一般的に機能します。最も可能性の高い結果からバイアスを観察するイングル定量変数の場合、片側 値を計算し、検定統計量分布の片側にある観察のみを考慮することが理にかなっている場合があります。p

二番目の答え

Mathworldのこの定義には完全に同意しません。

第三の答え

私はあなたの質問を理解したかどうかは完全にはわからないと言わざるを得ませんが、あなたを助けるかもしれないいくつかの所見を与えようとします。

帰無仮説のみを持つフィッシャーの検定の最も単純なコンテキストでは、これは現状維持です。これは、フィッシャーのテストが本質的に矛盾によって機能するためです。したがって、コインの場合、別の考えをする理由がない限り、と仮定します。次に、計算しの下で、あなたのデータの値し、あなたの場合は、値が所定の閾値を下回っている、あなたは(背理法)仮説を棄却します。帰無仮説の確率を計算することはありませんp H 0 pH0:θ=0.5pH0p

Neyman-Pearson検定では、2つの対立仮説を指定し、それらの相対尤度とパラメーターベクトルの次元に基づいて、どちらかを優先します。これは、たとえば、バイアスのかかったコインとバイアスのないコインの仮説をテストする際に見ることができます。バイアスなしとは、パラメーターを(このパラメーター空間の次元はゼロ)に固定することを意味し、バイアスは任意の値(1に等しい次元)にすることができます。これにより、別のユーザーが説明したように、不可能である矛盾によってバイアスの仮説を矛盾させようとする問題が解決されます。フィッシャーとNPは、サンプルが大きい場合に同様の結果を出しますが、正確に同等ではありません。以下に、バイアスのかかったコインのRの簡単なコードを示します。θ 0.5θ=0.5θ0.5

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

2
知らなかったすばらしい記事を指摘してくれた+1。(また、Mathworldの統計の見方の有用性についての多くの必要な懐疑論について)。
共役

どうもありがとうございました!したがって、p値は\ int_ {x:f(x)<= k} fです。ここで、fは検定統計量のPDF、kは統計量の観測値です。ありがとうございました。
JDL

3番目の答えに関して、あなたの答えで証明されるのは、公平性の仮定が拒否されるため、コインの不公平性です。それどころか、矛盾によってコインの公平性を証明するには、不公平\ theta \ neq 0.5を仮定して、データのp値を計算する必要があります。どうすればいいですか?私のポイントは、不公平の仮定の\ neq記号に起因する難しさです。0.4 <\ theta <0.6といった公平性の許容範囲を導入し、\ thetaでp値を計算し、0 <\ theta <0.4および0.6 <\ theta <1で積分する必要がありますか?
JDL

もう一つ質問。このリンクは、「片側」のp値について説明しています。片側のp値は、「2つの母集団が実際に同じであるという帰無仮説...ランダムに選択されたサンプルが、この実験で観測された距離(またはそれ以上)指定されたグループはより大きな平均を持っていますか?」片側p値の適切な使用ですか?この場合、帰無仮説自体は不平等として表現されるべきだと思います(平等と片側検定の代わりに)。
JDL

1
@Zagは、私はこの答えではなく、反対する:あなたはしていない持っている確率の面で極端なの概念を考えること。この例では、nullの下の確率が検定統計量として使用されていると言った方が良いですが、それは必須ではありません。たとえば、whuberで述べた尤度比が検定統計量として使用される場合、一般的に、nullの下での確率と同じ順序で可能なサンプルは配置されません。他の統計は、指定された代替案またはすべての代替案に対する最大電力、または漠然と定義されたセットに対する高電力のために選択されます。
Scortchi-モニカの復職

8

(1)統計は、サンプルから計算できる数値です。それはあなたが持っているかもしれないすべてのサンプルを整頓するのに使用されます(仮定されたモデルの下で、コインが彼らの端に着かないとあなたが持っているもの)。場合あなたが実際に得たサンプルから計算するものであり、・、対応する確率変数であり、その後、p値は次式で与えられ 帰無仮説下。「より大きい」と「より極端な」は原則的に重要ではありません。正規平均の両側検定では、 を使用できますが、 適切なテーブルがあるため。(倍増に注意してください。)TtTPr(Tt)H0Pr(|Z||z|)2min[Pr(Zz),Pr(Zz)]

帰無仮説の下で確率の順序でサンプルを配置するための検定統計量の要件はありません。(Zagの例のように)他の方法が逆に見える場合もあります(何を測定するか、とのどのような不一致が最も重要であるか、などに関する詳細情報なしで)。しかし、しばしば他の基準が使用されます。したがって、テスト統計用のバイモーダルPDFをし、上記の式を使用してをテストます。rH0H0

(2)はい、それらは下を意味し。H0

(3)「頭の頻度が0.5ではない」のような帰無仮説は、あなたがそれを決して拒否することができないので、役に立たない。「ヘッドの頻度は0.49999999」を含む、または好きなだけ近い複合ヌルです。事前にコインが公正であるかどうかに関係なく、問題に関係する有用な帰無仮説を選択します。おそらく、実験後、頭の頻度の信頼区間を計算して、明らかに公平なコインではないか、公正に近いか、または調べるためにさらに試行する必要があることを示す方が便利です。

(1)の図:

10回のトスでコインの公平性をテストしているとします。結果はます。それらの3つは次のとおりです。210

HHHHHHHHHHHTHTHTHTHTHHTHHHTTTH

おそらく最初の2つは少し疑わしいと思うでしょう。ただし、nullの下の確率は等しくなります。

Pr(HHHHHHHHHH)=11024Pr(HTHTHTHTHT)=11024Pr(HHTHHHTTTH)=11024

どこにでも到達するには、テストするヌルの代替のタイプを検討する必要があります。ヌルとオルタナティブの両方で各トスの独立性を仮定する準備ができている場合(&実際の状況では、これは実験トライアルが独立していることを確認するために非常に懸命に働くことを意味することが多い)、情報を失うことなくテスト統計としてヘッドの総数を使用できます。(この方法でサンプル空間を分割することは、統計が行うもう1つの重要な仕事です。)

したがって、カウントは0〜10です。

t<-c(0:10)

ヌルの下での分布は

p.null<-dbinom(t,10,0.5)

データに最適な代替のバージョンでは、(たとえば)10頭中3頭が表示される場合、頭の確率はであるため、310

p.alt<-dbinom(t,10,t/10)

ヌルの下の確率と代替の下の確率の比(尤度比と呼ばれる)を取得します。

lr<-p.alt/p.null

と比べて

plot(log(lr),p.null)

したがって、このnullの場合、2つの統計順序は同じ方法でサンプリングします。0.85のnullで繰り返した場合(つまり、ヘッドの長期的な頻度が85%であることをテストした場合)、繰り返されません。

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gofテスト

理由を見るために

plot(t,p.alt)

一部の値は代替案では確率が低く、尤度比検定の統計ではこれが考慮されます。注意:この検定統計量は極端ではありませんt

HTHTHTHTHT

そして、それは問題ありません-すべてのサンプルは、ある観点から極端であると考えることができます。検出できるようにするNULLとの矛盾の種類に応じて、テスト統計を選択します。

...この一連の思考を続けて、1つのコインが次のコインに影響を与える代替案に対して同じヌルをテストするために、サンプル空間を異なる方法で分割する統計を定義できます。実行回数呼び出しように、r

HHTHHHTTTH

持っています:r=6

HH T HHH TTT H

疑わしいシーケンス

HTHTHTHTHT

有し。だからr=10

THTHTHTHTH

一方、極端な

HHHHHHHHHHTTTTTTTTTT

持っています。ヌルの下の確率を検定統計量(好きな方法)として使用すると、サンプルのp値r=1

HTHTHTHTHT

したがって、です。このテストを以前のテストと比較すると、注目に値するのは、nullの下で確率によって与えられた順序に厳密に従う場合でも、サンプル空間を分割するためにテスト統計を定義する方法は、代替案の検討に依存することです。41024=1256


定義Pr(T \ ge t; H_0)は、検定統計量の任意のマルチモーダル(もちろん、バイモーダルを含む)PDFに適用できると言います。次に、あなたとザグは、検定統計量のマルチモーダルPDFに異なるp値を与えます。私見、ザグの定義はより合理的です。なぜなら、p値の役割は、彼が指摘したように、観測が帰無仮説の下にある可能性(または奇妙)を定量化することだからです。定義Pr(T \ ge t; H_0)の根拠は何ですか?
JDL

@JDL、それは単に p値の定義です。問題は、「良い」検定統計量を見つける方法(&「良い」を定義する方法)になります。ヌル(または同じ順序を与えるデータの関数)の下の確率が、検定統計量として使用される場合があります。時には、他の人を選ぶ正当な理由があり、それが理論統計に関する本の多くのスペースを埋めます。明示的または暗黙的な代替案の検討を伴うと言ってもいいと思います。...
スコルチ-モニカの復職

@JDL、...そして、特定の観測値がヌルと代替の両方で低い確率を持っている場合、それを極端と見なさないことが合理的であると思われます。
スコルチ-モニカの復職

@Scortchi、ご回答ありがとうございます。新しい質問を投稿しましたが、投稿直後にあなたのコメントを見ました。とにかく、私はまだ定義について明確ではありません。親切な回答ありがとうございます。
JDL

イラストを追加しました
Scortchi-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.