帰無仮説の下でp値が均一に分布するのはなぜですか?


115

最近、私はKlammerらによる論文で発見しましたp値を均一に分布させる必要があるというステートメント。著者を信じていますが、なぜそうなのか理解できません。

Klammer、AA、Park、CY、およびStafford Noble、W。(2009)SEQUEST XCorr関数の統計的キャリブレーションプロテオームリサーチジャーナル。8(4):2106–2113。


24
これは、帰無仮説の下での分布を使用した検定統計量の確率積分変換としてのp値の定義から即座に得られます。結論は、分布が連続的であることを必要とします。分布が離散的である(または原子を含む)場合、p値の分布も離散的であるため、ほぼ均一になります。
whuberの

1
@whuberが答えを出したが、それは私が疑ったことだった。翻訳で何かが失われていないことを確認するために、元の参考文献を尋ねました。通常、記事が具体的かどうかは関係ありません。統計コンテンツは常に次のように表示されます:)
mpiktas

10
が真の場合のみH0!...そしてより厳密には、連続している場合のみ(非連続の場合にそのようなことが当てはまります。最も一般的な場合の正しい単語はわかりません。均一ではありません)。次に、p-valueの定義に従います。
Glen_b

2
これは、物理システムのすべてのミクロ状態が等しい確率を持っているという基本的な統計力学の原理の変形と見なすことができます(学生はしばしば受け入れが同様の困難を抱えています)。
DWin

5
この記事の主張についてはどうですか:plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0076010

回答:


83

少し明確にするために。帰無仮説が真であり、他のすべての仮定が満たされている場合、p値は均一に分布します。この理由は、実際には、タイプIエラーの確率としてのアルファの定義です。真の帰無仮説を棄却する確率はアルファであり、観測された場合は棄却しこれは、alphaの値に対してこれが起こる唯一の方法は、p値が一様分布。正しい分布(正規、t、f、chisqなど)を使用する全体のポイントは、検定統計量から均一なp値に変換することです。帰無仮説が偽である場合、p値の分布は(できれば)0に向かってより重み付けされます。p-value<α

R のTeachingDemosパッケージのPvalue.norm.simおよびPvalue.binom.sim関数は、いくつかのデータセットをシミュレートし、p値を計算してプロットし、このアイデアを示します。

参照:

マードック、D、ツァイ、Y、およびアドコック、J(2008)。P値はランダム変数です。アメリカの統計学者62、242-245。

詳細については。

編集:

人々はまだこの回答を読んでコメントしているので、@ whuberのコメントに対処すると思いました。

ような複合帰無仮説を使用する場合、2つの平均が正確に等しい場合にのみp値が均一に分布し、が以下の値の場合は均一ではないことはです。。これは、関数を使用して、片側テストを行うように設定し、シミュレーションと異なる手段でシミュレーションすることで簡単に確認できます(ただし、nullをtrueにする方向)。μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

統計理論に関する限り、これは重要ではありません。私があなたの家族のすべてのメンバーより背が高いと主張した場合、この主張をテストする1つの方法は、私の身長とあなたの家族の各メンバーの身長を一度に1つずつ比較することです。別の選択肢は、最も背が高いあなたの家族のメンバーを見つけて、私の身長と比較することです。私がその人より背が高い場合、私は他の人よりも背が高く、私の主張は真実です。私がその人より背が高くなければ、私の主張は偽です。複合ヌルのテストと同様のプロセスとして見ることができるのではなく、すべての可能な組み合わせの試験我々は拒否することができる場合ので、私たちは平等の一部をテストすることができますに賛成μ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1つのμ 2つの αμ1μ2μ1=μ2μ1>μ2そして、すべての可能性を拒否することもできます。場合のp値の分布を見ると、分布は完全に均一ではありませんが、0よりも1に近い値を持つことになります。つまり、タイプIエラーの確率は選択した値により、保守的なテストになります。がに近づくと、ユニフォームが制限分布になりμ1<μ2μ1<μ2αμ1μ2(stat-theoryの用語でより最新の人々は、おそらく分布の上限またはそのようなものに関してこれをよりよく述べることができるでしょう)。したがって、nullが複合であってもnullの等しい部分を想定してテストを構築することにより、nullがtrueである条件に対して最大でであるタイプIエラーの確率を持つようにテストを設計しています。α


私が紹介したタイプミスでごめんなさい(\leqTeXで読むべきです)!
chl

1
「P値はランダム変数」という記事は本当に興味深いです。記事に記載されている原則を順守する入門書はありますか?
アレッサンドロジャコプソン

8
質問に私が投稿したコメントにもかかわらず、私は結論が特別な場合を除いて真実ではないことに気づきました。この問題は、などの複合仮説で発生します。「帰無仮説は真」は、ような多くの可能性をカバーしています。このような場合、p値は均一に分布しません。帰無仮説のどの要素が保持されても、p値の分布がほぼ均一にならない(ある程度人工的な)状況を作り出すことができると思います。μ 1 = μ 2 - 10 6μ1μ2μ1=μ2106
whuber

1
@Greg Snow:p値の分布は常に均一ではなく、連続分布から計算される場合は均一ですが、離散分布から計算される場合は均一ではないと思います

1
上記の回答を拡張して、@ whuberによるコメントに対処しました。
グレッグスノー

26

帰無仮説では、検定統計量は分布(たとえば、標準正規分布持ちます。p値に確率分布がある ことを示します 言い換えれば、均一に分布されています。これは、が可逆である限り保持されます。その必要条件は、が離散確率変数ではないことです。TF(t)P=F(T)

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
PF()T

この結果は一般的です。ランダム変数の可逆CDFの分布は均一です。[0,1]


8
最後のコメントを言い換えたいと思うかもしれませんが、これは少しわかりにくいです。連続CDFには必ずしも(適切な)逆関数があるとは限りません。(反例を考えることができますか?)したがって、証拠を保持するには追加の条件が必要です。これを回避する標準的な方法は、疑似逆を定義することです。引数もより微妙になります。F(y)=inf{x:F(x)y}
枢機

1
一般化された逆関数の操作については、link.springer.com / article / 10.1007%2Fs00186-013-0436-7を参照してください(特に、F(T)は、Fが連続している場合にのみ均一です-Fが反転可能かどうかは関係ありませんない)。p値の定義に関して:それは常に「F(T)」だとは思わない。これは、観測値よりも極端な値をとる確率(nullの下)であるため、生存関数(ここでは正確に言えば)である可能性もあります。
マリウス・ホファート

はCDFではありませんか?F(t)
-zyxue

@zyxueはい、cdfは「配布」と呼ばれることもあります。
mikario

6

ましょう累積分布関数と確率変数を表すすべてのため。が可逆であると仮定すると、次のようにランダムなp値分布を導出できます。TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

の分布は均一であると結論付けることができます。[ 0 1 ]P[0,1]

この答えはチャーリーと似ていますが、を定義する必要がありません。t=F1(p)


Fを定義したように、P = F(T)= Pr(T <T)= 0ではありませんか?
TrynnaDoStat

正確ではありませんが、の「構文の置換」はやや誤解を招く可能性があります。正式に言えば、はF T F T ω = F T ω = Pr T < T ω F(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII

4

2つの独立変数間の線形回帰の場合のp値の分布の簡単なシミュレーション:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform

7
これが質問にどのように答えるかについて詳しく説明していただけますか?その出力はアサーションの特別な場合を示していますが、コードの量は、なぜかという疑問に対処することができません。追加の説明が必要です。
whuber

-1

これらの答えのほとんどは、実際に一般的な質問に答えるとは思わない。単純な帰無仮説が存在し、検定統計量に可逆CDFがある場合(CDFが厳密に増加する連続ランダム変数など)に制限されます。これらのケースは、ほとんどの人がz検定とt検定で気にする傾向があるケースですが、二項平均をテストする場合(たとえば)、CDFはありません。上記の内容は、これらの制限されたケースでは私の目には正しいようです。

帰無仮説が合成の場合、物事はもう少し複雑です。拒否領域に関するいくつかの仮定を使用した複合事例で私が見たこの事実の最も一般的な証拠は、Lehmann and Romanoの「Testing Statisitical Hypotheses」63-64ページで提供されています。私は以下の議論を再現しようとします...

検定変数に基づいて、帰無仮説と対立仮説を検定します。これを確率変数として示します。検定統計量は、あるパラメトリッククラス、つまりに由来すると想定されます。ここで、は確率分布のファミリーの要素です、およびはパラメータ空間です。帰無仮説および仮説は、 のパーティションを形成しH0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
ここで、
Θ0Θ1=.

テストの結果は、 でれます。ここで、任意のセットに対して、 ここで、は有意水準であり、は有意水準検定の棄却域を示します。

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

場合、棄却領域が満たすと仮定し ます。ネストされた棄却領域のこの場合、帰無仮説が特定の有意水準で棄却されるかどうかを決定するだけでなく、帰無仮説が棄却される最小の有意水準を決定することも役立ちます。このレベルはp値として知られており、 この数値はデータ(検定統計量)が帰無仮説と矛盾する。

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

その仮定いくつかのためにとその。さらに、拒否領域上記のネストプロパティに従うと仮定します。その後、次のことが成り立ちます。XPθθΘH0:θΘ0Rα

  1. もしすべてについて、その後のための、 supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. 用する場合我々有するすべてについて、次いでため我々は θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

この最初のプロパティは、p値がより小さい場合に拒否することにより、偽陽性率がで制御されることを示し、2番目のプロパティは、n値の下でp値が均一に分布することを示します仮説。uu

証拠は次のとおりです。

  1. ましょう 、そして想定すべてについて。その後の定義によって、私たちはしているすべてのため。単調性と仮定により、すべてのに対してとなる。せる、それが追従する。θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. ましょう、その仮定すべてについて。それから、そして単調性により。(1)を考慮すると、ます。 θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

帰無仮説が合成ではなく単純であっても、検定統計量が離散的な場合、(2)の仮定は成り立たないことに注意してください。たとえば、とおよびます。すなわち、コインを10回裏返し、それが公平であるか頭に向かって偏っているか(1としてエンコードされているか)をテストします。10回のフェアコインフリップで10個のヘッドが表示される確率は、(1/2)^ 10 = 1/1024です。10回のフェアコインフリップで9または10のヘッドが見られる確率は11/1024です。任意のために場合は厳密に1/1024と1024分の11の間に、あなたはヌルを拒否したい、私たちが持っていないことのそれらの値のために時XBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5。代わり例えばための。 Pr(XRα)=1/1024α


レーマンとロマーノで提供されている一般性は、一般的な拒否地域に関するものであることを明確にする必要があります。それでも、複合ヌルと非連続テスト統計の「有効な」p値しかありません。
アダム

-12

p値がH0の下で均一に分布している場合、.05のp値が.80のp値と同じくらい見られる可能性がありますが、p-これは、p値が取得される正規分布の定義であるため、.80のp値よりも.05の値になります。定義により、通常の範囲内にあるサンプルは、その範囲外よりも多くなります。したがって、小さな値よりも大きなp値を見つける可能性が高くなります。


3
-1。これは完全に間違っています。誰がこれを支持したのだろうか。点H0の下のP値は均一に分布しています。
アメーバ

1
-1。これは間違っていると呼ばれるほど意味がありません。「正規性の範囲」は無意味であり、p値は本来、正規分布とは何の関係もありません。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.