最近、私はKlammerらによる論文で発見しました。p値を均一に分布させる必要があるというステートメント。著者を信じていますが、なぜそうなのか理解できません。
Klammer、AA、Park、CY、およびStafford Noble、W。(2009)SEQUEST XCorr関数の統計的キャリブレーション。プロテオームリサーチジャーナル。8(4):2106–2113。
最近、私はKlammerらによる論文で発見しました。p値を均一に分布させる必要があるというステートメント。著者を信じていますが、なぜそうなのか理解できません。
Klammer、AA、Park、CY、およびStafford Noble、W。(2009)SEQUEST XCorr関数の統計的キャリブレーション。プロテオームリサーチジャーナル。8(4):2106–2113。
回答:
少し明確にするために。帰無仮説が真であり、他のすべての仮定が満たされている場合、p値は均一に分布します。この理由は、実際には、タイプIエラーの確率としてのアルファの定義です。真の帰無仮説を棄却する確率はアルファであり、観測された場合は棄却しこれは、alphaの値に対してこれが起こる唯一の方法は、p値が一様分布。正しい分布(正規、t、f、chisqなど)を使用する全体のポイントは、検定統計量から均一なp値に変換することです。帰無仮説が偽である場合、p値の分布は(できれば)0に向かってより重み付けされます。
R のTeachingDemosパッケージのPvalue.norm.sim
およびPvalue.binom.sim
関数は、いくつかのデータセットをシミュレートし、p値を計算してプロットし、このアイデアを示します。
参照:
マードック、D、ツァイ、Y、およびアドコック、J(2008)。P値はランダム変数です。アメリカの統計学者、62、242-245。
詳細については。
人々はまだこの回答を読んでコメントしているので、@ whuberのコメントに対処すると思いました。
ような複合帰無仮説を使用する場合、2つの平均が正確に等しい場合にのみp値が均一に分布し、が以下の値の場合は均一ではないことはです。。これは、関数を使用して、片側テストを行うように設定し、シミュレーションと異なる手段でシミュレーションすることで簡単に確認できます(ただし、nullをtrueにする方向)。μ 1 μ 2Pvalue.norm.sim
統計理論に関する限り、これは重要ではありません。私があなたの家族のすべてのメンバーより背が高いと主張した場合、この主張をテストする1つの方法は、私の身長とあなたの家族の各メンバーの身長を一度に1つずつ比較することです。別の選択肢は、最も背が高いあなたの家族のメンバーを見つけて、私の身長と比較することです。私がその人より背が高い場合、私は他の人よりも背が高く、私の主張は真実です。私がその人より背が高くなければ、私の主張は偽です。複合ヌルのテストと同様のプロセスとして見ることができるのではなく、すべての可能な組み合わせの試験我々は拒否することができる場合ので、私たちは平等の一部をテストすることができますに賛成μ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1つのμ 2つの αそして、すべての可能性を拒否することもできます。場合のp値の分布を見ると、分布は完全に均一ではありませんが、0よりも1に近い値を持つことになります。つまり、タイプIエラーの確率は選択した値により、保守的なテストになります。がに近づくと、ユニフォームが制限分布になり(stat-theoryの用語でより最新の人々は、おそらく分布の上限またはそのようなものに関してこれをよりよく述べることができるでしょう)。したがって、nullが複合であってもnullの等しい部分を想定してテストを構築することにより、nullがtrueである条件に対して最大でであるタイプIエラーの確率を持つようにテストを設計しています。
\leq
TeXで読むべきです)!
帰無仮説では、検定統計量は分布(たとえば、標準正規分布持ちます。p値に確率分布がある ことを示します 言い換えれば、均一に分布されています。これは、が可逆である限り保持されます。その必要条件は、が離散確率変数ではないことです。
この結果は一般的です。ランダム変数の可逆CDFの分布は均一です。
ましょう累積分布関数と確率変数を表すすべてのため。が可逆であると仮定すると、次のようにランダムなp値分布を導出できます。
の分布は均一であると結論付けることができます。[ 0 、1 ]
この答えはチャーリーと似ていますが、を定義する必要がありません。
2つの独立変数間の線形回帰の場合のp値の分布の簡単なシミュレーション:
# estimated model is: y = a0 + a1*x + e
obs<-100 # obs in each single regression
Nloops<-1000 # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments
for(i in seq_along(output)){
x<-rnorm(obs)
y<-rnorm(obs)
# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1
if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed
}
plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform
これらの答えのほとんどは、実際に一般的な質問に答えるとは思わない。単純な帰無仮説が存在し、検定統計量に可逆CDFがある場合(CDFが厳密に増加する連続ランダム変数など)に制限されます。これらのケースは、ほとんどの人がz検定とt検定で気にする傾向があるケースですが、二項平均をテストする場合(たとえば)、CDFはありません。上記の内容は、これらの制限されたケースでは私の目には正しいようです。
帰無仮説が合成の場合、物事はもう少し複雑です。拒否領域に関するいくつかの仮定を使用した複合事例で私が見たこの事実の最も一般的な証拠は、Lehmann and Romanoの「Testing Statisitical Hypotheses」63-64ページで提供されています。私は以下の議論を再現しようとします...
検定変数に基づいて、帰無仮説と対立仮説を検定します。これを確率変数として示します。検定統計量は、あるパラメトリッククラス、つまりに由来すると想定されます。ここで、は確率分布のファミリーの要素です、およびはパラメータ空間です。帰無仮説および仮説は、
のパーティションを形成し
テストの結果は、
でれます。ここで、任意のセットに対して、
ここで、は有意水準であり、は有意水準検定の棄却域を示します。
場合、棄却領域が満たすと仮定し
ます。ネストされた棄却領域のこの場合、帰無仮説が特定の有意水準で棄却されるかどうかを決定するだけでなく、帰無仮説が棄却される最小の有意水準を決定することも役立ちます。このレベルはp値として知られており、
この数値はデータ(検定統計量)が帰無仮説と矛盾する。
その仮定いくつかのためにとその。さらに、拒否領域上記のネストプロパティに従うと仮定します。その後、次のことが成り立ちます。
もしすべてについて、その後のための、
用する場合我々有するすべてについて、次いでため我々は
この最初のプロパティは、p値がより小さい場合に拒否することにより、偽陽性率がで制御されることを示し、2番目のプロパティは、n値の下でp値が均一に分布することを示します仮説。
証拠は次のとおりです。
ましょう 、そして想定すべてについて。その後の定義によって、私たちはしているすべてのため。単調性と仮定により、すべてのに対してとなる。せる、それが追従する。
ましょう、その仮定すべてについて。それから、そして単調性により。(1)を考慮すると、ます。
帰無仮説が合成ではなく単純であっても、検定統計量が離散的な場合、(2)の仮定は成り立たないことに注意してください。たとえば、とおよびます。すなわち、コインを10回裏返し、それが公平であるか頭に向かって偏っているか(1としてエンコードされているか)をテストします。10回のフェアコインフリップで10個のヘッドが表示される確率は、(1/2)^ 10 = 1/1024です。10回のフェアコインフリップで9または10のヘッドが見られる確率は11/1024です。任意のために場合は厳密に1/1024と1024分の11の間に、あなたはヌルを拒否したい、私たちが持っていないことのそれらの値のために時。代わり例えばための。
p値がH0の下で均一に分布している場合、.05のp値が.80のp値と同じくらい見られる可能性がありますが、p-これは、p値が取得される正規分布の定義であるため、.80のp値よりも.05の値になります。定義により、通常の範囲内にあるサンプルは、その範囲外よりも多くなります。したがって、小さな値よりも大きなp値を見つける可能性が高くなります。