p値の2つの定義:それらの等価性をどのように証明するか?


11

私はLarry Wassermanの本、All of Statisticsを読んでいますが、現在はp値(187ページ)について読んでいます。最初にいくつかの定義を紹介しましょう(引用します):

定義1拒絶領域を有する試験のパワー関数によって定義される 試験のサイズがあると定義される テストのサイズが\ alpha以下の場合、テストはレベル\ alphaであると言います。R

β(θ)=Pθ(XR)
α=supθΘ0β(θ)
αα

これは基本的にαであり、サイズはタイプIのエラーの「最大の」確率であることを示しますp値は(I quote)によって定義されます

定義2すべてのα(0,1)に対して、棄却領域R_ \ alphaを持つサイズαテストがあると仮定します。次に、 p \ text {-value} = \ inf \ {\ alpha:T(X ^ n)\ in R_ \ alpha \} where X ^ n =(X_1、\ dots、X_n)です。Rα

p-value=inf{α:T(Xn)Rα}
Xn=(X1,,Xn)

私にとってこれは意味します:特定のαが与えられると、テストとリジェクション領域Rαがあり、α=supθΘ0(α)Pθ(T(Xn)Rα)p値については、これらすべての\ alphaの最小値をとりαます。

質問1これが当てはまる場合、任意に小さい\ epsilonに対してα=ϵを明確に選択できます。定義2の誤った解釈とは何ですか。つまり、正確にはどういう意味ですかϵ

現在、Wassermanは連続的であり、私がよく知っているp値の「同等の」定義を持つ定理を述べています(引用します)。

定理サイズがという形式で あると仮定すると 、 ここで、は観測値です。α

reject H0T(Xn)cα
p-value=supθΘ0Pθ(T(Xn)T(xn))
xnXn

だからここに私の2番目の質問があります:

質問2この定理を実際にどのように証明できますか?多分それは値の定義についての私の誤解によるかもしれませんが、私はそれを理解することができません。p


4
それは積極的だ奇妙なワッサーマンが定義すること「として象徴するので、」ほぼ普遍的(すなわち、電力= 1-タイプIIエラーレートのために使用されているほぼすべての他の著者議論電源用)。意図的に意図的にそれを引き起こすことを除いて、さらに悪い混乱を引き起こすことができる表記法の選択を想像するのは難しいと思います。βββ
Glen_b-2015

1
グレン-奇妙なことに同意します。ただし、カゼラとバーガーは同じことを行い、私の意見では、それらのテキストは統計理論のゴールドスタンダードです。
Matt Brems、2015年

回答:


6

未知のパラメーター持つ分布からされたいくつかの多変量データあります。はサンプルの結果であることに注意してください。xDθx

未知のパラメーターに関するいくつかの仮説をテストしたいと思います。帰無仮説の下のの値は、セットます。θθθ0

空間に、我々は拒絶領域を定義することができる、そしてこの領域の力次にように定義される。電源がそのように計算される特定の値のためにサンプル結果確率として拒絶領域にあるの値場合である。明らかに、パワーは領域と選択された依存し。XRRPθ¯R=Pθ¯(xR)θ¯θxR θθ¯Rθ¯

定義1つの定義領域の大きさRのすべての値のsupremumとして用でので、唯一の値に対して。明らかにこれは地域に依存するため、です。Pθ¯Rθ¯θ0θ¯H0αR=supθ¯θ0Pθ¯R

に依存際に地域の変更我々は別の値を持っており、これはp値を定義するための基礎である:地域を変更するが、サンプルの観測値は静止領域に属しているように、用そのような各領域は、計算上記で定義したとinfimumを取る:。したがって、p値はを含むすべての領域の最小サイズですαRRαRpv(x)=infR|xRαRx

この定理は、その「翻訳」にすぎません。つまり、領域が統計値を使用して定義され、値に対して領域をとして定義する場合です。上記の推論でこのタイプの領域を使用する場合、定理は次のようになります。RTcRR={x|T(x)c}R

コメントのために編集:

@ user8:定理; 定理のように拒絶領域を定義すると、サイズ拒絶領域はようなセットになります(一部の。αRα={X|T(X)cα}cα

観測値のp値、つまりを見つけるには、最小領域、つまりようなの最大値を見つける必要がありますまだが含まれていますが、後者(領域にはが含まれています)は(領域の定義方法により)と同じであるため、最大の、このようなxpv(x)Rc{X|T(X)c} xxcT(x)c{X|T(X)c&cT(x)}

明らかに、がなるような最大のあり、上記のセットはccT(x)c=T(x){X|T(X)c=T(x)}={X|T(X)T(x)}


回答ありがとうございます。定理の検証に関する質問:どういうわけかが欠落していませんか?infα
数学

@ user8:私は私の回答の最後に段落を追加しました。

7

定義2では、検定統計量の値はすべての最大の下限であり、サイズ検定では仮説が棄却されます。を小さくするほど、許容されるタイプIエラーの許容範囲が狭くなることを思い出してください。したがって、拒否領域も減少します。したがって、(非常に)非公式に言えば、値は選択した最小のであり、観測したデータのを拒否できます。ある時点でため、任意に小さい選択することはできません。pαααRαpαH0αRα 非常に小さいため、観察したイベントが除外されます(つまり、含まれなくなります)。

さて、以上を踏まえて、定理の再検討をお願いします。


まだ少し混乱しています。したがって、最初に、定義では、すべてのについて統計固定されていますか?私はあなたの声明に同意しません:「...ある時点で、は非常に小さくなり、私たちが観察したイベントを除外(つまり、含まれなくなる)します。」が小さすぎて観測されたサンプルが含まれていない場合は、完全に問題なく、を拒否し。これの問題は何ですか?助けてくれてありがとう/忍耐2TαRαRαH0
数学

はい。検定統計量は、サンプルのあらかじめ決められた固定関数です。この意味で「固定」とは、関数の形式がに対して変化しないことを意味します。それが取る値は、サンプルに依存する場合があります(また、そうする必要があります)。「拒否しません」というステートメントは、不一致が正しくない理由を明らかにします。 定義により、は、テスト統計がnullの拒否につながるすべての値のセットを構成します。これが、とラベル付けされている理由です。回答の更新を投稿して、さらに詳しく説明します。TαH0RαR
heropup

迅速な回答と、更新されたバージョンを事前に感謝します。私が意味したことは次のです場合、を拒否します。ここで、は観測されたサンプルです。私は非常に極端だと言い、非常に小さく選択します。これにより、指定されたサンプルに対して、を拒否しないことを意味し。つまり、小さなはアプリオリな悪いことではありません。明らかに、ある時点では非常に小さいため、属するサンプルを観察することはほとんどありません。もう一度、あなたの忍耐/助けに感謝します。本当に感謝!H0T(xn)RαxnRαT(xn)RαH0RαRα
数学

2
与えられたp値の定義では、サンプルが棄却域にあるための検定統計量が明示的に必要です。p値の定義のその部分を自由に変更することはできません。
Glen_b-2015

@Glen_bコメントありがとうございます。確かに、私の以前のコメントは定義に違反しています。指摘してくれてありがとう。
数学
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.