p値は確率変数です。
下で(少なくとも連続分布統計のため)、p値は一様な分布を有するべきですH0
一貫性のあるテストでは、サンプルサイズが無限大に近づくにつれて、の下でp値が限界で0になります。同様に、効果のサイズが大きくなると、p値の分布も0にシフトする傾向がありますが、常に「広がり」ます。H1
「真の」p値の概念は、私にとってナンセンスのように聞こえます。またはH 1の下で、それはどういう意味ですか?たとえば、「特定のエフェクトサイズとサンプルサイズでのp値の分布の平均」を意味すると言うかもしれませんが、スプレッドはどのような意味で収束するのでしょうか?サンプルサイズを一定に保ちながらサイズを増やすことができるというわけではありません。H0H1
以下に、1つのサンプルt検定と下の小さな効果サイズの例を示します。サンプルサイズが小さい場合、p値はほぼ均一であり、サンプルサイズが大きくなると分布はゆっくりと0に向かって集中します。H1
これは、p値の動作方法とまったく同じです。falsenullの場合、サンプルサイズが大きくなると、p値は低い値でより集中するはずですが、タイプIIエラーを作成します-p値が有意水準を超えている場合-どういうわけか、その有意水準に「近く」なるはずです。
α = 0.05
代替案の下で使用するテスト統計の分布と、nullの下でcdfを適用する変換の両方で何が起こっているのかを考えると、しばしば役に立ちます(それにより、p値の分布が特定の代替)。これらの用語で考えるとき、その振る舞いがそのままである理由を理解することはしばしば難しくありません。
私が見る問題は、p値または仮説検定に固有の問題があるということではなく、仮説検定があなたの特定の問題に適したツールであるか、他のものがより適切であるかどうかのケースです特定の場合-それは広範論争の状況ではなく、仮説テストが対処する種類の質問とあなたの状況の特定のニーズを慎重に検討することの1つです。残念ながら、これらの問題を慎重に検討することはめったにありません。「これらのデータにどのテストを使用するのか」という形式の質問が表示されることがよくあります。関心のある質問が何であるかを考慮せずに、仮説テストがそれに対処する良い方法であるかどうかは言うまでもありません。
難点の1つは、仮説検定が広く誤解され、広く誤用されていることです。人々はしばしば、そうではないことを教えてくれると考えます。p値は、仮説検定に関して最も誤解されやすいものです。