仮説検定でのp値の解釈


36

私は最近、「ヌル仮説の有意性試験の無意味」という論文、ジェフ・ギル(1999)に出会いました。著者は、仮説検定とp値に関するいくつかの一般的な誤解を提起しました。

  1. p値は技術的にはであり、論文で指摘されているように、一般にについては何も教えません。 「日常的な」仮説検定ではめったにないような、限界分布を知っている場合を除きます。小さなp値を取得し、「帰無仮説を拒否」すると、について何も言えないので、作成している確率論的ステートメントは正確に何ですか?P H 0 | o b s e r v a t i o nP H 0 | o b s e r v a t i o nPobservaton|H0PH0|observatonPH0|observaton
  2. 2番目の質問は、論文の6ページ(652)からの特定の声明に関するものです。

p値、または星で示されるp値の範囲はアプリオリに設定されていないため、タイプIエラーを引き起こす長期的な確率ではありませんが、通常はそのように扱われます。

誰でもこの声明の意味を説明できますか?


論文を参照するためのTY
Ludovic Kuty

@ezbentley:多分私の答えでllokを取ることは興味深いです:stats.stackexchange.com/questions/166323/...

回答:


33

(技術的には、P値は、帰無仮説を前提として、少なくとも実際に観測されたデータと同じくらい極端なデータを観測する確率です。)

Q1。小さなP値に基づいて帰無仮説を棄却する決定は、通常、「フィッシャーの分離」に依存します。まれなイベントが発生したか、帰無仮説が偽であるかのいずれかです。実際、nullが偽である確率ではなく、P値が示すのはイベントの希少性です。

ヌルが偽である確率は、実験データからベイズの定理によってのみ取得できます。これは、ヌル仮説の「事前」確率の指定を必要とします(ギルが「周辺分布」と呼ぶもの)。

Q2。あなたの質問のこの部分は、見た目よりもずっと難しいです。P値とエラー率に関しては、多くの混乱があります。これは、ギルが「通常はそのように扱われる」と言っていることです。フィッシャーのP値とネイマンピアソニアンのエラー率の組み合わせは、インコヒーレントミッシュマッシュと呼ばれ、残念ながら非常に広く普及しています。ここでは完全に適切な短い答えはありませんが、いくつかの優れた論文を指摘できます(はい、1つは私のものです)。どちらもギル紙の意味を理解するのに役立ちます。

Hurlbert、S.、およびLombardi、C.(2009)。ネイマン・ピアソンの決定理論的枠組みの最終的な崩壊とneoFisherianの台頭。Annales Zoologici Fennici、46(5)、311–349。(論文へのリンク)

ルー、MJ(2012)。薬理学(およびその他の基本的な生物医学の分野)における悪い統計的実践:あなたはおそらくP. British Journal of Pharmacology、166(5)、1559–1567を知らないでしょう。doi:10.1111 / j.1476-5381.2012.01931.x (論文へのリンク)


説明をありがとう。次のような発言は技術的に間違ってい"the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"ますか?混乱の原因は、nullが「拒否された」と言ったときに、null仮説に対して実際の確率論的主張がなされていないことにあるようです。

2
@ezbentley、それは本当にあなたが意味するものに依存します。この言葉は、フィッシャーとネイマンとピアソンのハイブリッドによって汚染されているため、ほとんどのコンテキストではあまり意味がありません。非常に小さなP値を取得した場合、真の平均はおそらくゼロではないと言うのは妥当ですが、観測された平均が何であるかを言い、その変動性(SEMまたは信頼区間)を示すことが重要です。サンプルサイズが何であるかを言うのを忘れます。P値は、観察された効果サイズの指定の代替ではありません。
マイケルルー

ご説明ありがとうございます。FisherとNeyman-Pearsonのパラダイムをより深く掘り下げる必要があります。

@マイケル・ルー:私の答えを見てみると面白いかもしれません:stats.stackexchange.com/questions/166323/…–

第1四半期のあなたの段落は、おそらくこれまで見てきた問題の最良の説明です。ありがとうございました。
マキシム.K

22

良い答えを提供してくれた@MichaelLewへの+1。おそらく、第2四半期についての考え方を提供することで、まだ貢献できるでしょう。次の状況を考慮してください。

  • p
  • α0.05
  • p0.01

pp0.02p0.049¯pα

p


1
仮説H_0 = 0が実際に真実であると信じることが非常に難しいフィールド(epi)で作業する場合、この点は見落とされ、より多くの注目に値すると思います。
boscovich

1
α

1
+1。ただし、n値がfalseの場合、P値の意味が不明確であるという提案は誤解を招きます。P値が小さいほど、ヌルと観測値の不一致が大きくなります。サンプルサイズが大きいほど、実際の効果サイズは観測された効果サイズに近いと見なすことができます。有意性検定は推定に類似していることに注意してください。
マイケルルー

3
@ MichaelLew、p値がこれらのことを単独で意味するかどうかはわかりません。結合w / N(具体的には、Nを一定に保持)では、pが小さいほど、n&が観測される大きな不一致b / tに対応します。それでも、それはpが意味するものではなく、pから推測できるものです。また、N個の観測されたエフェクトサイズを大きくすると、真のESに近くなるはずですが、pがどのような役割を果たしているのかはわかりません。EG、偽のヌル、真の効果はまだ非常に小さい可能性があり、また、Nは観測されたESが近いと予想されるが、pは依然として大きい可能性がある。
GUNG -復活モニカ

1
...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"α

8

「帰無仮説の有意性検定の重要性」に関連するコメントをしたいのですが、OPの質問には答えていません。

pH0H0{θ=0}θ=ϵϵϵ0ϵ0


3
+1はい、従来の仮説検定の本当の問題は、「有意差の証拠はありますか?」ではなく、「違いの有意な証拠はありますか?」ではなく、答えに本当に興味がないという質問に答えることです。 「。もちろん、本当に望まれているのは一般に「私の研究仮説が真実である確率はどれくらいですか?」ですが、これは頻繁なフレームワーク内で答えることができません。誤解は、一般に、ベイジアン用語での頻繁なテストを扱う試みから生じます。
ディクラン有袋類

1
P値とサンプルサイズの意味を分けるのは得策ではありません。P値が小さいほど、特定のサンプルサイズで効果サイズが大きくなり、特定のP値では、サンプルサイズが大きいほど、実際の効果サイズがおそらく観察された効果サイズに近いことを示します。有意性テストは、エラーではなく推定のコンテキストで検討する必要があります。サンプルが大きくなると、常により多くの情報が得られます。サンプルの解釈方法は実験者次第です。大きなサンプルの無視できる効果の苦情は、Neyman-Pearsonian仮説検定の問題です。
マイケルルー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.