p値はいつ欺くのですか?


14

p値が統計的有意性を判断する最善の方法ではない場合、注意すべきデータ条件は何ですか?このカテゴリに分類される特定の問題タイプはありますか?


2
意地悪な答え:ほとんど常に。アナリストがデータを検査するときに、タイプ1エラー(つまり、「誤ったアラーム」)を作成する大きな動機があります。そのため、遭遇するp値のほとんどが「小さすぎます」。
statsRus

7
ただそこに投げるだけですが、この種の質問はCross Validatedで提起するのがベストではないでしょうか?
ブルザエモン

1
@buruzaemon:たぶん。私は検索を行いました。これは最も近い一致です:stats.stackexchange.com/questions/67320/… これに触れる質問はほんの一握り以上ではないようです。
アレックスI

回答:


9

データDrについて質問しています。これは、データセットに対して非常に多くの仮説をテストするとき、または同じデータによって提案されたデータセットに対して仮説をテストするときに起こることです。

特に、多重仮説ハザード、およびデータが示唆する仮説の検証をチェックしてください。

解決策は、Schefféの方法や(非常に古い学校の)Bonferroni修正など、False Discovery またはFamilywiseエラー率に対して何らかの修正を使用することです。

多少厳密ではない方法で、各統計結果のオッズ比(OR)の信頼区間で発見をフィルタリングするのに役立つ場合があります。オッズ比の99%信頼区間が10-12である場合、特にサンプルサイズも大きい場合、ORは<= 1で、確率は非常に小さくなります。このようなものを見つけた場合、それは何百万もの仮説のテストから出たとしても、おそらく強い効果です。


1
ボンフェローニは間違いなくオールドスクールですが、まだかなり人気があります。これに関連するのは、シダック修正(en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction)と呼ばれるメソッドです。私が取り組んだ広告システムを対象とした大規模なターゲットでは、このアプローチをHiveのUDFとして実装できたためです。ただし、これはテスト間に独立性がある場合にのみ機能します。そうでない場合は、Bonferroniまたは別の方法にフォールバックする必要があります。
クリスシモカット

5

コンテキストの外でp値を考慮するべきではありません。

xkcdで示されている)かなり基本的な点の1つは、実際に実行しているテストの数を考慮する必要があるということです。明らかに、帰無仮説が毎回真であっても、20回のテストのうち1回でp <0.05を見ることにショックを受けるべきではありません。

この微妙な例は、高エネルギー物理学で発生し、look-elsewhere効果として知られています。新しい粒子を表す可能性のある信号を検索するパラメーター空間が大きいほど、実際にはランダムな変動に起因する明らかな信号が表示される可能性が高くなります。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.