p値が統計的有意性を判断する最善の方法ではない場合、注意すべきデータ条件は何ですか?このカテゴリに分類される特定の問題タイプはありますか?
p値が統計的有意性を判断する最善の方法ではない場合、注意すべきデータ条件は何ですか?このカテゴリに分類される特定の問題タイプはありますか?
回答:
データDrについて質問しています。これは、データセットに対して非常に多くの仮説をテストするとき、または同じデータによって提案されたデータセットに対して仮説をテストするときに起こることです。
特に、多重仮説ハザード、およびデータが示唆する仮説の検証をチェックしてください。
解決策は、Schefféの方法や(非常に古い学校の)Bonferroni修正など、False Discovery 率またはFamilywiseエラー率に対して何らかの修正を使用することです。
多少厳密ではない方法で、各統計結果のオッズ比(OR)の信頼区間で発見をフィルタリングするのに役立つ場合があります。オッズ比の99%信頼区間が10-12である場合、特にサンプルサイズも大きい場合、ORは<= 1で、確率は非常に小さくなります。このようなものを見つけた場合、それは何百万もの仮説のテストから出たとしても、おそらく強い効果です。
コンテキストの外でp値を考慮するべきではありません。
(xkcdで示されている)かなり基本的な点の1つは、実際に実行しているテストの数を考慮する必要があるということです。明らかに、帰無仮説が毎回真であっても、20回のテストのうち1回でp <0.05を見ることにショックを受けるべきではありません。
この微妙な例は、高エネルギー物理学で発生し、look-elsewhere効果として知られています。新しい粒子を表す可能性のある信号を検索するパラメーター空間が大きいほど、実際にはランダムな変動に起因する明らかな信号が表示される可能性が高くなります。
知っておくべきことの1つは、使用しているサンプルサイズです。国勢調査データを使用するエコノミストなどの非常に大きなサンプルは、p値の収縮につながります。このペーパー「失敗するには大きすぎる:大量のサンプルとp値の問題」では、いくつかの問題について説明しています。