統計的検定への最も普及しているアプローチは、フィッシャーのアプローチとネイマン・ピアソンのアプローチの2つのアプローチの「ハイブリッド」であるという考え方があります。主張によれば、これらの2つのアプローチは「互換性がない」ため、結果の「ハイブリッド」は「一貫性のないミッシュマッシュ」です。以下に参考文献といくつかの引用を提供しますが、現時点では、統計的仮説検定に関するウィキペディアの記事にそれについて多くのことが書かれていると言って十分です。CVでは、@ Michael Lewがこの点を繰り返し述べています(こちらとこちらをご覧ください)。
私の質問は次のとおりです。なぜFとNPのアプローチは互換性がないと主張され、ハイブリッドは一貫性がないと主張されるのですか?少なくとも6つのアンチハイブリッドペーパー(下記を参照)を読みましたが、それでも問題や議論を理解できないことに注意してください。また、FまたはNPがより良いアプローチであるかどうかを議論することを提案していないことに注意してください。頻度主義者対ベイジアンの枠組みについて議論することも申し出ていません。代わりに、問題は次のとおりです。FとNPの両方が有効で意味のあるアプローチであることを受け入れると、ハイブリッドのどこが悪いのでしょうか。
ここに私が状況を理解する方法があります。フィッシャーのアプローチは、値を計算し、それを帰無仮説に対する証拠とすることです。小さいほど、証拠を確信させることができます。研究者は、この証拠を彼の背景知識と組み合わせ、それが十分に説得力があるかどうかを判断し、それに応じて進むことになっています。(フィッシャーの見解は長年にわたって変化したが、これは彼が最終的に収束したように見えることに注意してください。)対照的に、Neyman-Pearsonアプローチは事前にを選択し、をチェックすることですP αのp個の≤のα; もしそうなら、それを重要と呼び、帰無仮説を拒否します(ここでは、現在の議論に関係のないNPストーリーの大部分を省略します)。FisherとNeyman-Pearsonのフレームワークを使用するタイミングは?の @gungによる優れた返信も参照してください。
ハイブリッドアプローチは、値を計算し、それを報告し(暗黙的に小さい方が良いと仮定して)、場合は有意な結果(通常は)、それ以外の場合は有意でない結果も呼び出します。これは一貫性のないことになっています。2つの有効なことを同時に行うのはどうして無効なのでしょうか。のp ≤のαのα = 0.05
特に一貫性のない反ハイブリッド主義者は、値を、、または(または)として報告する広範な慣行を、常に最も強い不平等が選択されるとます。議論は、(a)正確なが報告されないため、証拠の強度を適切に評価できないこと、および(b)不等式の右辺の数をとして解釈し、それをタイプIエラーと見なす傾向があると思われるレート、それは間違っています。ここで大きな問題は見当たりません。第一に、正確な報告することは確かに良い習慣ですが、が例えばか、、P < 0.05 、P < 0.01 、P < 0.001 のp « 0.0001 のp α のp のp 0.02 0.03 〜0.0001 0.05 α = 0.05 、P ≠ α αなので、ログスケールで丸めてもそれほど悪くありません(そしてを下回ることは意味がありません。小さなp値を報告する方法を参照してください)。第二に、コンセンサスが未満のすべてを有意と呼ぶ場合、エラー率はおよびになります。@ gungは仮説検定でのp値の解釈で説明しています。これは混乱を招く可能性のある問題ですが、統計テスト(ハイブリッド以外)の他の問題よりも混乱させることはありません。また、すべての読者は、ハイブリッドペーパーを読むときに自分のお気に入りのを念頭に置くことができ、その結果として自分のエラー率を知ることができます。それで、大したことは何ですか?
私がこの質問をしたい理由の1つは、統計仮説検定に関するウィキペディアの記事のどれだけがハイブリッドの暴行に当てられているかを見るのが文字通り痛いからです。ハルピン&スタムに続いて、それが(そこに彼の教科書のも、大きなスキャンが黄色でハイライト「エラー」である)、そしてもちろんAA一定リンドクイストは責任があると主張リンドクイスト自分自身についてのwikiの記事が同じ告発で始まります。しかし、その後、多分私は何かを見逃しています。
参照資料
Gigerenzer、1993年、超自我、自我、および統計的推論のidは - 「ハイブリッド」という用語を導入し、「支離滅裂寄せ集め」と呼びました
- Gigerenzer et al。による最近の説明も参照してください。たとえば、Mindless statistics(2004)およびThe Null Ritual。有意性テストについて常に知りたいが、尋ねるのが怖かったもの(2004)。
Cohen、1994、The Earth Is Round() - ほぼ3千件の引用を含む非常に人気のある論文で、主に異なる問題についてですが、Gigerenzerを好んで引用しています
グッドマン、1999、エビデンスに基づく医療統計に向けて。1:P値の誤り
Hubbard&Bayarri、2003、古典的な統計的検定における証拠の尺度()対エラー()の混乱α - 「ハイブリッド」に反対するより雄弁な論文の1つ
Halpin&Stam、2006、帰納的推論または帰納的行動:心理学研究における統計的検定へのフィッシャーとネイマンピアソンのアプローチ(1940-1960) [登録後無料]-Lindystの1940年の教科書の「ハイブリッド」アプローチの導入によるもの
@Michael Lew、2006、薬理学の悪い統計的実践(および他の基本的な生物医学の分野):おそらくPを知らない - 素晴らしいレビューと概要
引用
Gigerenzer:心理学の推論統計として制度化されたのは、フィッシャー統計ではありません。それは、一方ではフィッシャーのアイデアのいくつかの一貫性のないミッシュマッシュであり、他方ではネイマンとESピアソンのアイデアのいくつかです。このブレンドを統計的推論の「ハイブリッドロジック」と呼びます。
Goodman: [Neyman-Pearson]仮説検定アプローチは、科学者にFaustianバーゲンを提供しました。これは、長期的に誤った結論の数を制限する一見自動化された方法ですが、証拠[a Fisher]を測定して評価する能力を放棄することによってのみ単一の実験からの真実。
Hubbard&Bayarri:古典的な統計的検定は、競合するアプローチと頻繁に矛盾するアプローチの匿名のハイブリッドです[...]。特に、Fisherの証拠値と、Neyman-Pearsonの統計的正統性のタイプIエラー率との非互換性を認めることが広く失敗しています。[...] [この]混合から生じる当惑の主な例として[...]、前者の値は互換性がないという広く認識されていない事実を考慮してください。αのPネイマンピアソン仮説検定を使用して、組み込みました。[...]たとえば、Gibbons and Pratt [...]は誤って次のように述べています。タイプIエラーの。」
Halpin&Stam: Lindquistの1940年のテキストは、FisherとNeyman-Pearsonのアプローチのハイブリッド化の元の情報源でした。[...]心理学者は、統計的検定の特定の解釈を固守するのではなく、フィッシャーとネイマン・ピアソンの論争に関係する概念上の困難について、あいまいなままであり、実際ほとんど認識していません。
ルー:私たちが持っているのは、エラー率を制御せず、証拠の強度の評価もできないハイブリッドアプローチです。