統計的検定に対するフィッシャーとネイマン・ピアソンのアプローチ間の「ハイブリッド」は、実際には「インコヒーレントなミッシュマッシュ」ですか?


56

統計的検定への最も普及しているアプローチは、フィッシャーのアプローチとネイマン・ピアソンのアプローチの2つのアプローチの「ハイブリッド」であるという考え方があります。主張によれば、これらの2つのアプローチは「互換性がない」ため、結果の「ハイブリッド」は「一貫性のないミッシュマッシュ」です。以下に参考文献といくつかの引用を提供しますが、現時点では統計的仮説検定に関するウィキペディアの記事にそれについて多くのことが書かれていると言って十分です。CVでは、@ Michael Lewがこの点を繰り返し述べていますこちらこちらをご覧ください)。

私の質問は次のとおりです。なぜFとNPのアプローチは互換性がないと主張され、ハイブリッドは一貫性がないと主張されるのですか?少なくとも6つのアンチハイブリッドペーパー(下記を参照)を読みましたが、それでも問題や議論を理解できないことに注意してください。また、FまたはNPがより良いアプローチであるかどうかを議論することを提案していないことに注意してください。頻度主義者対ベイジアンの枠組みについて議論することも申し出ていません。代わりに、問題は次のとおりです。FとNPの両方が有効で意味のあるアプローチであることを受け入れると、ハイブリッドのどこが悪いのでしょうか。


ここに私が状況を理解する方法があります。フィッシャーのアプローチは、値を計算し、それを帰無仮説に対する証拠とすることです。小さいほど、証拠を確信させることができます。研究者は、この証拠を彼の背景知識と組み合わせ、それが十分に説得力があるかどうかを判断し、それに応じて進むことになっています。(フィッシャーの見解は長年にわたって変化したが、これは彼が最終的に収束したように見えることに注意してください。)対照的に、Neyman-Pearsonアプローチは事前にを選択し、をチェックすることですP αのp個の≤のαppαpα; もしそうなら、それを重要と呼び、帰無仮説を拒否します(ここでは、現在の議論に関係のないNPストーリーの大部分を省略します)。FisherとNeyman-Pearsonのフレームワークを使用するタイミングは?の @gungによる優れた返信も参照してください

ハイブリッドアプローチは、値を計算し、それを報告し(暗黙的に小さい方が良いと仮定して)、場合は有意な結果(通常は)、それ以外の場合は有意でない結果も呼び出します。これは一貫性のないことになっています。2つの有効なことを同時に行うのはどうして無効なのでしょうか。のp ≤のαのα = 0.05ppαα=0.05

特に一貫性のない反ハイブリッド主義者は、値を、、または(または)として報告する広範な慣行を、常に最も強い不平等が選択されるとます。議論は、(a)正確なが報告されないため、証拠の強度を適切に評価できないこと、および(b)不等式の右辺の数をとして解釈し、それをタイプIエラーと見なす傾向があると思われるレート、それは間違っています。ここで大きな問題は見当たりません。第一に、正確な報告することは確かに良い習慣ですが、が例えばか、、P < 0.05 、P < 0.01 、P < 0.001 のp « 0.0001 のp α のp のp 0.02 0.03 0.0001 0.05 α = 0.05 、P α αpp<0.05p<0.01p<0.001p0.0001pαpp0.020.03なので、ログスケールで丸めてもそれほど悪くありません(そしてを下回ることは意味がありません。小さなp値を報告する方法を参照してください)。第二に、コンセンサスが未満のすべてを有意と呼ぶ場合、エラー率はおよびになります。@ gungは仮説検定でのp値の解釈で説明しています。これは混乱を招く可能性のある問題ですが、統計テスト(ハイブリッド以外)の他の問題よりも混乱させることはありません。また、すべての読者は、ハイブリッドペーパーを読むときに自分のお気に入りのを念頭に置くことができ、その結果として自分のエラー率を知ることができます。0.00010.05α=0.05pααそれで、大したことは何ですか?

私がこの質問をしたい理由の1つは、統計仮説検定に関するウィキペディアの記事のどれだけがハイブリッドの暴行に当てられているかを見るのが文字通り痛いからです。ハルピン&スタムに続いて、それが(そこに彼の教科書のも、大きなスキャンが黄色でハイライト「エラー」である)、そしてもちろんAA一定リンドクイストは責任があると主張リンドクイスト自分自身についてのwikiの記事が同じ告発で始まります。しかし、その後、多分私は何かを見逃しています。


参照資料

引用

Gigerenzer:心理学の推論統計として制度化されたのは、フィッシャー統計ではありません。それは、一方ではフィッシャーのアイデアのいくつかの一貫性のないミッシュマッシュであり、他方ではネイマンとESピアソンのアイデアのいくつかです。このブレンドを統計的推論の「ハイブリッドロジック」と呼びます。

Goodman: [Neyman-Pearson]仮説検定アプローチは、科学者にFaustianバーゲンを提供しました。これは、長期的に誤った結論の数を制限する一見自動化された方法ですが、証拠[a Fisher]を測定して評価する能力を放棄することによってのみ単一の実験からの真実。

Hubbard&Bayarri:古典的な統計的検定は、競合するアプローチと頻繁に矛盾するアプローチの匿名のハイブリッドです[...]。特に、Fisherの証拠値と、Neyman-Pearsonの統計的正統性のタイプIエラー率との非互換性を認めることが広く失敗しています。[...] [この]混合から生じる当惑の主な例として[...]、前者の値は互換性がないという広く認識されていない事実を考慮してください。αのPpαpネイマンピアソン仮説検定を使用して、組み込みました。[...]たとえば、Gibbons and Pratt [...]は誤って次のように述べています。タイプIエラーの。」

Halpin&Stam: Lindquistの1940年のテキストは、FisherとNeyman-Pearsonのアプローチのハイブリッド化の元の情報源でした。[...]心理学者は、統計的検定の特定の解釈を固守するのではなく、フィッシャーとネイマン・ピアソンの論争に関係する概念上の困難について、あいまいなままであり、実際ほとんど認識していません。

ルー:私たちが持っているのは、エラー率を制御せず、証拠の強度の評価もできないハイブリッドアプローチです。


よく研究された(長い場合でも)質問に対して+1。紛らわしいものを正確に指定し続けることはおそらく役立つと思います。フィッシャーにとっては対立仮説がまったく存在しないのに対し、NPにとっては可能性の世界がゼロと代替の両方で使い果たされていることを知るだけで十分ですか?私には十分に支離滅裂なように思えますが、悲しいかな、あなたは避けることができないので、私は常にハイブリッドなことをしています。
モモ14

2
@Momo:あなたにとっては、「何が紛らわしいのか」という質問です。まあ、紛らわしいのは反ハイブリッドのレトリックの狂気です。「インコヒーレントなミッシュマッシュ」は強い言葉なので、かなり悪い矛盾が見られます。仮説についてあなたが言ったことは私にはそのように聞こえません(庭のさまざまな場合は明らかにであり、矛盾の余地はあまりありません)、しかし、私があなたのポイントを逃しているなら、多分あなたはそれを答えとして提供したいと思うでしょう。H 1μ 0H0:μ=0H1:μ0
アメーバは、モニカを復活させる14

2
ちょうどLewを読んだ(そして、おそらく2006年頃に読んだことがあることに気付いた)ので、かなり良いと感じましたが、p値の使い方を表しているとは思いません。私の重要度レベル-まれに仮説検定を使用することがまれにあります*-常に前もっており、サンプルサイズを制御できます。パワーを考慮した後、2つのエラータイプのコストを考慮します-本質的にネイマン・ピアソン。私はまだp値を引用していますが、フィッシャーのアプローチの枠組みではありません....(ctd)
Glen_b 14

2
(ctd)... *(私はしばしば人々を仮説テストから遠ざけます-そのため、彼らの実際の質問はしばしば効果の測定に関連しており、間隔を構築することでよりよく答えられます)。「ハイブリッド」手順のためにルーが提起した特定の問題は、私がしていないことにも当てはまり、人々に行うことを警告する傾向があります。彼が示唆するアプローチの組み合わせを実際にやっている人がいるなら、論文はうまくいくようだ。p値の意味とアプローチの歴史に関する以前の議論は素晴らしいようです。
Glen_b

1
@Glen_b、ルーの歴史的概要は非常に素晴らしく明確です、私は完全に同意します。私の問題は、特にハイブリッドの問題にあります(「どのアプローチが最も使用されていますか?」セクション)。確かに、彼がそこで述べていることをしている人、つまり、最も強いp <.001、<。01、または<.05を報告している人がいます。私はそれを常に神経科学で見ています。テストを使用する場合の1つを検討してください。たとえばalpha = .05を選択し、NPフレームワークに従います。p = .00011を取得するとき、H1についての確実性と、p = .049を取得するときの言葉遣いの選択は異なりますか?もしそうなら、それはハイブリッドです!そうでない場合、どうして?
アメーバは、モニカを復活させる14

回答:


16

あなたが熱心に集めた論文、記事、投稿などには、2つのアプローチがどこで、なぜ異なるかについての十分な情報と分析が含まれていると思います。しかし、異なるということは、互換性がないということではありません。

「ハイブリッド」の問題点は、ハイブリッド車やないということである合成、そしてこれは、それは次のように多くの人に扱われている理由であるHYBRISあなたは言葉プレイを言い訳場合は、。
統合ではないため、2つのアプローチの違いを組み合わせて、1つの統一された内部的に一貫したアプローチを作成したり、科学兵器庫の両方のアプローチを補完的な代替手段として維持したりして、非常に複雑な統計を通じて分析しようとする世界(ありがたいことに、この最後のことは、この分野の他の大規模な内戦である、頻度主義者ベイジアン戦争で起こっているように見えるものです)。

それに対する不満は、主に統計学者ではない科学者、おそらく非常に深刻で有害な影響を与える可能性のある誤解によって、統計ツールを適用、統計結果解釈する際に誤解を生み出したという事実から来ていると信じています薬の適切な劇的なトーンを与えるのに役立ちます)。この誤用は、事実として広く受け入れられていると私は信じています。その意味で、「アンチハイブリッド」の観点は(少なくとも方法論的な問題ではないにしても、その結果のために)広範囲に及ぶと考えることができます。

ファウンダー間の不幸な戦いのために、これまでの問題の進化は歴史的な事故と見なされています(ただし、値または仮説の棄却域はありません)。フィッシャーとネイマン/ピアソンは、数十年にわたって彼らのアプローチをめぐって激しく公然と戦いました。これにより、ここは二分された問題であるという印象が生まれました。一方のアプローチは「正しく」なければならず、もう一方は「間違っている」必要があります。p

ハイブリッドは、そのような簡単な答えが存在せず、1つのアプローチが他のアプローチよりも適している現実世界の現象が存在するという認識から生まれたと思います(そのような例については、この投稿を参照してください少なくとも、漁師のアプローチがより適切と思われる場合)。しかし、この2つを「分離して行動する準備ができている」状態に保つ代わりに、それらは互いに不必要にパッチされました。

この「補完的な代替」アプローチを要約した資料を提供します: Spanos、A.(1999)。確率論と統計的推論:観測データを用いた計量経済モデリング。ケンブリッジ大学出版局。ch。14、特にセクション14.5では、2つのアプローチを正式かつ明確に提示した後、著者はそれらの違いを明確に指摘する立場にあり、それらは補完的な代替手段とみなすこともできると主張しています。


6
(+1)あなたのコメントに感謝し、それらの多くに同意します。しかし、ハイブリッドが「誤解を生み出した」と言うとき(そして、これが「事実として広く受け入れられている」と言うとき)、あなたが正確に何を言及しているのかわかりません。例を挙げていただけますか?ハイブリッドに対する攻撃であるためには、FアプローチまたはNPアプローチだけでは発生しない誤解の例である必要があります。私の質問で言及したと間の潜在的な混乱、または他の何かについて言及していますか?それとは別に、私はすでにSpanosのセクション14.5を読んでいます、ありがとう。αpα
アメーバは、モニカを復活させる14

6
明らかな問題は、確かに問題です。より微妙で、私がより重要だと思うのは、ハイブリッドがフィッシャーの探究的なフレーバー(さらに決定の問題を研究者に委ねる)とNPのより正式なアプローチを混ぜ合わせているという事実です。そのため、研究者はフィッシャー精神でこの問題に取り組みましたが、NPアプローチの強い「拒否/受け入れ」の重みを主張しました。これは原則として結論の信頼性を高めます。CONTDpα
アレコス

6
CONTD私にとって、これはハイブリッドアプローチの「ケーキを食べて食べてください」という問題です。たとえば、電力テストの計算を行わないNPアプローチは考えられないはずですが、NPフレームワークでテストが提示されることは常にありますが、電力の計算については言及されていません。
アレコスパパドプロ14

トピックから外れていますが... Aris Spanosを引用しているので、彼の方法論に関するこの質問に答えられるかどうか疑問に思いますか?(私は一度、直接アリススパノスに質問をして、彼は親切にそれに答えるにはいくつかの努力を置く残念ながら、彼の答えは、このように、それは非常に私を助けていなかった、彼の論文と同じ言語でいた。。)
リチャード・ハーディ

13

私の質問に対する私自身の見解は、ハイブリッド(すなわち受け入れられた)アプローチには特に一貫性のないものは何もないということです。しかし、抗ハイブリッド紙で提示された議論の妥当性を理解できない可能性があるかどうか確信が持てなかったので、この論文と一緒に発表された議論を喜んで見つけました。

残念ながら、ディスカッションとして公開された2つの返信は個別の記事としてフォーマットされていないため、適切に引用できません。それでも、私はそれらの両方から引用したいと思います:

バーク:セクション2と3のテーマは、フィッシャーはネイマンとピアソンがしたことを好まなかったようであり、ネイマンはフィッシャーがしたことを好まなかったので、2つのアプローチを組み合わせたものは何もすべきではありません。ここでは前提から逃れることはできませんが、その推論は私を逃れます。

カールトン:著者は、ほとんどの混乱はフィッシャーとネイマン・ピアソニアンのアイデアの結婚に起因していると強く主張している。タイプIエラーは、同じユニバースに共存できません。著者が同じ文で「p値」と「タイプIエラー」を発声できない実質的な理由を与えているかどうかは不明です。[...] [FおよびNP]の非互換性の「事実」は、この記事を読んでいる何千人もの資格のある統計学者に間違いないように、私にとって驚くべきニュースです。著者は、統計学者が今これらの2つの考えを離婚する理由の中で、フィッシャーとネイマンがお互いにひどく好きではなかったということを示唆しているようです。sテストの哲学)。フィッシャーとネイマンの哲学を統合し、P値とタイプIエラーの両方の議論を可能にする現在のプラクティスを常に見てきました-確かに平行ではありませんが-私たちの分野の大きな勝利の1つとして。

どちらの回答も読む価値があります。原作者による反論もありますが、それは私にはまったく納得できません。


1
共存することと、一方を他方と見なすことは別の問題です。しかし、実際、この一連のアンチハイブリッドアプローチは、「まったく合成できない」という精神に基づいています-私は強く反対します。しかし、私は現在のハイブリッドが成功した結婚とは思わない。
アレコスパパドプロ14

2
@Livid、コメントありがとう、これは面白いですが、ここでのさらなる議論は控えたいと思います。必要に応じて、新しい回答を投稿することをお勧めします。しかし、そうすることに決めた場合は、主な問題に焦点を当ててください。それは、フィッシャーとNPだけの場合と比較して、「ハイブリッド」のどこが悪いのかということです。有意性検定、「null null仮説」などのアプローチ全体を嫌うようですが、これはこの質問の目的ではありません
アメーバは、モニカを復活させる

1
@Livid:うーん、それがハイブリッドの際立った特徴だと言う理由を実際に明確にできますか?純粋なフィッシャーまたは純粋なNPのヌルは何ですか?2つのグループがあり、有意差( "nil null")をテストしたいとします。純粋なフィッシャー、純粋なNP、およびハイブリッドの3つのアプローチすべてでこの状況にアプローチすることはできませんか?
アメーバは、モニカを復活させる

2
@ Livid、null nullに対するあなたの議論を理解しています。この問題はハイブリッドの問題と直交していると思います。私は記憶にある反ハイブリッド紙を更新しなければなりませんが、私が覚えている限りでは、ハイブリッドに対する彼らの批評はゼロのヌルに全く集中していません。代わりに、フィッシャーとNPを組み合わせることについてです。繰り返しますが、これに同意しない場合は、回答を投稿することを検討してください。とりあえず、それのままにしておきましょう。
アメーバは、2015

2
私自身へのメモ:この答えからこの論文の引用を取り入れるべきです:Lehmann 1992、The Fisher、Neyman-Pearson Theory of Testing Hypotheses:One Theory or Two?
アメーバは、モニカを復活させる

8

この素晴らしい質問に真に答えるには、フルレングスの論文が必要になるのではないかと心配しています。ただし、ここには、質問にも現在の回答にも存在しないポイントがいくつかあります。

  1. エラー率は手順に「属する」が、証拠は実験結果に「属する」。したがって、逐次停止ルールを使用したマルチステージプロシージャでは、帰無仮説に対して非常に強力な証拠が得られますが、有意な仮説検定結果は得られません。これは、強い非互換性と考えることができます。

  2. 非互換性に興味があるなら、根底にある哲学に興味があるはずです。哲学的な難しさは、尤度原理の順守と反復サンプリング原理の順守の選択から生じます。LPは、統計モデルが与えられると、対象のパラメーターに関連するデータセット内の証拠は、関連する尤度関数に完全に含まれているとおおまかに言っています。RSPは、長期的には公称値に等しいエラー率を与えるテストを好むべきだと述べています。


3
私の意見では、JO BergerとRL Wolpertのモノグラフ「The Likelihood Principle」(第2版、1988年)は、ポイント2の落ち着いたバランスの取れた良い説明です。
アレコスパパドプロ14

5
Berger and Wolpertは確かに優れた説明であり、権威もあります。しかし、AWFエドワーズによるより実用的で、より非定型的な本「Likelihood」を好む。まだ印刷中です。books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
マイケルルー14

2
@MichaelLewは、p値の有効な使用がエフェクトサイズの要約であると説明しました。彼はこの論文を書いて素晴らしいことをしました:arxiv.org/abs/1311.0081
Livid

@Lividこの論文は非常に興味深いが、新しい読者にとっては、p値の「インデックス」(おそらく:1対1の関係にある)尤度関数という主な考え方は、一般に偽と理解される。サンプリングスキームに応じて、同じ尤度が異なるp値に対応する場合があります。この問題については、本書で少し説明していますが、インデックス作成は非常に珍しい位置です(もちろん、必ずしも間違っているとは限りません)。
共役前

8

2つのアプローチの間によく見られる(そしておそらく受け入れられている)結合(またはより良い:「ハイブリッド」)は次のとおりです。

  1. 事前に指定されたレベル(0.05 say)を設定しますα
  2. 次に、仮説をテストします。たとえば、 vs.H 1μ 0Ho:μ=0H1:μ0
  3. p値を記述し、レベル基づいて決定を定式化します。α

    結果のp値が場合、次のように言えますα

    • 「を拒否し」またはHo
    • 「を支持してを拒否」またはH 1HoH1
    • 「私は、が確実に保持される」H 1100%(1α)H1

    p値が十分小さくない場合は、次のようになります。

    • 「拒否できません」またはHo
    • 「を支持してを拒否することはできません」H 1HoH1

ここで、Neyman-Pearsonの特徴は次のとおりです。

  • あなたは何かを決める
  • 仮説が手元にあります(ただし、の反対です)Ho
  • タイプIのエラー率を知っています

漁師の側面は次のとおりです。

  • p値を指定します。したがって、どの読者も意思決定に独自のレベル(たとえば、複数のテストを厳密に修正する)を使用する可能性があります。
  • 基本的に、代替案は正反対なので、帰無仮説のみが必要です。
  • タイプIIのエラー率がわかりません。(ただし、特定の値についてはすぐに取得できます。)μ0

拡張機能

フィッシャー、NP、またはこのハイブリッドアプローチの哲学的問題についての議論を知っているのは良いことですが(一部の人はほとんど宗教的な狂乱で教えられています)、戦うべき統計にはもっと関連する問題があります:

  • 情報価値のない質問(「量」の量的な質問ではなく、はい/いいえのバイナリ質問、たとえば信頼区間の代わりにテストを使用)
  • 偏った結果につながるデータ駆動型の分析方法(段階的回帰、仮定のテストなど)
  • 間違ったテストまたはメソッドを選択する
  • 結果の誤解
  • ランダムでないサンプルにクラシック統計を使用する

1
(+1)これは、ハイブリッドの適切な説明(および正確にハイブリッドである理由)ですが、その評価が何であるかを明示的に述べていません。あなたが説明したものが「インコヒーレントなミッシュマッシュ」であることに同意しますか?もしそうなら、なぜですか?それとも合理的な手順だと思いますか?もしそうなら、それは首尾一貫していないと主張する人々はポイントを持っていますか、それとも単に間違っていますか?
アメーバは、Reinstate Monicaを言う14

1
私はしばしばこのように仮説をテストします...しかし、私が受け入れない他のミッシュマッシュ(たとえば、超えるp値を表示しない)などがあります。α
Michael M 14

4

FとNPの両方が有効で意味のあるアプローチであることを受け入れて、それらのハイブリッドの何がそんなに悪いのでしょうか?

簡単な答え:コンテキストに関係なく、nil(差なし、相関なし)帰無仮説の使用。他のすべては、プロセスが何を達成できるかについて自分自身のために神話を作成した人々による「誤用」です。神話は、権威とコンセンサスヒューリスティックスへの信頼の(適切な場合もある)使用を、問題に対する手順の適用不可能性と調和させようとする人々から生じます。

私が知る限り、Gerd Gigerenzerは「ハイブリッド」という用語を思いつきました。

著者[ベイズに関する章とその後のすべての版から無実の文章を削除した理由]を尋ねました。「ツールボックスではなく、ハンマーが1つだけであるかのように統計情報を提示した理由は何ですか?なぜフィッシャーの理論とネイマン・ピアソンの理論を、すべてのまともな統計学者が拒否する矛盾したハイブリッドにしたのですか?」

彼の功績として、著者はツールが1つしかないという幻想を生み出したことを否定しようとしなかったと言えます。しかし、彼は私にこれの責任者を教えてくれました。彼の仲間の研究者、大学の管理者、そして彼の出版者の3人の犯人がいました。彼によると、ほとんどの研究者は統計的思考にはあまり興味がなく、論文の発表方法にのみ興味がある[...]

ヌルの儀式:

  1. 「平均差なし」または「ゼロ相関」の統計的帰無仮説を設定します。研究仮説または代替の実体仮説の予測を指定しないでください。

  2. nullを拒否する規則として5%を使用します。重要な場合は、研究仮説を受け入れます。結果を、、または(得られた値の次のいずれか)として報告します。p < 0.01 p < 0.001 pp<0.05p<0.01p<0.001p

  3. 常にこの手順を実行してください。

ギゲレンツァー、G(2004年11月)。「マインドレス統計」。Journal of Socio-Economics 33(5):587–606。doi:10.1016 / j.socec.2004.09.033。

編集:そして、「ハイブリッド」は非常に滑りやすく不明確であるため、さまざまなサンプルサイズのエフェクトサイズを比較する方法として、nil nullを使用してp値を取得することは完全に適切であるため、常に言及する必要があります。問題を引き起こすのは「テスト」の側面です。

編集2:p値は、要約統計量として微細であることができ、この場合にはゼロ帰無仮説は、ちょうど任意のランドマークである@amoeba http://arxiv.org/abs/1311.0081。ただし、結論を出そうとするか、決定を下す(つまり、帰無仮説を「テスト」)しようとするとすぐに意味がなくなります。2つのグループの比較の例では、2つのグループの違いと、その大きさとタイプの違いについて考えられるさまざまな説明を知りたいと思います。

p値は、差異の大きさを示す要約統計として使用できます。ただし、ゼロの差異を「反証/拒否」するために使用しても、私が知ることのできる目的はありません。また、単一の時点での生物の平均測定値を比較するこれらの研究デザインの多くは見当違いだと思います。システムの個々のインスタンスが時間とともにどのように変化するかを観察し、観察されたパターン(グループの違いを含む)を説明するプロセスを考え出す必要があります。


2
+1、回答とリンクをありがとう。私はこの特定の論文を読んでいないようです。見てみましょう。前にも言ったように、「null null」は「ハイブリッド」の問題に直交する問題であるという印象を受けていましたが、それを確認するためにギゲレンツァーの著作を読み直す必要があると思います。次の日に時間を見つけようとします。それとは別に、最後の段落を明確にしてください(「編集」)。2つのエフェクトサイズを比較するときにnil nullを持つことは大丈夫ですが、エフェクトサイズを0と比較するときにnil nullを持つことは大丈夫ではないということを正しく理解しましたか?
アメーバは、2015

1

私よりも専門知識のある人が答えを提供したと思いますが、私の答えは何かを追加する可能性があると思うので、他の素人の視点としてこれを提供します。

ハイブリッドアプローチはインコヒーレントですか?  私は、研究者が最初に始めたルール、具体的にはアルファ値の設定で機能するyes / noルールに矛盾して行動するかどうかにかかっていると思います。

インコヒーレント

Neyman-Pearsonから始めます。研究者はalpha = 0.05を設定し、実験を実行し、p = 0.052を計算します。研究者はそのp値を見て、フィッシャーの推論を使用して(多くの場合暗黙的に)、結果が、まだ「何か」が起こっていると主張するテスト仮説と十分に矛盾すると見なします。p値がアルファ値よりも大きい場合でも、結果は何らかの形で「十分」です。多くの場合、これは「ほぼ重要」または「重要に向かう傾向」などの言語、またはそれらの行に沿ったいくつかの文言と組み合わせられます。

ただし、実験を実行する前にアルファ値を設定するということは、Neyman-Pearsonの帰納的挙動のアプローチを選択したことを意味します。p値を計算した後、そのアルファ値を無視することを選択し、したがって何かがまだ何らかの形で興味深いと主張することは、それが開始したアプローチ全体を損なうことになります。研究者がパスA(Neyman-Pearson)を下ってスタートした後、自分がいるパスが気に入らなかったときに別のパス(Fisher)にジャンプした場合、その一貫性がないと思います。それらは、当初の(暗黙の)ルールと一貫性がありません。

コヒーレント(おそらく)

NPから始めます。研究者はalpha = 0.05を設定し、実験を実行し、p = 0.0014を計算します。研究者は、p <alphaであるため、検定仮説を棄却し(通常は効果なし)、対立仮説を受け入れます(効果は実数です)。この時点で、研究者は、結果を実際の効果(NP)として扱うことに決定することに加えて、実験が効果が本物であるという非常に強力な証拠を提供すると推論します(フィッシャー)。彼らは最初のアプローチにニュアンスを追加しましたが、最初にアルファ値を選択することで設定されたルールに矛盾していません。

概要

アルファ値を選択することから始めた場合、Neyman-Pearsonパスを採用し、そのアプローチのルールに従うことにしました。ある時点で、フィッシャーの推論を正当化として使用してこれらのルールに違反する場合、彼らは一貫性のない/一貫性のない行動をとっています。

さらに一歩進んで、ハイブリッドをインコヒーレントに使用することができるため、アプローチは本質的にインコヒーレントであると宣言することができると思いますが、それは哲学的な側面に深くなっているようです。意見を述べる。

Michael Lewへのヒント。2006年の彼の記事は、これらの問題を他のどのリソースよりもよく理解するのに役立ちました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.