FisherとNeyman-Pearsonフレームワークを使用する場合


73

最近、フィッシャーの仮説検定の方法とネイマン・ピアソンの考え方との違いについてたくさん読んでいます。

私の質問は、哲学的な異議をしばらく無視することです。統計モデリングのフィッシャーのアプローチをいつ使用する必要があり、有意水準などのネイマン・ピアソン法を使用する必要があるのか​​?特定の実用的な問題でどの視点を支持するかを決定する実用的な方法はありますか?


それについてどこで読みましたか?ソースを引用してください。
xmjx

8
たとえば、こちら(jstor.org/stable/2291263)またはこちら(stats.org.uk/statistical-inference/Lenhard2006.pdf)をご覧ください。
Stijn

回答:


83

まず、議論の条件を定義することから始めましょう。p値は、サンプルの統計値(例えば、サンプルの平均値)得る確率である限り、またはさらに、あなたのサンプルの統計値よりも、いくつかの基準値からの場合は基準値が真の母数でしたが。たとえば、p値は質問に答えます。サンプル平均IQが超える確率はどれくらいですか100が実際にサンプルが抽出された母集団の平均である場合、100から離れていることを指します。さて、問題は、統計的推論を行う際にその数をどのように採用すべきかということです。 |x¯100|

フィッシャーは、p値は帰無仮説に対する証拠の連続的な尺度として解釈できると考えました。結果が「重要」になる特定の固定値はありません。私が通常これを人々に伝えようとする方法は、すべての意図と目的のために、p = .049とp = .051が帰無仮説に対して同じ量の証拠を構成することを指摘することです(ここで @Henrikの答えを参照) 。

一方、Neyman&Pearson、正式な意思決定プロセスの一部としてp値を使用できると考えました。調査の最後に、帰無仮説を棄却するか、帰無仮説を棄却する必要があります。さらに、帰無仮説は、真である場合とそうでない場合があります。したがって、理論的には4つの可能性があります(どのような状況でも2つしかありません):正しい決定を下すことができます(trueを拒否できない-またはfalseを拒否する-帰無仮説)、または型を作成できますIまたはタイプIIエラー(それぞれ、真の帰無仮説を棄却するか、偽の帰無仮説を棄却しない)。(p値は、ここで説明するタイプIのエラー率と同じではないことに注意してください。)p値により、帰無仮説を棄却するかどうかを定式化するプロセスを決定できます。Neyman-Pearsonフレームワーク内では、プロセスは次のように機能します。反対の十分な証拠がない場合、デフォルトで人々が信じる帰無仮説と、代わりに真実であると信じる代替仮説があります。長期にわたってエラーが発生する可能性があります(これらが5%と20%である必要はありません)。これらを考慮して、電力分析を実施し、それに応じて調査を実施することにより、せいぜいこれらのエラー率を維持しながら、これらの2つの仮説を区別するように調査を設計します。(通常、これは十分なデータを持っていることを意味します。)調査が完了したら、p値をと比較します。α場合、帰無仮説を棄却します。そうでない場合、帰無仮説を棄却できません。いずれにせよ、あなたの研究は完了し、あなたはあなたの決定を下しました。 p<α

FisherianとNeyman-Pearsonのアプローチは同じではありません。Neyman-Pearsonフレームワークの中心的な論点は、研究の最後に決断を下さなければならないということです。伝えられるところでは、ある研究者が「重要でない」結果でフィッシャーに近づき、何をすべきかを尋ね、フィッシャーは「より多くのデータを取得する」と言いました。


個人的には、Neyman-Pearsonアプローチのエレガントなロジックは非常に魅力的だと思います。しかし、私はそれが常に適切だとは思わない。私の考えでは、Neyman-Pearsonフレームワークを検討する前に、少なくとも2つの条件を満たしている必要があります。

  1. 何らかの理由で気にする特定の対立仮説(効果の大きさ)があるはずです。(エフェクトのサイズが何であるか、あなたの理由は何であるか、それが十分に根拠があるか一貫性があるかなどは気にしません。あなたが持っているものだけです。)
  2. 対立仮説が真である場合、効果が「有意」になると疑う何らかの理由があるはずです。(実際には、これは通常、電力分析を実行し、十分なデータを持っていることを意味します。)

これらの条件が満たされない場合でも、フィッシャーの考えに沿ってp値を解釈できます。さらに、ほとんどの場合、これらの条件が満たされていないと思われます。テストが実行されるが、上記の条件が満たされない場合に思い浮かぶいくつかの簡単な例を次に示します。

  • 重回帰モデルのオムニバスANOVAは、(すべての仮説を立て非ゼロのスロープパラメータを作成するために一緒に来る方法を見つけ出すことが可能である非中心性パラメータのためのF分布を、それがリモートで直感的ではない、と私は誰を疑いますそれをする)
  • 回帰分析における残差の正規性のShapiro-Wilk検定の値(どの大きさの関心があり、その理由は?その大きさが正しいときにヌルを拒否しなければならないパワーはどれくらいか?) W
  • 分散の均一性のテストの値(例えば、Leveneのテスト。上記と同じコメント)
  • 仮定などを確認する他のテスト
  • 研究の主な関心の説明変数以外の共変量のt検定
  • 初期/探索的研究(パイロット試験など)

これは古いトピックですが、答えは大歓迎です。+1
Stijn

+1すばらしい回答です!このような簡潔な方法でこれらの概念を説明できるあなたの能力に感銘を受けました。
COOLSerdash

1
これは本当に素晴らしい答えです、@ gung
パトリックS.

5
知る限り、ネイマン・ピアソンはフィッシャーのp値を使用しなかったため、「p <alpha」基準を使用していました。「ネイマンピアソン」と呼ぶものは、実際には「ヌル仮説有意性検定」(フィッシャーとNPのハイブリッド)であり、純粋なネイマンピアソンの決定理論ではありません。
フランク

「参照値が真の母集団パラメーターだった場合」正確には、「確率分布が帰無仮説で指定されているものである場合」です。帰無仮説は、平均などの要約統計を指定するだけでなく、確率分布全体を指定します。多くの場合、分布族は暗黙的(例:正規分布)と見なされ、その時点でパラメーターを指定すると分布が指定されます。
累積

18

実用性は見る人の目にありますが、

  • フィッシャーの有意性検定は、データが興味深い「信号」を示唆しているかどうかを判断する方法として解釈できます。帰無仮説(タイプIのエラーである可能性があります)を拒否するか、何も言わないかです。たとえば、現代の「オミクス」アプリケーションの多くでは、この解釈が適切です。あまりにも多くのタイプIエラーを作りたくないので、最もエキサイティングな信号を引き出したいのですが、いくつか見逃すかもしれません。

  • Neyman-Pearsonの仮説は、2つの互いに素な選択肢(たとえば、Higgs Bosonが存在するかしないか)が存在するときに意味があります。タイプIエラーのリスクと同様に、ここではタイプIIエラーを発生させることもできます-実際の信号はあるが、存在しないと言って「ヌル」の決定を下す場合。NPの主張は、あまりにも多くのタイプIエラー率を作成することなく、タイプIIエラーのリスクを最小限に抑えたいというものでした。

多くの場合、どちらのシステムも完璧に見えません。たとえば、ポイントの推定値とそれに対応する不確実性の尺度が必要な場合があります。また、どのバージョンは関係ないかもしれないあなたは、あなたがp値を報告し、読者にテストの解釈を残しているため、使用しています。ただし、上記のアプローチから選択するには、タイプIIエラーがアプリケーションに関連するかどうかを特定します。


5

全体のポイントは、哲学的な違いを無視できないということです。統計の数学的手順は、基礎となる仮説、仮定、理論...哲学なしに適用するものとしてだけではありません。

そうは言っても、もしあなたが頻繁な哲学に固執するなら、ニーマン・ピアソンが本当に考慮される必要があるいくつかの非常に特定の種類の問題があるかもしれません。それらはすべて、品質管理やfMRIのような繰り返しテストのクラスに分類されます。事前に特定のアルファを設定し、タイプI、タイプII、およびパワーフレームワーク全体を考慮することは、その設定でより重要になります。


私は頻繁な統計に固執することを主張しませんが、フィッシャーまたはネイマン・ピアソンの視点を採用するのが自然かもしれない状況があるかどうか疑問に思っていました。哲学的な違いがあることは知っていますが、おそらく実用的な側面も考慮すべきでしょうか?
スティン

3
OK、まあ、私が言ったことはほとんど...ネイマンピアソンは、実際に理論的な根拠がなくても、たくさんのテストを行う状況に本当に関心がありました。フィッシャーの視点は、実際にはその問題に取り組んでいない。
ジョン

1

私の理解は次のとおりです:p値は、何を信じるべきかを伝える(十分なデータで理論を検証する)一方で、Neyman-Pearsonのアプローチは何をすべきかを伝える(限られたデータでも最良の判断を下す)ことです。したがって、Neman-Pearsonのアプローチはより実用的である一方、(小さな)p値はより厳密であるように見えます。科学的質問に答えるのにp値がより多く使用され、統計的/実践的な決定を下すのにNeymanとPearsonがより多く使用されるのは、おそらくそれが理由です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.