最近、フィッシャーの仮説検定の方法とネイマン・ピアソンの考え方との違いについてたくさん読んでいます。
私の質問は、哲学的な異議をしばらく無視することです。統計モデリングのフィッシャーのアプローチをいつ使用する必要があり、有意水準などのネイマン・ピアソン法を使用する必要があるのか?特定の実用的な問題でどの視点を支持するかを決定する実用的な方法はありますか?
最近、フィッシャーの仮説検定の方法とネイマン・ピアソンの考え方との違いについてたくさん読んでいます。
私の質問は、哲学的な異議をしばらく無視することです。統計モデリングのフィッシャーのアプローチをいつ使用する必要があり、有意水準などのネイマン・ピアソン法を使用する必要があるのか?特定の実用的な問題でどの視点を支持するかを決定する実用的な方法はありますか?
回答:
まず、議論の条件を定義することから始めましょう。p値は、サンプルの統計値(例えば、サンプルの平均値)得る確率である限り、またはさらに、あなたのサンプルの統計値よりも、いくつかの基準値からの場合は基準値が真の母数でしたが。たとえば、p値は質問に答えます。サンプル平均IQが超える確率はどれくらいですか100が実際にサンプルが抽出された母集団の平均である場合、100から離れていることを指します。さて、問題は、統計的推論を行う際にその数をどのように採用すべきかということです。
フィッシャーは、p値は帰無仮説に対する証拠の連続的な尺度として解釈できると考えました。結果が「重要」になる特定の固定値はありません。私が通常これを人々に伝えようとする方法は、すべての意図と目的のために、p = .049とp = .051が帰無仮説に対して同じ量の証拠を構成することを指摘することです(ここで @Henrikの答えを参照) 。
一方、Neyman&Pearsonは、正式な意思決定プロセスの一部としてp値を使用できると考えました。調査の最後に、帰無仮説を棄却するか、帰無仮説を棄却する必要があります。さらに、帰無仮説は、真である場合とそうでない場合があります。したがって、理論的には4つの可能性があります(どのような状況でも2つしかありません):正しい決定を下すことができます(trueを拒否できない-またはfalseを拒否する-帰無仮説)、または型を作成できますIまたはタイプIIエラー(それぞれ、真の帰無仮説を棄却するか、偽の帰無仮説を棄却しない)。(p値は、ここで説明するタイプIのエラー率と同じではないことに注意してください。)p値により、帰無仮説を棄却するかどうかを定式化するプロセスを決定できます。Neyman-Pearsonフレームワーク内では、プロセスは次のように機能します。反対の十分な証拠がない場合、デフォルトで人々が信じる帰無仮説と、代わりに真実であると信じる代替仮説があります。長期にわたってエラーが発生する可能性があります(これらが5%と20%である必要はありません)。これらを考慮して、電力分析を実施し、それに応じて調査を実施することにより、せいぜいこれらのエラー率を維持しながら、これらの2つの仮説を区別するように調査を設計します。(通常、これは十分なデータを持っていることを意味します。)調査が完了したら、p値をと比較します。場合、帰無仮説を棄却します。そうでない場合、帰無仮説を棄却できません。いずれにせよ、あなたの研究は完了し、あなたはあなたの決定を下しました。
FisherianとNeyman-Pearsonのアプローチは同じではありません。Neyman-Pearsonフレームワークの中心的な論点は、研究の最後に決断を下さなければならないということです。伝えられるところでは、ある研究者が「重要でない」結果でフィッシャーに近づき、何をすべきかを尋ね、フィッシャーは「より多くのデータを取得する」と言いました。
個人的には、Neyman-Pearsonアプローチのエレガントなロジックは非常に魅力的だと思います。しかし、私はそれが常に適切だとは思わない。私の考えでは、Neyman-Pearsonフレームワークを検討する前に、少なくとも2つの条件を満たしている必要があります。
これらの条件が満たされない場合でも、フィッシャーの考えに沿ってp値を解釈できます。さらに、ほとんどの場合、これらの条件が満たされていないと思われます。テストが実行されるが、上記の条件が満たされない場合に思い浮かぶいくつかの簡単な例を次に示します。
実用性は見る人の目にありますが、
フィッシャーの有意性検定は、データが興味深い「信号」を示唆しているかどうかを判断する方法として解釈できます。帰無仮説(タイプIのエラーである可能性があります)を拒否するか、何も言わないかです。たとえば、現代の「オミクス」アプリケーションの多くでは、この解釈が適切です。あまりにも多くのタイプIエラーを作りたくないので、最もエキサイティングな信号を引き出したいのですが、いくつか見逃すかもしれません。
Neyman-Pearsonの仮説は、2つの互いに素な選択肢(たとえば、Higgs Bosonが存在するかしないか)が存在するときに意味があります。タイプIエラーのリスクと同様に、ここではタイプIIエラーを発生させることもできます-実際の信号はあるが、存在しないと言って「ヌル」の決定を下す場合。NPの主張は、あまりにも多くのタイプIエラー率を作成することなく、タイプIIエラーのリスクを最小限に抑えたいというものでした。
多くの場合、どちらのシステムも完璧に見えません。たとえば、ポイントの推定値とそれに対応する不確実性の尺度が必要な場合があります。また、どのバージョンは関係ないかもしれないあなたは、あなたがp値を報告し、読者にテストの解釈を残しているため、使用しています。ただし、上記のアプローチから選択するには、タイプIIエラーがアプリケーションに関連するかどうかを特定します。
全体のポイントは、哲学的な違いを無視できないということです。統計の数学的手順は、基礎となる仮説、仮定、理論...哲学なしに適用するものとしてだけではありません。
そうは言っても、もしあなたが頻繁な哲学に固執するなら、ニーマン・ピアソンが本当に考慮される必要があるいくつかの非常に特定の種類の問題があるかもしれません。それらはすべて、品質管理やfMRIのような繰り返しテストのクラスに分類されます。事前に特定のアルファを設定し、タイプI、タイプII、およびパワーフレームワーク全体を考慮することは、その設定でより重要になります。