gungの素晴らしい答えを引用する
伝えられるところでは、ある研究者が「重要でない」結果でフィッシャーに近づき、何をすべきかを尋ね、フィッシャーは「より多くのデータを取得する」と言いました。
ネイマン・ピアソンの観点から、これは露骨なハッキングですが、フィッシャーのgo-get-more-dataアプローチが理にかなっているユースケースはありますか?
gungの素晴らしい答えを引用する
伝えられるところでは、ある研究者が「重要でない」結果でフィッシャーに近づき、何をすべきかを尋ね、フィッシャーは「より多くのデータを取得する」と言いました。
ネイマン・ピアソンの観点から、これは露骨なハッキングですが、フィッシャーのgo-get-more-dataアプローチが理にかなっているユースケースはありますか?
回答:
頻繁なパラダイムは、フィッシャーの見解とネイマン・ピアソンの見解の融合です。1つのアプローチと別の解釈を使用する場合にのみ問題が発生します。
より多くのデータがより多くの証拠であるため、より多くのデータを収集することが問題であるということは誰にとっても奇妙に思われるはずです。実際、問題はより多くのデータを収集することにあるのではなく、値を使用してそうすることを決定することにあります。値に基づいてさらにデータを収集することは、新しい値を計算する場合にのみハッキングです。
研究の質問について満足のいく結論を出すのに十分な証拠がない場合は、ぜひ、より多くのデータを入手してください。ただし、現在は研究のNHST段階を過ぎていることを認め、代わりに関心のある効果の定量化に集中してください。
興味深いのは、ベイジアンがこのジレンマに苦しんでいないことです。例として以下を検討してください。
サンプルサイズが十分に大きい場合、ここで説明するように、真の効果サイズが正確にゼロでない限り、テストは常に重要な結果を示します。実際には、真の効果サイズはゼロではないため、より多くのデータを収集することで、最終的にはわずかな違いを検出できます。
フィッシャーからの(IMO)の面倒な答えは、その前提において「有意差」と「実際に関連する差」を混同しているという比較的些細な質問に対する回答でした。
これは、私の研究室に来て「「25グラム」とラベル付けされたこの鉛の重量を量り、25.0グラムと測定されました。ラベルが間違っていると思います。どうすればよいですか」と尋ねるのと同じです。「より正確なスケールを取得する」と答えることができました。
最初のテストが実際に関連性のある差の大きさを検出するのにひどく力不足である場合、go-get-more-dataアプローチが適切であると思います。
ありがとう。ここで心に留めておくべきことがいくつかあります。
Pハッキングと呼ばれるものは、有意性テストを複数回適用し、有意性の結果のみを報告することです。これが良いか悪いかは状況に依存します。
説明するために、帰無仮説および対立仮説ではなく、ベイジアン用語での真の効果について考えてみましょう。興味のある効果が連続的な分布から来ると信じている限り、帰無仮説が偽であることを知っています。ただし、両側検定の場合、正か負かはわかりません。この観点から、両側検定のp値は、推定値が正しい方向(つまり、正または負の効果)を持っているという証拠の強さの尺度として考えることができます。
この解釈のもとで、どの有意性検定でも3つの結果が得られます:効果の方向を結論付けるのに十分な証拠があり、正しい、効果の方向を結論付けるのに十分な証拠がありますが、間違っている、または間違っている効果の方向を結論付けるのに十分な証拠を参照してください。十分な証拠があることを条件とすることに注意してください(つまり、)、方向を正しくする確率は、正しくない確率よりも大きくなければなりません(本当にクレイジーで本当に悪いテストがない限り)真の効果サイズがゼロに近づくと、十分なエビデンスが与えられた場合に方向を正しくする条件付き確率は0.5に近づきます。
次に、戻ってさらにデータを取得するときに何が起こるかを考えます。より多くのデータを取得するたびに、十分なデータのみを条件として正しい方向を取得する確率が高くなります。そのため、このシナリオでは、より多くのデータを取得することで、実際にタイプIエラーの確率が増加しますが、誤った方向を誤って結論付ける可能性も減少することを認識する必要があります。
これとは対照的に、Pハッキングのより一般的な悪用と比較してください。非常に小さい可能性が高く、重要なもののみを報告する100種類の効果サイズをテストします。この場合、すべての影響が小さい場合、有意性を宣言するときに方向が間違っている可能性がほぼ50%あることに注意してください。
もちろん、このデータのダブルダウンから生成されたp値には、まだ微妙な違いがあります。一般的に、エフェクトサイズについてより確実にするためにより多くのデータを収集する人々に問題はないはずですが、これは他の方法で悪用される可能性があります。たとえば、賢いPIは、100個すべてのデータポイントを一度に収集する代わりに、最初に50個のデータポイントを収集し、データを分析し、それが重要でない場合は次の50個を収集することで、多くのお金を節約し、電力を増やすことができることに気付くかもしれません。このシナリオでは、100データポイントよりも50データポイントの方が効果の方向が間違っている可能性が高いため、重要性を宣言することを条件に、効果の方向が間違っている可能性が高くなります。
最後に、重要な結果が得られない場合にデータを取得しないことの意味を考慮します。それは、そのトピックに関するこれ以上の情報を決して収集しないことを意味し、それは科学を本当に前進させないでしょうか?不十分な研究では、フィールド全体が破壊されます。
代替のアプリオリ確率が小さかった場合、ヌルを拒否できない実験はそれをさらに減少させ、さらなる研究の費用対効果をさらに低下させます。たとえば、事前確率が0.01であるとします。その場合、エントロピーは.08ビットです。確率が.001に低下すると、エントロピーは.01になります。したがって、データを収集し続けることは、多くの場合、費用対効果が高くありません。費用対効果が高い理由の1つは、知ることが非常に重要であるため、残りの.01ビットのエントロピーさえも削減する価値があるということです。
もう1つの理由は、事前確率が本当に高かった場合です。あなたの場合は先験的確率が50%以上だった場合、ヌルを拒否することができないことは高く、より多くのデータを収集し続けるために費用対効果が作る、あなたのエントロピーを。例としては、効果があることはほぼ確実だが、どの方向にあるのかわからない場合です。
たとえば、もしあなたが反知能エージェントであり、部署にほくろがあると確信し、それを2人の容疑者に絞り、どちらを決定するために統計分析を行っているなら、統計的に意味のない結果が収集を正当化するでしょうより多くのデータ。