フィッシャーの「より多くのデータを取得する」アプローチが意味を持つのはいつですか?


26

gungの素晴らしい答えを引用する

伝えられるところでは、ある研究者が「重要でない」結果でフィッシャーに近づき、何をすべきかを尋ね、フィッシャーは「より多くのデータを取得する」と言いました。

ネイマン・ピアソンの観点から、これは露骨なハッキングですが、フィッシャーのgo-get-more-dataアプローチが理にかなっているユースケースはありますか?p


10
フィッシャーは(繰り返し)実験の複製の重要性を強調し、私はそれが彼の意図だったと思っています(会話が起こったと仮定して)。確かに、フィッシャーは、重要性をチェックできず、最初のサンプルを取得できなかった場合はそれを展開できないことを十分に認識していたでしょう。
Glen_b-モニカの復職

@Glen_b以前に「実験の複製」というフレーズを聞いたことがありますが、まったく理解できませんでした。詳しく説明してもらえますか?たとえば、サンプルサイズが100である単一の実験よりも、サンプルサイズが10である実験の10回の複製の方が良いでしょうか?
ナルゾク

探索的研究では、go-get-more-dataが許容される場合があります。確認研究では、go-get-more-dataの位置はありません。
user158565

5
統計的実践に関する論争の的となる見解の1つは、誤検知の問題を考慮することは重要ですが、タイプを保持するためにデータから学習することを拒否するような高い台座にタイプ1のエラー率を保存するべきではないということです1エラー率。
クリフAB

回答:


29

頻繁なパラダイムは、フィッシャーの見解とネイマン・ピアソンの見解の融合です。1つのアプローチと別の解釈を使用する場合にのみ問題が発生します。

より多くのデータがより多くの証拠であるため、より多くのデータを収集することが問題であるということは誰にとっても奇妙に思われるはずです。実際、問題はより多くのデータを収集することにあるのではなく、値を使用してそうすることを決定することにあります。値に基づいてさらにデータを収集することは、新しい値を計算する場合にのみハッキングです。pppp

研究の質問について満足のいく結論を出すのに十分な証拠がない場合は、ぜひ、より多くのデータを入手してください。ただし、現在は研究のNHST段階を過ぎていることを認め、代わりに関心のある効果の定量化に集中してください。


興味深いのは、ベイジアンがこのジレンマに苦しんでいないことです。例として以下を検討してください。

  • 頻度の高い専門家が有意差がないと結論付けてから等価性のテストに切り替えた場合、間違いなく誤検出率は増加しています。
  • ベイジアンは、最高の密度間隔と差の実際的な等価の領域を同時に表現し、夜間もまったく同じように眠ることができます。

したがって、基本的に、母集団Aの平均が母集団Bの平均と等しいかどうかをテストするとします。最初に、データを取得し、テストをます。「平均が等しい」。この場合、に対して別のテストを実行しないで:「平均が等しくありません」。私ができることは、平均の秘密の間隔を推定することです、それは正しいですか?2つの間隔に重なりがない場合はどうなりますか?H 0H0H0
nalzok

6
「新しいp値を計算する場合にのみ、pハッキングです。」これは実際には、p値の計算に使用される方法に完全に依存していないのではないでしょうか?より多くのデータを収集するという順次分析と決定を無視すると、p値が不正確になります。ただし、p値の計算により多くのデータを収集する決定ルールを組み込む場合、有効なp値が生成されます。
jsk

4
@jsk私は、その後計算されたp値が何らかの形で無効であることは少なく、実験が「正しい」とき、そのプロジェクトの研究が「完了」。すべての非有意なp値が間違っていることを決定し、あなたは1得るまでのデータを収集している重要なをして、あなたが「正しい」結果を得ているので、停止は、実験科学の反対です。
Upper_Case-Stop Harming Monica

1
@Upper_Case投稿の非常に小さなセクションでp-hackingについてコメントしていたので、そのセクションを引用符で囲みました。あなたは私の声明を読みすぎています。私のポイントは、より多くのデータを収集することを決定するために使用される任意の決定規則を、p値の計算に組み込む必要があるということです。決定をp値の計算に組み込む限り、必要に応じて有効なNHSTを実施できます。これは、「重要な結果が見つかるまでより多くのデータを収集する」という停止ルールを提唱しているという意味ではありません。
jsk

@jskああ、今はあなたの主張をよく理解しています。説明をありがとう。
Upper_Case-Stop Harming Monica

10

サンプルサイズが十分に大きい場合、ここで説明するように、真の効果サイズが正確にゼロでない限り、テストは常に重要な結果を示します。実際には、真の効果サイズはゼロではないため、より多くのデータを収集することで、最終的にはわずかな違いを検出できます。

フィッシャーからの(IMO)の面倒な答えは、その前提において「有意差」と「実際に関連する差」を混同しているという比較的些細な質問に対する回答でした。

これは、私の研究室に来て「「25グラム」とラベル付けされたこの鉛の重量を量り、25.0グラムと測定されました。ラベルが間違っていると思います。どうすればよいですか」と尋ねるのと同じです。「より正確なスケールを取得する」と答えることができました。

最初のテストが実際に関連性のある差の大きさを検出するのにひどく力不足である場合、go-get-more-dataアプローチが適切であると思います。


ただし、ポイントは、p値の計算により多くのデータを取得する決定を組み込む必要があるということです。
jsk

@jskは、p値を変更しても、さらにデータを収集して重要な結果を見つけることができます(さらに多くのデータが必要になりますが)。
アンダーマイナー

1
もっとはっきりできたかもしれない。「重要な結果を見つけるために、さらに多くのデータを収集することができます」とはどういう意味かわかりません。一般に、帰無仮説は実際には決して真ではないため、より多くのデータを収集すると、最終的に重要な結果につながります。p値を計算するとき、p値の計算により多くのデータを収集する決定を組み込む必要があるという事実に注意を喚起したかっただけです。つまり、元のデータを収集する前に、(より多くのデータを収集する)決定ルールを事前に指定する必要があります。
jsk

@jskは、p値を調整する非常に保守的な方法(例:ボンフェローニ正解、事後分析に適用可能)でも、修正を克服するのに十分な追加のサンプルサイズが存在します。重要な点は、p値調整方法(元のデータ収集の前または前に指定)を提供した場合、対象グループの母集団分布間の真の差と、重要でない予備結果です。また、重要な結果を得るのに十分な大きさのサンプルサイズを提供できます。したがって、より多くのデータが常に答えです。
アンダーマイナー

7

ありがとう。ここで心に留めておくべきことがいくつかあります。

  1. 引用文は半端的かもしれません。
  2. 2つ目の調査(cf。、@ Glen_bのコメント)のために、より多くの/より良いデータ、または異なるソース(より正確なスケール、cf。、@ Underminerの回答、さまざまな状況またはコントロールなど)からデータを取得することは非常に合理的です。つまり、元のデータと一緒に追加データを分析することはありません。たとえば、N = 10で有意でない結果が得られた場合、別のN = 20データを収集して単独で分析できます(30をすべて一緒にテストするのではなく) )。引用文が外交的でない場合、それはフィッシャーが念頭に置いていたものであった可能性があります。
  3. フィッシャーの科学哲学は本質的にポペリアンでした。つまり、nullは理論を確認するために必ずしもおかしく拒否するものではありませんでしたが、理想的には理論そのものである可能性があり、拒否はあなたのペットの理論が間違っていることを意味し、図面に戻る必要があります。このような場合、タイプIのエラーインフレーションは研究者に利益をもたらさないでしょう。(一方、この解釈は、フィッシャーが口論にならない限り、このアドバイスを与えるフィッシャーに対してカットします。
  4. いずれにせよ、私がそのコメントを含めた理由は、2つのアプローチの性質の違いについて基本的なことを示しているからです。

1
(フィッシャー以外の誰かがその引用を言ったとしましょう、それはその正確さに影響しません)あなたの2番目のポイントに応えて、あなたが元のデータと併せて追加のデータを分析しなくても、それはまだハッキング、また、そうすることにより、帰無仮説をサポートする元のデータが破棄されるため、対立仮説を誤って受け入れる可能性が高くなります。一方、3番目のポイントを適用するときには、これは理にかなっています。帰無仮説が(偶然に)拒否されるまでテストを続けないからです。p
nalzok

ところで、「2つのアプローチの性質の違い」について詳しく説明していただければ幸いです。フィッシャーの方法は、主観的です。エラー率についてはあまり気にしていないように感じますが、何かが足りない可能性があります。
ナルゾク

1
@nalzok、違いは元のスレッドで説明されています。Neyman-Pearsonアプローチは、研究が離散事象であると仮定します。フィッシャーのアプローチは、問題が継続的な調査中であると想定しています。再:#2、単独でデータを分析する場合、p-hackingではありません(複数の調査を実行し、必要なものを示した調査のみを公開しない限り)。Re:#3、いいえ、nullは受け入れられません。理論をテストするより良い方法を見つけ続ける必要があります。
gung-モニカの復職

1
@ nalzok、が小さい場合、検定は重要です。とき大きい場合、テストがある -significant。あなたが示唆していると思われる意味でデータを再利用することはありません。フィッシャーは誰もがそうすべきだとは思わなかったでしょう。Ppp
gung-モニカの復職

1
(+1)時々私たちは木に焦点を合わせ、森を見逃すと思う。かなり率直に言って、困難な問題があるときは、通常、データが少ないほどデータが多い方が良いです。ほとんどの場合、データが多くてもそれほど良くありません。Mengの洞察力に富んだ2018年の論文「統計の楽園とビッグデータのパラドックス(I)」が示唆するように、未知の量 を推定しようとするとき、より良いデータ(適切に選択されたサンプルなど)を取得することは、大きなデータよりもはるかに有益です。しかし、通常、より多くのデータが役立ちます!
usεr11852が復活モニック言う

6

Pハッキングと呼ばれるものは、有意性テストを複数回適用し、有意性の結果のみを報告することです。これが良いか悪いかは状況に依存します。

説明するために、帰無仮説および対立仮説ではなく、ベイジアン用語での真の効果について考えてみましょう。興味のある効果が連続的な分布から来ると信じている限り、帰無仮説が偽であることを知っています。ただし、両側検定の場合、正か負かはわかりません。この観点から、両側検定のp値は、推定値が正しい方向(つまり、正または負の効果)を持っているという証拠の強さの尺度として考えることができます。

この解釈のもとで、どの有意性検定でも3つの結果が得られます:効果の方向を結論付けるのに十分な証拠があり、正しい、効果の方向を結論付けるのに十分な証拠がありますが、間違っている、または間違っている効果の方向を結論付けるのに十分な証拠を参照してください。十分な証拠があることを条件とすることに注意してください(つまり、)、方向を正しくする確率は、正しくない確率よりも大きくなければなりません(本当にクレイジーで本当に悪いテストがない限り)真の効果サイズがゼロに近づくと、十分なエビデンスが与えられた場合に方向を正しくする条件付き確率は0.5に近づきます。p<α

次に、戻ってさらにデータを取得するときに何が起こるかを考えます。より多くのデータを取得するたびに、十分なデータのみを条件として正しい方向を取得する確率が高くなります。そのため、このシナリオでは、より多くのデータを取得することで、実際にタイプIエラーの確率が増加しますが、誤った方向を誤って結論付ける可能性も減少することを認識する必要があります。

これとは対照的に、Pハッキングのより一般的な悪用と比較してください。非常に小さい可能性が高く、重要なもののみを報告する100種類の効果サイズをテストします。この場合、すべての影響が小さい場合、有意性を宣言するときに方向が間違っている可能性がほぼ50%あることに注意してください。

もちろん、このデータのダブルダウンから生成されたp値には、まだ微妙な違いがあります。一般的に、エフェクトサイズについてより確実にするためにより多くのデータを収集する人々に問題はないはずですが、これは他の方法で悪用される可能性があります。たとえば、賢いPIは、100個すべてのデータポイントを一度に収集する代わりに、最初に50個のデータポイントを収集し、データを分析し、それが重要でない場合は次の50個を収集することで、多くのお金節約し、電力増やすことができることに気付くかもしれません。このシナリオでは、100データポイントよりも50データポイントの方が効果の方向が間違っている可能性が高いため、重要性を宣言することを条件に、効果の方向が間違っている可能性が高くなります。

最後に、重要な結果が得られない場合にデータを取得しないことの意味を考慮します。それは、そのトピックに関するこれ以上の情報を決して収集しないことを意味し、それは科学を本当に前進させないでしょうか?不十分な研究では、フィールド全体が破壊されます。


1
(+1)これは興味深い視点ですが、フィッシャーの方法論と賢いPIの方法論の違いについて詳しく説明していただけますか?最初のテストは重要ではないため、どちらもより多くのデータを収集します。
nalzok

また、「実際にタイプIエラーの確率を増やしているが、間違った方向を誤って結論付ける可能性を減らしている」という意味がわかりません。ここでの帰無仮説は何ですか?IMOは、片側テストを行う場合、「間違った方向を結論付ける」は「タイプIエラー」であり、両側テストの場合、方向を結論付けるべきではありません。
nalzok

間違っている場合は修正してください。ただし、両面テストが重要になるまでデータを収集し続けることをお勧めします。この場合、タイプIのエラー率は100%になります。
nalzok

1
フィッシャーが推奨するものと賢い/素朴なPIとの主な違いは、フィッシャーが結論付けられた研究からその呼び出しを行うことです。彼の選択肢は、より多くのデータを収集するか、効果の方向を決して知らないと決定することです。一方、PI は、データを見る前に最初の調査を無効にすることを決定します。
クリフAB

1
@nalzok:仕事以外の時間に見てみようと思います:)
Cliff AB

1

代替のアプリオリ確率が小さかっ場合、ヌルを拒否できない実験はそれをさらに減少させ、さらなる研究の費用対効果をさらに低下させます。たとえば、事前確率が0.01であるとします。その場合、エントロピーは.08ビットです。確率が.001に低下すると、エントロピーは.01になります。したがって、データを収集し続けることは、多くの場合、費用対効果が高くありません。費用対効果が高い理由の1つは、知ることが非常に重要であるため、残りの.01ビットのエントロピーさえも削減する価値があるということです。

もう1つの理由は、事前確率が本当に高かった場合です。あなたの場合は先験的確率が50%以上だった場合、ヌルを拒否することができないことは高く、より多くのデータを収集し続けるために費用対効果が作る、あなたのエントロピーを。例としては、効果があることはほぼ確実だが、どの方向にあるのかわからない場合です。

たとえば、もしあなたが反知能エージェントであり、部署にほくろがあると確信し、それを2人の容疑者に絞り、どちらを決定するために統計分析を行っているなら、統計的に意味のない結果が収集を正当化するでしょうより多くのデータ。


ヌルを拒否しないと、確率が低下するのはなぜですか?証拠の不在は不在の証拠ではないが、なぜ不在に対する証拠であるのか理解できない。
nalzok

@nalzok私は、「代替のアプリオリ確率が小さかった場合、nullを拒否しない実験はそれをさらに減らす」と書いた。「null」は「it」に最も近い名詞であるが、nullは量ではないしたがって、減らすことはできず、「it」の有効な前件ではありません。さらに、「さらに」は、「それ」がすでに小さいものを指すことを示します。これらの事実は、「それ」が代替案の「小さな先験的確率」であるという先例を指し示しています。
累積
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.