研究者1は1000回の回帰を実行し、研究者2は1回のみを実行しますが、どちらも同じ結果になります。異なる推論を行う必要がありますか?


12

研究者がデータセットを調査しており、1000の異なる回帰を実行し、それらの間に1つの興味深い関係を見つけたとします。

ここで、同じデータ持つ別の研究者がたった1つの回帰を実行し、他の研究者が1000の回帰を見つけて見つけたものと同じであることがわかります。研究者2は研究者1を知りません。

研究者1は研究者2とは異なる推論をすべきですか?どうして?たとえば、研究者1は多重比較補正を実行すべきですが、研究者2は実行すべきではありませんか?

研究者2が最初に単一の回帰を示した場合、どのような推測をしますか?その後、研究者1が結果を示した場合、推論を変更する必要がありますか?もしそうなら、なぜそれが重要なのでしょうか?

PS 1:仮想の研究者について話すと問題が抽象化されるので、考えてみてください。利用可能な最良の方法を使用して、論文の回帰を1回だけ実行したと想像してください。次に、別の研究者が、あなたが実行しまったく同じ回帰が見つかるまで、同じデータで1000の異なる回帰を調査しました。二人は異なる推論をする必要がありますか?両方のケースで証拠は同じですか?他の研究者の結果を知っている場合、推論を変更する必要がありますか?公衆は2つの研究の証拠をどのように評価すべきですか?

PS 2:可能であれば、具体的で、数学的/理論的な正当化を提供するようにしてください!


1
有効な比較にするには、すべての帰無仮説と対立仮説を指定する必要があります。研究者2は1つの仮説のみをテストできますが、研究者1はおそらく1000のうち1つのタイプ1エラーを起こさない確率を制御したいと考えています。それが同時推論である場合、p値調整を行う必要があります。研究者2には1つのテストがあり、調整の必要はありません。研究者1の場合、異なるデータを同じデータに適合させますか、それとも1000個のデータセットのそれぞれに適合した1つのモデルですか
マイケルR.チャーニック

1
@MichaelChernickにはデータセットが1つしかありません。研究者1は、好きなモデルが見つかるまで、同じデータセットに1000個のモデルを適合させます。研究者2は1のみに適合しました。両方の研究者は同じデータを使用します。これらの2人の研究者は、まったく同じデータセットで異なることを結論付けなければならないと言うでしょうか?研究者2は自分の分析に正当に自信を持っているべきであり、研究者1は多重比較のためにp値/信頼区間を膨らませるべきですか?
statslearner

あなたが私の議論に従えば、研究者2だけが単一の仮説をテストし、研究者1は1000の仮説をテストし、彼がテストしたすべての仮説を制御する必要があるという意味でそうします。まだあいまいなのは、「興味深い関係を1つだけ見つける」という意味です。逆説的な状況を提起したと思うかもしれません。私はあなたが持っているとは思わない。
マイケルR.チャーニック

1
@MichaelChernickまったく同じデータがまったく同じモデルであり、2つの異なる結論につながるというパラドックスではないのはどうしてですか?2つの別々の論文を読んだ場合、あなたは何を結論づけますか?
statslearner

1
@MichaelChernick私がやったのですが、これが正しいと思うのは厄介なことです---まったく同じデータで、まったく同じモデルで、2つの異なる結論に至ります。答えに対する私のコメントをご覧ください。
statslearner

回答:


3

あなたの質問に対する私の「ベイジアン」の傾斜です。同じデータセットが与えられたときに、異なる事前情報を持つ2人のユーザーが異なる回答/結論を得る状況を説明したと思います。より鈍い/極端な例は、仮説に基づいて回帰モデルのパラメータと結論を推測する「研究者1b」がいると仮定します。ランニング回帰分析をは、概念的には推測からそれほど遠くありません。1000

私は何が起こっていると思いますか... 上記の質問から研究者の事前情報について何を学びますか?-研究者1は、おそらくモデル 研究者2は、関心のあるモデルPM1|I2=1MP(Mk|I1)=11000P(M1|I2)=1モデル、彼らの両方フィットです)M1

これは明らかに単純化ですが、ここでわかるように、データなしの研究者2の推論により多くの重みを置いています。しかし、あなたはデータの彼ら一度両方のテイクアカウント、研究者のための1の事後確率、参照増加します... P M 1 | D I > > P M 1 |私が(...我々はこの理由を知っています他の999個のモデルよりも「良かった」...)。研究者2の後部はもう集中できず、すでに1に等しい。私たちが知らないのはM1P(M1|DI)>>P(M1|I)9991、データどれだけサポートしたかという代替案に対する 1。また、異なるモデルが研究者1の実質的な結論をどのように変えるかについても知りません。たとえば、 1000個のモデルすべてに共通の用語が含まれ、その変数の 1000個の回帰パラメーターがすべて 0を大きく超えていると仮定します(例: p vすべてのモデルで a l u e < 10 8)。そうすれば、多くのモデルが適合していても、有意なプラス効果を結論付けるのに問題はありません。M1100010000pvalue<108

また、データセットの大きさも言わないでください。これは重要です。観測値と10個の共変量/予測子/独立変数を含むデータセットについて話している場合、研究者1はおそらくモデルについてまだ非常に不確かでしょう。しかし、研究者1が使用している場合は2 000 10010の観察を、これが最終的モデルを決定することができます。2,000,000

異なる情報で始まり、同じデータを見た後も異なる結論を出し続ける2人の人々には根本的に悪いことは何もありません。ただし...同じデータを見ると、「モデル空間」が重複し、データがこの「重複領域」をサポートしていれば、それらはより密接になります。


それで、あなたの主張の基本的な部分は、彼らが異なった事前分布を持っているので、彼らが異なった推論をするべきであるということであり、どれだけ彼らが「データを調査した」ので正しいのですか?
statslearner

ところで、証拠をどのよう評価しますか?研究者1が何人のモデルを装着したか気になりますか?もしそうなら、なぜですか?
statslearner

適合するモデルのは必ずしも気にしませんが、使用されているモデルがある程度確実に知られているかどうかは気にしません。簡単に述べたように、合理的な代替手段があるかどうかを知りたいと思います。たとえば、研究者1が変数のドロップ/追加について「ラインボール」の決定を下した場合、そのことを確認したいと思います。
確率論的

1
なぜあなたは言及されたものを見たいと思うのですか、それはあなたの以前を何とか変えますか?事前に彼をプロキシとして使用していますか?あなたが作っているマッピングは私には明らかではありません。データ生成プロセスにまったく影響しないので、なぜ特定の研究者の理由があなたの推論のために重要なのですか?
statslearner

1
ここでのデータセットは研究者の外部にあると考えていますが、彼はそれを収集せず、両方の研究者は同じデータを使用します。心理学で発見を再現できない理由は、合理的な人/科学者が先験的にばかげていると思ういくつかのクレイジーな仮説を判断するための証拠基準として緩やかな有意性しきい値を使用するためです。ここでケースを取り上げてみましょう。この例でテストした仮説が、このようなパワーポーズにとんでもないものである場合、1回実行したか1000回実行したかは問題になりますか?
statslearner

7

統計的な解釈は、あなたが求めている数学的処理よりもはるかに明確ではありません。

数学は、明確に定義された問題に関するものです。例えば、完璧なサイコロを転がしたり、urからボールを​​引いたりします。

統計は、数学がガイドラインを提供する数学に適用されますが、(正確な)解決策ではありません。

この場合、状況が重要な役割を果たすことは明らかです。回帰を実行し、強度を表すためにp値を計算(数学)した場合、p値の解釈(統計)および値はどうなりますか?

  • 研究者1実行した1000回の回帰の場合、このタイプの状況は実際に手掛かりがなく、単にデータを調査しているときに発生するため、結果ははるかに弱いです。p値は、何かがあるかもしれないことを示すだけです。

    したがって、研究者1によって実行される回帰では、p値は明らかに価値が低くなります。また、研究者1または研究者1の結果を使用する誰かが回帰で何かをしたい場合は、p値を修正する必要があります。(そして、研究者1と研究者2の違いが十分でないと思ったら、研究者1が多重比較のためにp値を修正する方法を考えてみてください)

  • 研究者2によって実行された単一回帰の場合、結果は非常に強力な証拠です。しかし、それは回帰がそれだけでは成り立たないからです。私たちは、その理由を含める必要があり、なぜ研究者2は、ただ1つの回帰をしました。これは、単一の回帰がデータの適切なモデルであるとすでに信じている正当な(追加の)理由があるためかもしれません。

  • 研究者1と研究者2によって実行される回帰の設定は大きく異なり、同じ問題で両方が同時に発生することはあまりありません。この場合、次のいずれか

    • 研究者2はとてもラッキーだった

      これはそれほど珍しいことではなく、文献を解釈する際にこれをより正確に修正する必要があります。また、研究の全体像の公開を改善する必要があります。研究者2のような1000人の研究者がいて、そのうちの1人だけが成功を発表するのを見ると、他の999人の研究者の失敗を見なかったので、研究者1のような事件はなかったと誤解するかもしれません

    • 研究者1はそれほど賢くなく、回帰について信じられないほど余分な検索を行いましたが、おそらく最初からその単一のものであるべきであり、より強力なテストを実行できたことを知っていたかもしれません。

      研究者1より賢い部外者(最初から追加の999の回帰を気にしない)および作業について読む場合、結果の重要性により大きな力を与える可能性がありますが、それでも彼は研究者の成果2。

      研究者1は999の余分な追加回帰を修正する際に保守的すぎたかもしれませんが、研究が知識の真空で行われたという事実を無視することはできず、タイプよりもタイプ1の幸運な研究者を見つける可能性がはるかに高くなります2。

興味深い関連ストーリー:天文学では、宇宙背景をより正確に測定するためのより良い機器を計画していたときに、データの半分しか公開しないと主張した研究者がいました。これは、データを収集するショットが1つしかないためです。多数の異なる研究者によってすべての回帰が実行されると(そして、理論家の信じられないほどの変化と創造性のために、データのあらゆる可能なランダムなバンプに確かにある程度適合します)、実行する可能性はありません検証するための新しい実験(つまり、まったく新しいユニバースを生成できない場合)。


1
私のコメントで言ったように、@ MartijnWeteringsの+1は問題が数学的に適切に提起されていなかった。2人の研究者が同じモデル選択に導かれるが、多重比較問題の必要性のために1000人の回帰を行う研究者はペナルティを受けるため、OPはパラドックスがあると考えたという印象を受けました。私はこれをパラドックスとはまったく考えていません(明確ではありませんが、OPはそう思いました)。あなたは非常に美しく書かれた正しい答えを与えました。そして、それはまた2つのケースが異なる理由を直観的に説明します。OPはあなたの答えをチェックすべきだと思います!
マイケルR.チェルニック


1
また、これが一般的な慣習であることは知っていますが、同じデータ生成プロセスのまったく同じモデルとデータである場合、一方の結果が他方よりも「より強力な証拠」であると言うのは面倒ではありませんか?唯一異なるのは、第三者がデータをどの程度見たかであり、これはDGP自体または問題に関する以前の信念とは関係がないはずです。たとえば、研究者2の分析は研究者1の無知によって汚染されるべきですか?
statslearner

1
@MartijnWeteringsデータの解釈において研究者の意図が重要なのはなぜですか?これを経験豊富な結果を解釈する素人として経験則として使用している場合、これは問題ありません。しかし、データを分析する科学者にとって、研究者の意図は証拠の解釈に影響を与えるべきではないようです。
statslearner

1
したがって、あなたは研究者の振る舞いを事前の代理として使用しているようです。研究者が1000回回帰を実​​行した場合、それはその特定の仮説の前の低値に相当します。彼が1枚だけ走った場合、これはその仮説の高優先順位に相当します。2つのケースがあった場合、どちらを使用するかはわかりません。
statslearner

1

短編:使用された方法や収集されたデータについて何も知らないため、質問に答えるのに十分な情報がありません。

長い答え...ここでの本当の質問は、各研究者がやっているかどうかです:

  • 厳格な科学
  • 厳密な擬似科学
  • データの調査
  • データdrまたはPハッキング

彼らの方法は、結果の解釈の強さを決定します。これは、一部の方法が他の方法よりも音が小さいためです。

厳密な科学では、仮説を作成し、交絡変数を特定し、仮説外の変数のコントロールを開発し、テスト方法を計画し、分析方法を計画し、テストを実行してデータを収集し、データを分析します。(テストが行​​われる前に分析方法が計画されていることに注意してください)。仮説と一致しないデータと分析を受け入れなければならないため、これは最も厳密です。何か面白いものを得るために、事実の後にメソッドを変更することは受け入れられません。調査結果からの新しい仮説は、再び同じプロセスを経る必要があります。

疑似科学では、すでに収集されたデータを使用することがよくあります。結果にバイアスを追加する方が簡単であるため、これを倫理的に使用するのはより困難です。ただし、倫理的アナリストの科学的方法に従うことは依然として可能です。ただし、適切な制御を設定することは困難な場合があり、調査して注意する必要があります。

データの調査は科学に基づいていません。特定の仮説はありません。交絡因子の先験的な評価はありません。また、同じデータを使用して分析に戻って再実行することは困難です。これは、結果が事前の知識やモデリングによって汚染され、検証に使用する新しいデータがないためです。探索的分析から見つかった関係の可能性を明確にするために、厳密な科学実験が推奨されます。

データdrまたはPハッキングは、「分析者」が予期しないまたは未知の答えを期待して複数のテストを実行するか、データを操作して結果を得る場所です。結果は、単なる偶然の一致である場合もあれば、変数の交絡の結果である場合もあれば、意味のある効果のサイズまたはパワーを持たない場合もあります。

各問題にはいくつかの救済策がありますが、それらの救済策は慎重に評価する必要があります。


1
質問に不要なノイズを追加していると思います。利用可能な最善の方法を使用したと仮定します。データは彼らによってではなく、統計機関によって収集されたので、彼らはデータ収集を制御できませんでした。唯一の違いは、各研究者がデータを調査した量です。それらの1つは頻繁に探索し、もう1つは一度だけ探索しました。どちらも同じデータで同じ最終モデルを取得します。彼らは異なる推論をする必要がありますか?そして、それはあなたの推論にどのように影響しますか?
statslearner

これは余分なノイズではありません。数学は数学です。モデルが同一である場合、それらは同一です。モデルの解釈方法は、問題に含まれていない他のすべての変数に依存します。他のすべてのコンテキストと設計または実験をすべて無視すると、答えは簡単です。両方のモデルは数学的に等しく機能し、両方とも科学的に弱いです。
アダムサンプソン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.