多重比較問題の原因は何ですか?


9

MCPの背後にある直感は理解していますが、原因を正確に特定するのに苦労しています。回避すべきこと、または少なくとも説明する必要があることは何ですか。

最も率直な定義で、私はデータを取り、可能なすべての帰無仮説を試してそれに力ずくのアプローチを適用すると、最終的に任意のアルファ(たとえば、5%)で拒否できるものを見つけ、宣言することに同意します発見。

しかし、MCPの多くの定義では、「テストすればするほど、見つかる可能性が高い」などと読みましたが、私は同意しますが、必ずしもそれを問題(または少なくとも問題の根本)とは限りません。たとえば、多くの研究者が同じ現象を同じ利用可能なデータで分析していて、それぞれが独自の仮説を検証している場合、(たった1人の研究者である場合よりも)発見に到達する可能性が高くなります。ターゲットアルファへのある種の補正(たとえば、Bonferroni補正)?私は答えがノーであると仮定していますが、単一の研究者が多くの仮説をテストする必要がある理由が明確になりません(ここでも、テストシステムが悪用される可能性があり、そのための修正があるはずです)。

発見を見つける機会の増加(帰無仮説を拒否)が問題になるのはいつですか?原因について考えるとき、頭に浮かぶいくつかの要因がありますが、これらのうちのどれ(またはここにリストされていないもの)がこの問題の原因に関連しているかはわかりません。

  1. 事後分析:仮説は(できれば)アプリオリに定式化する必要があることを理解しています。そうでない場合は、希望のアルファの下でどの仮説を当てはめることができるかを推測するためのデータを調べています。

  2. データの再利用:テストする仮説ごとに異なるデータセットを使用すれば、問題はなくなりましたか?発見を発見する可能性は、私がテストする仮説をさらに増やします(たとえ異なるデータセットであっても)。

  3. 独立した研究者:前の例を再利用して、MCPは同じ研究チーム/努力に関連していますか?それとも、同じ問題(または同じまたは類似のデータ)に取り組む複数の独立した研究者に適用されますか?

  4. 独立した仮説:前の問題に関連して、仮説が独立しているときに問題が発生しますか(またはより強く現れますか)?(私はより多くの検索スペースをカバーしているため)または主な問題は、小さな変動(たとえば、パラメーターの微調整)で同様の仮説を試すことですか?

上記のポイントを私の解釈で要約すると、(1)と(2)は、発見を見つけやすくするために、検索スペースを削減する(最適化理論から用語を借用する)形です。(3)および(4)それらが適用されるたびに(すなわち、仮説がテストされるたびに)この探索空間のより多くをカバーするより直交する探索法を使用する。しかし、これらは私が思いつく可能性のある考えられる原因のほんの一部であり、答えを始めるのを助けるために、私が確信していない多くがまだあります。

この質問は、多重比較が問題ある理由を尋ねる以前の質問からのフォローアップであり、FWERFDRの違いに似た問題を引き起こします(質問を正しく理解している場合)。この質問では、(FDRを使用する傾向がありますが)問題としては考慮していませんが、両方の率は、複数の仮説を分析するときに問題があることを意味します(ただし、次の場合の違いはわかりません)私はさまざまな無関係な問題を分析し、それぞれ5%の有意性を持つ発見を見つけました。つまり、帰無仮説を拒否する100の問題を「解決」した場合、そのうちの5つ-期待値-はおそらく間違っているでしょう)。その質問への最良の答え 明確な答えはなく、おそらくこの質問に対する答えもない可能性があることを示唆しましたが、MCPエラーの原因がどこにあるのかを可能な限り解明することは(少なくとも私にとっては)非常に役立ちますから来る。

(同じ質問に対する別の回答は、古典的な視点に対するベイジアンマルチレベルモデルの視点の利点を説明する論文を提案しました。これは調査する価値のある別の興味深いアプローチですが、この質問の範囲は古典的なフレームワークです。)

この問題について、いくつかの質問に、多くの価値があるの読み取りが既に存在する(例えば、1234)の問題は、上記の提起が、(それも可能であれば)、私はまだより統一答えを感じる(異なる視点からの)アドレス不足しているため、この質問は(すでに問題のある)SNRを低下させないことを願っています。


「…テストすればするほど、見つかる可能性が高くなります」は、単に偶然によるものです。FTFY。:)つまり、「真の関連による」ではなく、「偶然による」ということです。
Alexis

私は同意します、それはあなただけでなく他の人たちにも当てはまります。ただし、探索的データ分析を行って、他のデータを個別に厳密かつ個別に追跡できるようにする必要があります。
ロバートジョーンズ

有名で重要な劇的な例については、ncbi.nlm.nih.gov / pmc / articles / PMC3659368を参照してください。
whuber

私が気づいているのは、質問の中の「発見」という言葉のいくつかの例です。それぞれの「発見」を「誤った発見」に置き換える質問を読み直すと、問題の性質をより明確に理解するのに役立つ場合があります。
Russ Lenth、2017年

データセットが与えられた場合、データセットが小さいほど、より多くの研究者がそのデータに取り組んでいるように思われますが、偶然にデータセット内に誤った相関関係が見つかる可能性が高くなります。それは、当選した宝くじのチケット番号を「見つけよう」とする大勢の人々のグループに似ています。あるデータセットで見つかった仮説を別のデータセットで個別に検証して、発見が誤ったものである可能性を減らす必要があります。しかし、それはデータセットのサイズ、それに取り組んでいる研究の数、およびデータの衛生プロセスをどれだけ信頼できるかに依存します。
rinspy 2017年

回答:


2

あなたの直感はおおよそ正しいですが、多重比較が仮説検定自体の仮定をいかに弱体化させるかを検討することは役立つかもしれません。古典的な仮説検定を実施すると、帰無仮説に対する証拠の尺度であるp値が生成されます。p値は、低い値が帰無論に対するより大きな証拠を構成するように構築され、帰無仮説の下で均一に分布します。これにより、帰無仮説を(有意水準に比べて)p値が低い場合は妥当ではないと見なすことができます。

N>1p1,...,pNU(0,1)0<α<1p(1)<...<p(k)<α<p(k+1)...<p(N)K0kNk

ここの問題は何ですか?さて、問題は、各テストのp値がそれぞれの帰無仮説の下で均一であるにもかかわらず、順序付けられた p値が均一ではないことです。有意水準を下回る最も低い p値を選択することにより、それぞれの帰無仮説の下で均一である確率変数を見ることはもうありません。実際、が大きい場合、最も低いp値はゼロ近くに非常に集中する分布になる可能性が高いため、(仮定により)すべての帰無仮説がテストは本当です。NkN

この現象は、p値が独立しているかどうかに関係なく発生するため、これらの仮説をテストするために同じデータまたは異なるデータを使用しているかどうかに関係なく発生します。多重比較の問題は、検定のより低いp値が均一ではない限界null分布を持つことです。Bonferroni補正などの調整では、p値または有意水準を調整してこの現象を説明する比較を作成することにより、これに対処しようとします。N


したがって、1つのデータセットに対して複数のテストを実行する1人の研究者と、同じデータセットに対してそれぞれ1つのテストを実行する多くの個々の研究者のOPの例を考えると、前者のp値のセットは、後者の個々のp値、それから何?後者の場合、同じ検定のp値は有意ですが、前者のMCPの調整後は有意ではありませんか?では、複数のテストを実施する場合、計画されたテストと同じ数の研究者が参加する共同論文を書く方が良いでしょうか?:)
2018年

10件のテストに関する1つの論文を書くか、1つのテストに関する10件の論文を書くかどうかに関係なく、問題は同じです---複数の比較を見て、p値が低いテストを選び、その選択を条件としてp-値は均一ではなくなりました。10人の研究者が個々のテスト結果を報告する10個の個別の論文を書き、p値が最も低いため、p値が最も低い論文を(たとえば、プレゼンテーションのために)引き出した場合p値の選択を条件としますもはや均一ではありません。
ベン-2018

申し訳ありませんが、私はまだ議論に従っているかどうかわかりません。たとえば、同じデータセットが10の異なる分布から生成されていることをテストします。また、これらのテストのうち3つについて、p値がアルファしきい値を下回っているとします。したがって、これらのテストが個々の研究者によって個別に実行される場合、これらの3つの分布に対してテストしたものは、特定の分布からのデータのnullを拒否できますが、1人の研究者がテストを実行すると、3つを拒否できません帰無仮説?
交絡

個々の研究者(他のテストについて何も知らない)は、標準の有意水準に対して何の調整も行わずに仮説テストを行っているかもしれません。しかし、人がやって来てそれらのすべての論文読んだ場合、彼らはそれらすべての総計の証拠を考慮する必要があります。つまり、p値が最も低い用紙を選択した場合、そのp値を他のユーザーから分離して評価すべきではありません。そうすることは、彼らに誤った代替仮説の受け入れに偏らせるでしょう。
ベン-2018

(これは実際にはより広い統計的問題の一部です。使用する推論のオブジェクトがデータの影響を受ける場合、その推論のオブジェクトの適切な使用は、データへの依存を考慮する必要があります。)
ベン-モニカの復活

1

研究者は発見がいつなされたかがわかると想定しているようです。そうではありません。「発見を見つけた」としても、それを行ったことを確信することはできません(ある種の全知的な存在でない限り)。というのも、それをいじくるのと同じように、科学における発見と誤報を区別するのは通常分析におけるある程度の人間の「信頼」。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.