多重比較が問題になるのはなぜですか?


44

多重比較の問題が実際に何であるかを理解するのは難しいと思います。簡単な例えで言えば、多くの決定を下す人は多くの間違いを犯すと言われています。そのため、ボンフェローニ補正のような非常に保守的な予防策が適用され、この人が間違いを犯す可能性ができるだけ低くなるようにします。

しかし、間違った決定の割合ではなく、その人が行ったすべての決定の中で間違いを犯したかどうかを気にするのはなぜですか?

何が私を他の類推と混同するかを説明しよう。2人の裁判官がいて、1人は60歳、もう1人は20歳だとします。それからボンフェローニの訂正は、20歳の人に執行を決定する際に可能な限り保守的であるように伝えます。しかし、60歳の人はすぐに引退する可能性があり、意思決定が少なくなるため、他の人に比べて不注意になる可能性があります。しかし、実際には、両方の裁判官は、彼らが行う決定の総数に関係なく、同様に慎重または保守的でなければなりません。この類推は多かれ少なかれ、Bonferroni補正が適用される実際の問題に変換されると思います。


8
本当にあなたの質問に対する答えではありませんが、False Discovery Rates(FDR)に遭遇しましたか?Narumによる「Beyond Bonferroni」:springerlink.com/content/c5047h0084528056
apeescape

回答:


40

あなたは、ボンフェローニの修正に対する古典的な反論である何かを述べました。これまでに行うすべてのテストに基づいてアルファ基準を調整するべきではありませんか?このような不条理な含意が、ボンフェローニスタイルの修正をまったく信じない人がいる理由です。キャリアで扱うデータの種類によっては、これが問題にならない場合があります。新しい証拠ごとに1つ、またはごくわずかな決定を下す裁判官にとって、これは非常に有効な議論です。しかし、20人の被告を持つ裁判官と、単一の大きなデータセット(たとえば、戦争法廷)に基づいて彼らの判断を下している裁判官はどうでしょうか。

あなたは議論の缶の部分でキックを無視しています。一般に、科学者は何かを探しています-アルファよりも小さいp値。1つを見つけようとするたびに、もう1つ別のことができます。十分なショットをとると、最終的には見つけられます。したがって、彼らはそれを行うために罰せられるべきです。

これらの2つの議論を調和させる方法は、両方とも真実であることを認識することです。最も簡単な解決策は、単一のデータセット内の差異のテストを、缶の種類の問題のキックとして検討することですが、修正範囲を外側に広げると、滑りやすい斜面になります。

これは多くの分野で非常に困難な問題であり、特にFMRIでは何千ものデータポイントが比較されており、偶然に重要なものが出てくることがあります。この分野が歴史的に非常に探索的であったことを考えると、脳の何百もの領域が純粋に偶然に重要に見えるという事実を修正するために何かをしなければなりません。したがって、その分野では、基準を調整する多くの方法が開発されています。

一方、一部のフィールドでは、せいぜい3〜5レベルの変数を見て、有意なANOVAが発生した場合は常にすべての組み合わせをテストするだけです。これにはいくつかの問題(タイプ1エラー)があることが知られていますが、特にひどいわけではありません。

それはあなたの視点に依存します。FMRIの研究者は、基準の変更が本当に必要であることを認識しています。小さなANOVAを見ている人は、テストから明らかに何かがあると感じるかもしれません。多重比較の適切な保守的な観点は、単一のデータセットのみに基づいて、常にそれらについて何かを行うことです。新しいデータは基準をリセットします...あなたがベイジアンでない限り...


おかげで、とても助かりました。十分な担当者がいるときに投票します。
AgCl

FMRIの研究者は、おそらく長期間のテストでalpha * 100%の誤検出を保証するため、False Discovery Rate(FDR)基準も使用するでしょう。
ブランドンシャーマン

@ジョン、この質問に答えていただけますかstats.stackexchange.com/questions/431011 / ...助けていただければ幸いです。
Sabbir Ahmed

26

尊敬される統計学者は、複数の比較で幅広い立場をとってきました。それは微妙な主題です。誰かがそれを単純だと思うなら、私は彼らがそれについてどれほど考えているのだろうかと思います。

Andrew Gelmanによる複数のテストに関する興味深いベイジアンの視点を以下に示します。


2
この論文で興味深いと思うのは、視点がベイジアンであるということですが、多重比較の修正を置き換えるために提供される階層モデリングアプローチでは、ベイジアンである必要ありませ
共役

1
私はただその記事を見ていました。もっと引用する必要があると思います。高度な多重比較手法はあまり知られていないか、簡単に実行できないため、排水溝へのフラッシュ効果は嫌いです。対照的に、lmerアプローチは単純なドロップデッドです。検討する必要がある重大な問題があるかどうか疑問に思います。
ラッセルピアス


13

前述のコメントに関連して、fMRIの研究者が覚えておくべきことは、臨床的に重要な結果は重要であり、脳のfMRIの単一ピクセルの密度シフトではないということです。それが臨床的改善/有害にならなければ、それは重要ではありません。これは、複数の比較に関する懸念を軽減する1つの方法です。

こちらもご覧ください:

  1. バウアー、P。(1991)。臨床試験での複数のテスト。Stat Med、10(6)、871-89; ディスカッション889-90。
  2. Proschan、MAおよびWaclawiw、MA(2000)。臨床試験における多重度調整の実用的なガイドライン。対照臨床試験、21(6)、527-39。
  3. ロスマン、KJ(1990)。複数の比較に調整は必要ありません。疫学(マサチューセッツ州ケンブリッジ)、1(1)、43-6。
  4. Perneger、TV(1998)。ボンフェローニ調整の何が問題なのか。BMJ(Clinical Research Ed。)、316(7139)、1236-8。

これは間違いなくも引用価値がある:prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
ニコ

彼らは死んだサーモンにその感情について尋ねるのがとても楽しかったと確信しています!!!
ニコ

この投稿には、RCTに関連する有用な参照j.mp/bAgr1Bもあります。
chl

10

n(Xi)i=1,,ni=1,,n XiN(θi,1)

H0i:θi=0H1i:θi0

niτiH0i|Xi|>τi

τi

  1. 全員に同じしきい値を選択します

  2. 全員に異なるしきい値を選択します (ほとんどの場合、データ単位のしきい値、以下を参照)。

さまざまな目的:これらのオプションは、次のようなさまざまな目的のために駆動できます。

  • H0ii
  • 誤警報率(または誤検出率)の予想を制御する

    最後にあなたの目標は何ですか、データごとのしきい値を使用することをお勧めします。

あなたの質問に対する私の答え:あなたの直感は、データ単位のしきい値を選択するための主要なヒューリスティックに関連しています。それは次のとおりです(ホルムの手順の起源は、ボンフェローニよりも強力です)。

p|Xi|H0inpH0i

あなたの裁判官の場合:私は両方の裁判官が彼らの人生のために誤った告発の同じ予算を持っていると思います(そしてあなたも同じようにするべきだと思います)。60歳の裁判官は、過去に誰も非難していなかった場合、保守的ではないかもしれません。しかし、彼がすでに多くの非難をした場合、彼はより保守的で、おそらく最も若い裁判官よりもさらに多くなります。


あなたはあなたの仮説にタイプミスがあると思います-それらは両方とも同じように見えます
...-walkytalky

2

説明的な(そして面白い)記事。http://www.jsur.org/ar/jsur_ben102010.pdf)多くの変数、例えばfmriを進化させるいくつかの実践的研究における複数のテスト修正の必要性について。この短い引用は、メッセージの大部分を示しています。

「[...]私たちは、死後のアトランティックサーモンを被験者としてfMRIスキャンセッションを完了しました。サーモンは、後に人間の被験者のグループに投与されたのと同じ社会的視点をとる課題を示しました。」

つまり、私の経験では、ユーザーが複数のテスト修正を使用することを奨励する素晴らしい議論です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.