なぜベイジアン手法は複数のテスト修正を必要としないのですか?


22

アンドリュー・ゲルマンは、ベイジアンAB検定が複数の仮説修正を必要としない理由に関する広範な記事を書いた:2012年、複数の比較を心配する必要がない理由(通常)

よくわかりません。なぜベイジアンメソッドは複数のテスト修正を必要としないのですか?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

私の理解では、上記のベイジアンのアプローチは、すべての仮説による共有された基礎となる分布を説明するものです(頻繁なボンフェローニ補正とは異なります)。私の推論は正しいですか?


アンドリュー・ゲルマンの例に従います:なぜ我々は(通常)多重比較について心配する必要がないのか、2012年。彼のブログもご覧ください。
パトリックマッキャン

5
パトリックのリンクは非常に役立ちますが、「適度に統計的にリテラシーのある科学レビュアー」を対象とした、より自己完結した答えを見るのは素晴らしいことです。
推測

回答:


14

質問に答える奇妙な方法の1つは、ベイジアン法は証拠の受け入れられた規則と一貫しており、頻繁な方法はしばしばそれらと矛盾するため、ベイジアン法はこれを行う方法を提供しないことに注意することです。例:

  • 頻度の高い統計では、家族ごとのタイプIのエラーを考慮するため、治療AとBを比較すると、治療CとDを比較するためにペナルティを科さなければなりません。ベイジアンでは、ABの比較は単独で行われます。
  • 連続した頻度の高いテストでは、通常、データを複数回見るとペナルティが必要になります。グループシーケンシャル設定では、AとBの初期比較は、まだ行われていない後の比較に対してペナルティを科される必要があります。調査。

問題は、時間と情報の流れを頻繁に変えることから生じ、頻繁に起こることの代わりに、が起こったのかを頻繁に考えなければなりません。対照的に、ベイジアン評価は、すべての評価を事前分布に固定し、証拠を較正します。たとえば、AB差の事前分布は、ABの将来のすべての評価を調整し、CDを考慮する必要はありません。

順次テストでは、頻繁な推論を使用して実験が早期に終了した場合に、ポイント推定値を調整する方法について大きな混乱があります。ベイジアンの世界では、以前のポイント推定値は「引き戻され」、更新された事後分布はいつでも推論に適用され、複雑なサンプルスペースを考慮する必要はありません。


4
私はこの議論を本当に理解していません。通常の頻度主義的アプローチで1000の異なる比較を行う場合、もちろん、nullの場合でも約50の有意なp <0.05効果が期待できます。したがって、修正。代わりにベイジアン推定/テストを使用し、すべての比較に事前(約0?)がある場合、はい事前は事後をゼロに縮小しますが、無作為に変化する事後および/またはベイズ因子があり、おそらくいくつかを持ちます真の効果がすべてゼロの場合でも、「実質的な」効果のように見える1000個のケース。
アメーバは、モニカーを復活させる

1
@amoeba-それを考慮する1つの方法は、ベイジアンがすべての選択肢を考慮することです-「null」対「one alternative」だけではありません。一般的に、すべての代替手段を考慮すると、それぞれの事前確率は小さくなり、事実上推論にペナルティを科します。真/偽のすべての組み合わせを考慮する必要があります(不可能な組み合わせの予備知識がないと仮定します)。あなたは、*たった一つのケース*で何かがおかしいのではないかと心配しています。他のケースはどうですか? 2 1000121000210001
確率論的

1
申し訳ありませんが、@ probabilityislogic、あなたの主張を理解したかどうかはわかりません。「すべての選択肢」については十分に公平ですが、実際には何が起こるでしょうか?私が言ったように、私たちは(例えば)1000のグループの違いを推定しています。グループの違いに関する事前情報があります。1000の事後、95%の信頼できる間隔、その他何でも取得します。次に、信頼できる各間隔を調べて、ゼロから「意味のある/実質的な」効果になるのに十分かどうかを確認します。これを1000回行うと、1000個すべての効果が実際にゼロに等しい場合でも、いくつかの効果が大きく表示されるという意味で、いくつかの「誤検出」が発生する可能性があります。いや?
アメーバは、モニカーを復活させる

1
@amoeba-あなたの議論は、独立している間隔/拒否に依存します。実際には、人々は通常、多数の無関係な仮説をテストしません。したがって、マルチレベルモデル-共通の影響をキャプチャします。これにより、これらの信頼できる間隔が一緒に移動します(つまり、相関するサンプリング分布になります)。これにより、不良なモデルが使用されるとより多くの誤検知が発生し、良好なモデルが使用されるとより少なくなります。もちろん、良いか悪いかは、モデルに十分な情報が組み込まれているという意味です。1000
probabilityislogic

1
@probabilityislogic:必ずしもベイズのツールとは思わないが、私はマルチレベルモデルを絶対に支持している-ランダム効果のある混合モデルとANOVAは、t検定などと一緒によく使用されます...
アメーバは、モニカを復活させる

6

このタイプの階層モデルは、推定値を小さくし、少数から中程度の数の仮説に対して、合理的な範囲で誤ったクレームの数を減らします。特定のタイプIエラー率を保証しますか?いや

ゲルマンによるこの特定の提案(あまりにも多くの異なるものを見て、それからあなたがそれらのいくつかに何かを見ると簡単に間違って結論付ける問題を認めている)重要なのはあなたの可能性(およびあなたの事前)であるため、ベイジアン法は多重度を考慮する必要がないと考える視点。


1
(+1)いくつかのケースで予想される私の既知の約束(例:一致する事前分布を持つ無次元)ベイジアン推論では、タイプ1のエラー率を制御できません。したがって、ベイジアン設定での複数テスト修正は、IHMOをタイプ1エラーの修正と見なすことはできません。
peuhp


6

非常に興味深い質問です。ここでそれを考えます。

情報のエンコードがすべてであり、次にベイジアンクランクを回します。それは本当であるには余りにも良いようです-しかし、これらの両方は彼らが思われるよりも難しいです。

私は質問をすることから始めます

多重比較について心配するとき、どのような情報が使用されていますか?

いくつかのことを考えることができます-最初は「データdr」です-十分な合格/不合格になるまで「すべて」をテストします(ほとんどすべての統計トレーニングを受けた人がこの問題にさらされると思います)。また、不吉な部分は少なくなりますが、基本的には「実行するテストが非常に多くあります。すべてが正しくないことは確かです」。

これについて考えた後、私が気づいたことの1つは、特定の仮説や特定の比較についてあまり耳にすることはないということです。それはすべて「コレクション」に関するものです-これは交換可能性に対する私の考えの引き金となります-比較される仮説は何らかの形で互いに「類似」しています。また、交換可能性をベイジアン分析にどのようにエンコードしますか?-超優先、混合モデル、ランダム効果など!!!

しかし、交換可能性は、そこへの道の一部に過ぎません。すべて交換可能ですか?または、「スパース性」がありますか-候補の大きなプールを持ついくつかの非ゼロ回帰係数など。混合モデルと正規分布のランダム効果はここでは機能しません。それらは、ノイズをつぶして信号に手をつけないままにする(たとえば、locationBとlocationCの "true"パラメーターを等しくし、locationA "true"パラメーターを任意に大きくまたは小さく設定し、標準線形混合モデルが失敗するのを見て) 。しかし、それは修正することができます-「スパイクとスラブ」の優先順位や「馬の靴」の優先順位など。

ですから、あなたが話している仮説の種類を説明し、既知の特徴を事前確率と尤度に反映させることについてです。Andrew Gelmanのアプローチは、広範なクラスの多重比較を暗黙的に処理する方法にすぎません。最小二乗および正規分布と同様に、ほとんどの場合(すべてではありませんが)うまく機能する傾向があります。

これを行う方法については、次のように推論する人を考えることができます-グループAとグループBは同じ平均を持っている可能性があります-私はデータを見て、平均が「近い」-したがって、より良い推定を得るためにどちらの場合も、最初の考えは同じ意味を持つため、データをプールする必要があります。-それらが同じでない場合、データはそれらが「近い」という証拠を提供するので、仮説が間違っていても「少し」プールすることはあまり私を傷つけません(すべてのモデルが間違っている、いくつかは有用です)

上記はすべて、「それらは同じである可能性がある」という前提に基づいていることに注意してください。それを取り除いてください、そしてプーリングの正当化はありません。おそらく、テストについての「正規分布」の考え方も見ることができます。「ゼロである可能性が最も高い」、「ゼロでない場合はゼロに近い可能性が高い」、「極端な値はほとんどありません」。この代替案を検討してください:

  • グループAとグループBの平均は等しいかもしれませんが、大きく異なる可能性もあります

次に、「少し」プーリングについての議論は非常に悪い考えです。合計プーリングまたはゼロプーリングを選択することをお勧めします。コーシー、スパイク&スラブ、状況の種類(ゼロ付近の質量のロット、および極値の質量の多く)

ベイジアンのアプローチでは、事前および/または尤度に懸念を抱かせる情報が組み込まれているため、多重比較全体を処理する必要はありません。ある意味では、利用可能な情報を適切に考え、それを分析に含めるようにしてください。


2
l1exp(|x|)

@StasK-l1はより良い動作をしますが、log-concaveであるため、非ゼロのスパースで苦労します。私が言及したものはすべて対数凸です。(ML話すにおける適応投げ縄に類似)ラプラススケールパラメータの混合物を取ることによって取得- L1に近い変異体は、二重パレート一般化された
probabilityislogic

5

まず、あなたが提示したモデルを理解しているので、ゲルマンの提案とは少し違うと思います。

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

実際には、このcommonLocationパラメーターを追加することにより、3つの分布(ここでは位置1、2、3)のパラメーターに対する推論は互いに独立しなくなりました。さらに、commonLocationパラメーターの期待値を中央の(一般的に推定される)値に縮小する傾向があります。ある意味では、すべての推論に対する正則化として機能し、複数の修正を必要としない複数の修正を修正する必要があります(実際には、モデルの使用を通じて、それぞれの相互作用から単一の多変量推定アカウンティングを実行します)。

他の回答で指摘されているように、この修正はタイプIエラーの制御を提供しませんが、ほとんどの場合、ベイジアン法は単一の推論スケールでもそのような制御を提供しません。設定。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.