Bonferroniの調整の何が問題になっていますか?


23

私は次の論文を読みました:Perneger(1998)ボンフェローニ調整の何が問題なのか

著者は、Bonferroniの調整は、せいぜい生物医学研究での用途が限られているため、特定の仮説に関する証拠を評価する際には使用すべきではないと述べて要約しました。

要約ポイント:

  • 研究データで実行されたテストの数の統計的有意性の調整—ボンフェローニ法—は、解決するよりも多くの問題を作成します
  • ボンフェローニ法は、一般的な帰無仮説(すべての帰無仮説が同時に真であるという)に関係しています。
  • 主な弱点は、発見の解釈が実行される他のテストの数に依存することです
  • タイプIIエラーの可能性も増加するため、真に重要な違いは重要ではないとみなされます。
  • 実行された有意性のテストとその理由を単に説明することが、一般的に多重比較を処理する最良の方法です。

次のデータセットがあり、複数のテスト修正を行いたいのですが、この場合の最良の方法を決定することはできません。

ここに画像の説明を入力してください

平均のリストを含むすべてのデータセットに対してこの種の修正を行うことが不可欠かどうか、この場合の修正の最良の方法は何か知りたいですか?


「平均A」、「平均B」とは正確には何ですか?

3
ことではないあなたは再現不可能な結果のリスクを実行する複数の比較のために修正します。医学や心理学を含む多くの分野が最近、まさにそれが起こったことを発見しました。未修正のp値に基づいて「知っている」ことの多くはそうではないことが判明しました。シニカルに見える意味はありませんが、選択は明らかです。公開するためにp値の基準を満たす必要がある研究者は修正されません。知識を欲する懐疑論者はそうするでしょう。
whuber

@whuberしかし、p値を修正するための非常に多くの異なる方法が利用可能な場合、それはまだ再現性があると見なすことができますか?彼の答えでは、マルティーノは、より保守的でない方法またはより強力な方法を選択するためのガイドラインも提供しています。
Nakx

@Nakx再現のみ緩く統計的手順に関連している:それは研究が独立に他のユーザーによって行われた場合に匹敵する結果が得られる(おそらくするような試みでいるか否かを指す複製、単一の明確な仮説は、事前に連接され、その仮説に適した統計的手順が使用されます)。元の手順で正しいp値が生成されない場合、多くの独立した研究で何度も使用すると、平均してユーザーの意図または予想よりも再現性のない決定が行われます。
whuber

回答:


23

他の人が述べた保守主義に加えて、ボンフェローニ補正の何が問題なのかは、すべての多重度補正の問題です。それらは、基本的な統計原則に従っておらず、arbitrary意的です。頻度主義の世界には多重度の問題に対する独自の解決策はありません。第二に、多重度の調整は、1つのステートメントの信the性が他の仮説が楽しまれているかどうかに依存するという基本的な哲学に基づいています。これは、関心のあるパラメーターの事前分布が他のパラメーターが考慮されるため、より保守的になるベイジアン設定と同等です。これは一貫していないようです。このアプローチは、研究者が偽陽性の実験の歴史に「火傷」されたために生じたものであり、現在、彼らは自分たちの悪行を補うことを望んでいると言えます。

少し拡張するには、次の状況を考慮してください。腫瘍学研究者は、特定のクラスの化学療法の有効性を研究するキャリアを積んできました。彼女のランダム化試験の過去20件すべてで、統計的に有意ではない有効性がもたらされました。現在、彼女は同じクラスの新しい化学療法をテストしています。生存利益は有意ですP=0.04。同僚は、研究された2番目のエンドポイント(腫瘍収縮)があり、生存結果に多重度調整を適用する必要があり、わずかな生存利益をもたらすことを指摘しています。同僚が2番目のエンドポイントを強調したが、有効な薬物を見つけるために失敗した過去20回の試行を調整することにあまり関心がなかったのはどうしてですか?そして、もしあなたがベイジアンでないなら、20の以前の研究についての事前の知識をどのように考慮しますか?2番目のエンドポイントがなかった場合はどうなりますか。同僚は、以前の知識をすべて無視して、生存の利点が実証されたと信じますか?


2
「繰り返し可能」への言及は明確ではありません。多重度調整を必要としない単一のテストがある場合、結果が繰り返される可能性は高くありません。P=0.04
フランクハレル14年

2
@MJAに答えるには、2つの好ましいアプローチがあると思います。(1)ベイジアンであるか、(2)仮説に優先順位を付けて、コンテキストで結果を優先度順に報告します。
フランクハレル14年

3
それについて何の原則もありませんし、いかなる意味でも正確ではありません。ボンフェローニの不等式は、エラー確率のみの上限です。なぜ5つのパラメーターに等しく費やすのですか?受け入れ領域に長方形の代わりに楕円形の領域を作成してみませんか?ScheffeまたはTukeyの方法を使用しないのはなぜですか?単純な複合ANOVAタイプのテストを使用しないのはなぜですか?あなたはしていない希望達成αを使用することによって平等。αα
フランクハレル

2
2つのエラー率を曖昧にしています。nullの場合、Bonferroniはファミリごとに予想されるエラー数を正確に維持します。ファミリごとに「少なくとも1つの」エラーの確率の上限を示します(相関に依存します)。5つのテストに均等にアルファを費やすことは、テストに異なる方法で優先順位を付ける特別な理由がない限り、完全に論理的です。別のコンテキストが与えられた場合、そうでなければ原則的な理由があります。他のコンテキスト、目標、仮定を考慮して代替の方法が存在するという理由だけで、数学的に適切な方法を使用することは「原理に反する」ことを暗示しているようです。
ボンフェローニ

2
@FrankHarrellあなたのその他の質問は、私の主張を説明するだけです。多重度がなくても、検定統計量、検定手順などの多くの選択肢がしばしばあります。それは、あなたが暗示しているように見えるという意味で、方法論を「任意」にしない。オムニバステストに興味がある場合は、ぜひ実施してください。単変量テストのみに関心がある場合は、必ず単変量テストを実施してください。他の質問ではなく、興味のある質問に対応するテストを選択することが「任意」であることを真剣に提案していますか?
ボンフェローニ

12

彼は、ボンフェローニ調整はせいぜい生物医学研究での用途が限られているため、特定の仮説に関する証拠を評価する際には使用すべきでないと述べた。

ボンフェローニ補正は、最も単純で最も保守的な多重比較手法の1つです。また、最も古いものの1つであり、時間の経過とともに大幅に改善されています。ほぼすべての状況でボンフェローニ調整の適用が制限されていると言っても過言ではありません。ほぼ確実により良いアプローチがあります。つまり、複数の比較を修正する必要がありますが、控えめで強力な方法を選択できます。

控えめな

多重比較方法は、テストファミリで少なくとも1つの誤検出を防止します。レベルで1つのテストを実行すると、誤検知が発生する可能性が5%許容されます。つまり、帰無仮説を誤って拒否します。あなたは、10回のテストを実行した場合α = 0.05レベルまで上昇し、その後、この1 - 1 - 0.05 10 偽陽性を取得する=〜40%の確率でαα=0.05110.0510

ボンフェローニの方法を使用すると、使用(すなわち、スケールの最下端にα bを = α / nはあなたの家族を保護するために)のnでテストをαレベル。言い換えれば、それは最も保守的です。さて、あなたは増やすことができα Bをボンフェローニによって下限セットの上(つまり、あなたのテストが少ない控えめにする)、まだでテストのあなたの家族を守るαレベル。これを行うには多くの方法があります。たとえば、ホルム・ボンフェローニ法またはそれ以上の場合、誤検出率αbαb=α/nnααbα

更に力強い

参照された論文で提起された良い点は、タイプIIエラーの可能性も増加するため、真に重要な違いは重要ではないとみなされることです。

これはとても重要です。強力なテストとは、重要な結果が存在する場合にそれを見つけるテストです。Bonferroni補正を使用すると、テストの性能が低下します。ボンフェローニは保守的であるため、電力は大幅に削減される可能性があります。繰り返しますが、代替方法の1つ、たとえば、誤検出率は、テストの能力を高めます。言い換えれば、誤検知から保護するだけでなく、真に重要な結果を見つける能力も向上させます。

そのため、複数の比較がある場合は、何らかの修正手法を適用する必要があります。そして、はい、Bonferroniはおそらく控えめで強力な方法を支持して避けるべきです


いくつかの選択肢があります。たとえば、ホルムボンフェローニはシンプルで理解しやすいです。ぜひ試してみてください。アプリケーションが遺伝子発現またはタンパク質発現であり、実験で数千の変数をテストしている場合、通常はFDRが使用されます。
マティーノ14年

10個のテストで40%の誤検知の可能性を計算する方法は、テストが独立したイベントであることを前提としていますが、実際のデータではそうなることはほとんどありません。少なくともコメントに値すると思います。
シルバーフィッシュ

また、この答えは、家族ごとのエラー率を維持する方法と誤った発見率の方法を混同しているようです。これらの両方を議論することは悪い考えではありませんが、異なる仕事をしているので、それらが同等のものとして提示されるべきではないと思います
-Silverfish

しかし、よく理解していれば、FDR(誤検出率)は、事前に決められたレベルでのタイプIエラー制御を保証しませんか?(この質問に対する私の答えも参照してください)

しかし、読者が自分で妥当性を判断したり、使用したい無数の調整方法を選択したりできるように、記事のすべての生のp値を報告する方がより透明で便利ではありませんか?
Nakx

5

トーマス・ペルネジャーは統計学者ではなく、彼の論文は間違いでいっぱいです。だから私はそれをあまり真剣に受け止めないでしょう。それは実際、他の人から非常に批判されています。たとえば、AickinはPernegerの論文は「ほぼ完全にエラーで構成されている」と述べています。Aickin、「複数のテストを調整する他の方法が存在します」、BMJ。1999年1月9日。318(7176):127。

また、元の質問のp値はいずれも<0.05であり、多重度調整が行われていません。そのため、どの調整(存在する場合)が使用されるかはおそらく問題ではありません。


4
リンクをありがとう!より詳細なリファレンスを追加しました。これはまだ答えというよりもコメントであり、追加すべき興味深いものがあるか、少なくともAickenが言っていることの簡単な要約があると確信しています。それとは無関係:Pernegerには統計の専門知識がないと言うことは(妥当な基準では)真実ではない、愛想が良い、または役立つとは思えません-ステートメントを削除することを検討しますか?
Scortchi-モニカの復職

@Scortchi「統計の専門知識がない」を「統計学者ではない」に変更しました。ちなみに、専門家の意見と非専門家の意見を区別することは役に立たないことに同意しません。
ボンフェローニ

2
私が知る限り、パーネジャーは統計学の学位を持たず、統計ジャーナルに論文を発表したことはありません。質問で引用された論文は、完全に間違っていると言われているBMJの意見記事です。それで、「合理的な基準を超えて」議論の余地のないPernegerの専門知識とは何ですか?「友好的」であることは、真実の邪魔をするべきではありません。
ボンフェローニ

3
が知る限り、彼は医学統計学で講義を行い、医学雑誌で臨床試験と観察研究の分析を発表している生物統計学の修士号と疫学の博士号を持つ大学病院の教授です。その「統計の専門知識なし」からあなたが推測するなら、読者の読者が想定するのに合理的に期待するよりも、あなたの基準はかなり高いと思います。(標準が無理だと言うよりも、私が言ったほうがいい。)とにかく、編集してくれてありがとう!
Scortchi -復活モニカ

5

おそらく、Bonferroniのような複数のテスト修正の「背後にある理由」を説明するのが良いでしょう。それが明らかな場合、あなたはそれらを適用すべきかどうかを自分で判断することができます。

μH0:μ=0

H1:μ0H0:μ=0α

H0H0

H0H0H1

私たちは世界についての真の知識を得たと信じているため、科学では偽の証拠は悪いことですが、実際にはサンプルで不運だったかもしれません。したがって、この種のエラーは制御する必要があります。したがって、この種の証拠の確率に上限を設定するか、タイプIエラーを制御する必要があります。これは、許容可能な有意水準を事前に修正することにより行われます。

5%H05%H0H1H1

H0:μ1=0&μ2=0H1:μ10|μ20α=0.05

H0(1):μ1=0H0(1):μ10H1(2):μ2=0H1(2):μ20α=0.05

H0(1)H0(1)

1(10.05)2=0.0975α

ここでの重要な事実は、2つのテストが1つのサンプルに基づいていることです。

独立を前提としていることに注意してください。独立性を仮定できない場合は、Bonferroniの不等式$を使用して、タイプIエラーが最大0.1まで膨らむことを示すことができます。

ボンフェローニは保守的であり、ホルムの段階的手順はボンフェローニと同じ仮定の下で成り立っているが、ホルムの手順はより強力であることに注意してください。

変数が離散的である場合、最小p値に基づいたテスト統計を使用することをお勧めします。大量のテストを行うときにタイプIエラー制御を放棄する準備ができている場合、False Discovery Rateプロシージャがより強力になる可能性があります。

編集:

例(@Frank Harrellによる回答の例を参照)

H0(1):μ1=0H1(1):μ10

H0(2):μ1=0H1(2):μ20

H0(12):μ1=0&μ2=0H1(12):μ10|μ20

H0(1)H1(1)H0(2)H1(2)


2
この質問はこのような答えから恩恵を受けると思いますが、「有意水準を5%に固定すれば、間違った証拠を見つけるために受け入れる準備ができていると言います(サンプルの不運のため) )5%の確率で」...これは、nullが実際にtrueである場合のエラーの確率であり、言う価値があります。(「偽の証拠」は一般的な用語ですか?「偽陽性」を見ることに慣れています。)
Silverfish

@シルバーフィッシュ; 私はそれを少し言い直しました、あなたはそれがこのように良いと思いますか?

1
私はそれが良いと思う-「統計的に証明された」はおそらく言い換えることからも恩恵を受けるだろう。
シルバーフィッシュ

@Silverfish:これは「証明」ではないことに完全に同意しますが、矛盾による証明との類似性から始めたため、教訓的な理由でこの用語を使用しました。

編集はわかりにくいです。フランクの例の「化学療法の効果」は、生存率と腫瘍縮小の2つの尺度で測定されます。どちらも化学療法の影響を受けます。仮説は明らかに化学療法が機能するということです。しかし、「作品」は2つの異なる方法で定量化できます。それがあなたの新しいスレッドで私が話してきたあいまいさです。
アメーバは、

4

素敵なボンフェローニ補正の議論と効果の大きさhttp://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html また、ダン-Sidakの方法の修正及びフィッシャーの組み合わせ確率はアプローチは価値が選択肢として検討しています。アプローチに関係なく、読者が自由に解釈できるように、調整済みおよび未加工の両方のp値と効果サイズを報告する価値があります。


生のp値と調整されたp値の両方を提示するアドバイスは、常に私にとって賢明なように思えますが、それは一般に標準と考えられていますか、それとも受け入れられるでしょうか?
シルバーフィッシュ

3

一つには、非常に保守的です。Holm-Bonferroni法は、Bonferonni法が達成すること(Family Wise Error Rateを制御すること)を達成し、同時に均一に強力です。


つまり、この方法を使用して結果を修正する必要があるか、仮説に応じて結果を受け入れる必要があるということです。
五郎

「自分の仮説に応じて結果を受け入れるべきだ」という意味がわかりませんが、そうでない場合はタイプ1のエラーが非常に大きくなるため、何らかの多重テスト修正を適用する必要があります。
TrynnaDoStat

「仮説に応じて結果を受け入れなければならない」というのは、GLMや順列法を含む3つの異なる方法で分析を実行したということです。すべての方法で重要な結果が得られ、これらの結果は、グループ間に有意差があるはずだという仮説を支持しています。多重補正にBonferroniを使用した場合、すべての結果は重要ではありませんでした。このため、この方法は分析に最適ではないため、別の方法を使用したり、Bonferroniを使用せずに他の方法の結果に応じて結果を信頼したりできますか?
五郎

1
さて、あなたの言っていることがわかりました。同じ仮説を3つの異なる方法でテストした場合、複数のテスト修正を適用しません。その理由は、これらの3つのテスト結果がおそらく相互に大きく依存しているためです。
TrynnaDoStat

3

「False Discovery Rate」メソッドは、Bonferroniの控えめな代替手段として見る必要があります。見る

ジョン・D・ストーリー、「正の誤った発見率:ベイズの解釈とq値」、統計学2003年、Vol。31、No。6、2013–2035。


3
ただし、これらは異なるものを制御します。FDRは、呼び出しの5%(またはアルファ値)が誤検出であることがないようにします。これは、家族ごとのエラー率(Bonferroniが行うこと)の保持とは異なります。
マットクラウス

@Matt Krause:そして、私がよく理解していれば、FDR(誤発見率)は事前に決められたレベルでのタイプIエラー制御を保証しませんか?(この質問に対する私の答えも参照してください)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.