シダックまたはボンフェローニ?


12

私はSPSSの一般化線形モデルを使用して、16種類の植物の毛​​虫の平均数の違い(非正規、Tweedie分布を使用)を調べています。

複数の比較を実行したいのですが、SidakまたはBonferroniの補正テストを使用すべきかどうかわかりません。2つのテストの違いは何ですか?一方が他方より優れていますか?


1
標準的な頻度主義の仮説検定ではこのような修正が必要になることが多いという事実は嫌いであり、私はベイジアン手法を非常に好みます。とはいえ、アドホックではないように見えるので、Sidakの修正はあまり嫌いではありません(独立の仮定を受け入れる意思がある場合)。これは主に個人的な好みにすぎませんが、答えではなくコメントにしました。
マイケルマクゴー

1
@MichaelMcGowan:ただ興味がありますが、ボンフェローニ補正について「アドホック」とは何ですか?
枢機

@cardinal申し訳ありませんが、それはおそらく最良の言葉ではありませんでした。より強い仮定が必要になるという犠牲を払って(そのコストを単純化したくはありません)、Sidakの修正は、より質的な意味を持つ境界を作成します。Booleの不等式による最悪の場合の限界を別にすれば、Bonferroni補正で限界が何を表すかを本当に定性的に説明することはできません。
マイケルマクゴー

@MichaelMcGowan:ああ、わかった。そうですか。ボンフェローニについて言えることはいくつか定性的なものがあると思います:(a)nullの下での個々のテスト統計量の依存関係に関係なく、家族ごとのエラー率に対する保証された保護を提供し、(b)それは正確に正しい修正です個々の仮説検定の棄却域がペアワイズ素である場合に作成します。
枢機

1
1つのテストのタイプIエラーの確率が他のテストのエラーと相関する場合、2つのテストは独立していません。たとえば、1つの制御条件と2つのテスト条件で実験を実行するとします。各テスト条件をコントロール条件と比較する2つのテストは独立していません。これは、偶然に制御条件の極端な値を取得した場合に何が起こるかを考慮することで確認できます。これにより、2つのテストの両方が統計的に有意になる可能性が高くなります。

回答:


20

有意水準としてαを使用して独立した統計的テストを実行し、nullが個別にテストを取得した場合、3つのテストのセット全体で、長期のタイプIエラー率が高くなります。これら3つのテストをグループ化/考えることが有意義であると思われる場合は、タイプIのエラー率をαに保持することができます。kαすべての場合にれる場合、「有意」が見つかるかどうかは、ランダム変数からの単純な引き分けです。具体的には、およびn = kの二項分布から取得されます。たとえば、α = .05を使用して3つのテストを実行する予定で、実際には各ケースで違いがない場合、各テストで重要な結果を見つける可能性は5%です。このようにして、タイプIのエラー率はαp=αn=kα=.05αα、個々のセットではなく、セット全体。これについてどうすればいいですか?二つの原稿からシフトでその中心に近づくある(すなわち、α O新たな値(すなわち、へ)α N E W):ααoαnew

ボンフェローニ:「有意性」の評価に使用される調整して、α

αnew=αok

Dunn-Sidak:を使用してを調整α

αnew=1(1αo)1/k

(Dunn-Sidakは、セット内のすべてのテストが互いに独立していると仮定し、その仮定が成り立たない場合は、家族ごとのタイプIエラーインフレーションが生じる可能性があることに注意してください。)

それをテストを実施する場合があることに注意することが重要であるエラーの2種類があなたが避けたいことを、I型(すなわち、そこに言っている 1がない場合の違いは)およびII(すなわちを入力し、そこに言っていません実際にある場合の違い)。通常、人々がこのトピックについて議論するとき、彼らは議論するだけであり、タイプIのエラーのみを認識/懸念しているようです。さらに、計算されたエラー率は、すべてのヌルが真である場合にのみ保持されることを言及することを怠ることがよくあります。帰無仮説が偽の場合、タイプIのエラーを作成できないことは自明ですが、この問題を議論するときは、その事実を明示的に念頭に置くことが重要です。

しばしば考慮されないように思われるこれらの事実の含意があるので、私はこれを持ち出します。まず、k > 1の場合k>1場合、Dunn-Sidakアプローチはより高い電力を提供します(ただし、小さいとその差は非常に小さくなります)。第二に、「ステップダウン」アプローチを使用する必要があります。つまり、最初に最大の効果をテストします。その場合にヌルが得られないと確信している場合、タイプIエラーの最大可能数はk 1であるため、次のテストはそれに応じて調整する必要があります。(これはしばしば人々を不快にし、釣りのように見えますが、そうではありませんkk1テストは独立しているので、データを見る前にテストを行うつもりでした。これは、最適に調整する方法にすぎません。) α

タイプIIエラーに対してタイプIをどのように評価しても、上記のことは当てはまります。しかし、先験的に、タイプIのエラーがタイプIIよりも悪いと信じる理由はありません(誰もがそう思うと思われるという事実にもかかわらず)。代わりに、これは研究者が下さなければならない決定であり、その状況に固有のものでなければなりません。個人的に、理論的に示唆されたアプリオリな直交コントラストを実行している場合、通常は調整しません。α

(重要であるため、上記のすべては、テストが独立していることを前提としています。複数の治療がそれぞれ同じコントロールと比較される場合など、コントラストが独立していない場合、調整とは異なるアプローチ、 Dunnettのテストなどを使用する必要があります。) α


+1。ボンフェローニの「ステップダウン」アプローチと呼ばれるものは、ホルム・ボンフェローニ法と呼ばれるものとまったく同じですか?はいの場合、Dunn-Sidakに適用される同じロジックには名前がありますか?
アメーバは、Reinstate Monica

1
@amoeba、はい、それは時々「ホルムの方法」と呼ばれるため、ホルム-ボンフェローニまたはホルム-シダック。
GUNG -復活モニカ

ありがとう。もう1つの質問は、理論的に提案されたアプリオリな直交コントラストを実行している場合、通常は調整しないというステートメントに関するものです。ここで「直交」はどれほど重要ですか?たとえば、6つのサブジェクトグループがあり、グループ2、3、4、5、および6をグループ1と比較する場合(グループ1はたとえばコントロールグループである場合)、これらは非直交コントラストです。この場合のαの調整について、1-2、3-4、5-6のようにコントラストが実際に直交しているときと違うと感じますか?もしそうなら、なぜですか?αα
アメーバは、Reinstate Monica

@amoebaは、1つの研究で3つのアプリオリの直交コントラストを実行することは、3つの異なる研究のそれぞれで1つのアプリオリのコントラストを実行することと何の違いもありません。後者については家族ごとの修正が必要だと主張する人はいないので、前者に対してそれらを要求する一貫した理由はありません。他の例では、コントロールグループが偶然だけで低く跳ね返る必要がある場合、5つのコントラストのすべてが良好に見えます。しかし、5つの独立した研究を実行した場合、それは起こりそうにありません。何らかの形の調整を実際に使用するか、Dunnettのテストを使用する必要があります。
GUNG -復活モニカ

私は完全に理解しているとは思わない。私は迅速なシミュレーションを実行した 各グループの値N = 10及びα = 0.05。上記のように、3つの直交コントラストに対して少なくとも1つの誤検出の0.14の確率、3つの非直交コントラストに対して0.12の確率を取得します。とても近い。3つの誤検出すべて0.0001と0.002が発生する可能性があるため、この差ははるかに大きくなります。だから私は、いくつかの重要な結果を得ることが非オルスの場合にはるかに高いことを理解しています。対照的ですが、家族ごとのエラー率に関心がある場合、2つのケースはほとんど同じように見えます。N(0,1)n=10α=0.05
アメーバは、Reinstate Monica

6

修正された有意水準を表すと、Bonferroniは次のように機能します。有意水準αをテストの数nで除算します。すなわち、α = α / nです。(テストが独立している場合)Sidakの方法は次のように動作する: α * = 1 - 1 - α 1 / Nααnα=α/nα=1(1α)1/n

なぜなら、Sidakの方法の修正は、もう少し強力です(あなたがより簡単に重大な結果を得るIE)が、ボンフェローニは、ハンドルに少し簡単です。α/n<1(1α)1/n

さらに強力な手順が必要な場合は、Bonferroni-Holm手順を使用できます。


ボンフェローニの取り扱いが簡単なのはなぜですか?
エミリー

3
私は、分裂見つけるすることによりn個の計算よりも代数的にシンプルな1 - 1 - α 1 / nは、私は怠け者です。また、ボンフェローニはdenを仮定していないため、より少ないと仮定する意味で「単純」です。しかし、あなたはそれをもっと保守的にする代償を払います。αn1(1α)1/n
モモ

@Momo Computersは本当に算数が得意なので、単純さの議論はあまり説得力がないと思います。計算が手作業で行われていた100年前は、もちろん非常に異なる話でした。
マイケルマクゴー

私の答えに比べて+1、これはかなり簡潔にポイントに達します;-)。
グング-モニカを復活

ハハ、それが私があなたが意図したことだと思います!本当にありがとう!
エミリー

5

Sidakの修正では、個々のテストが統計的に独立していると仮定しています。ボンフェローニ補正はこれを想定していません。


それは、ボンフェローニが単により保守的なテストであることを意味しますか?
エミリー

1
両方のテストが適切な場合、Bonferroniはより保守的です。ただし、テストが独立していない場合は、Sidakを使用しないでください。
ワンストップ

2
+1ボンフェローニ補正ではテストが独立している必要はないということは、説明しなかった良い点です。
GUNG -復活モニカ

@onestop:テストが独立しているとはどういう意味ですか?例を挙げていただけますか?
ガンヒルド

1
Sidakの修正には、独立性は必要ありません。テストが負の依存関係にないことを前提としています。正の依存は問題ありません。
ボンフェローニ

4

SidakとBonferroniは非常に似ているため、使用する手順に関係なく、おそらく同じ結果が得られます。ボンフェローニは、シダックよりもわずかに保守的です。たとえば、2回の比較と0.05の家族単位のアルファの場合、Sidakは.0253で各テストを実行し、Bonferroniは.0250で各テストを実行します。

このサイトの多くのコメント者は、Sidakは比較のテスト統計が独立している場合にのみ有効であると述べています。それは真実ではない。Sidakでは、テスト統計が負の依存関係にある場合、家族ごとのエラー率がわずかに増加しますが、両側テストを実行している場合、一般的に負の依存関係は問題になりません。非負の依存性の下で、Sidakは実際に家族ごとのエラー率の上限を提供します。そうは言っても、そのような限界を提供し、Sidakよりも多くの統計的検出力を保持する傾向がある他の手順があります。したがって、おそらくSidakは最良の選択ではありません。

ボンフェローニ手順が提供するものの1つ(Sidakにはない)は、予想されるタイプIエラーの数の厳密な制御です。いわゆる「家族ごとのエラー率」で、家族ごとのエラー率よりも保守的です。詳細については、Frane、AV(2015)をご覧ください。Journal of Modern Applied Statistics Methods 14(1)、12-23。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.