信頼区間を使用する場合、複数の比較調整に対処する必要がありますか?


26

ペアワイズ統計の事後推論などの多重比較シナリオ、または合計比較を行う多重回帰のようなシナリオがとします。また、信頼区間を使用してこれらの倍数での推論をサポートしたいとします。m

1. CIに複数の比較調整を適用しますか?これは、複数の比較がの再定義強要と同じように、あるのいずれかに家族的なエラー率(FWER)または偽発見率(FDR)の意味ない自信(または信頼性1、または不確実性、または予測を、または推測...間隔を選択してください)複数の比較によって同様に変更されますか?ここで否定的な答えをすると、残りの質問が無意味になることがわかります。α

2.仮説検定から区間推定への多重比較調整手順の簡単な翻訳はありますか?たとえば、信頼区間内の項の変更に焦点を合わせます:?CIレベルCIθ=θ^±t1CIレベル)/ 2σ^θ

3. CIのステップアップまたはステップダウン制御手順にどのように対処しますか?仮説テストアプローチから推論への家族ごとのエラー率調整の一部は、静的なものであり、個々の推論に対してまったく同じ調整が行われます。たとえば、Bonferroniの調整は、拒否基準を以下から変更することにより行われます。

  • が次の場合に拒否します:pα2
  • であれば拒否pα2m

しかし、ホルム-ボンフェローニのステップアップ調整は「静的」ではなく、次の方法で行われます。

  • 最初に値を最小から最大に並べ、次にp
  • 場合、(は値の順序をインデックス付けします)まで拒否しますp11α21m+1p
  • 帰無仮説を棄却できず、その後のすべての帰無仮説を自動的に棄却できません。

CIで拒否/拒否の失敗は発生しないため(より正式には、以下の参照を参照)、それはステップワイズプロシージャ変換されないことを意味します(つまり、すべてのFDRメソッドを含む)。ここで、CIを仮説検定に変換する方法を尋ねていないことに注意する必要があります(以下に引用する「視覚的仮説検定」の代表者は、その重要な質問に答えます)。

4. 1で括弧で言及した他の間隔についてはどうですか?


1まあ、この言葉をここで使うことで、甘くて甘いベイジアンスタイルのロッキンに悩まされないことを願っています。:)


参照
Afshartous、D.およびPreston、R.(2010)。依存データの信頼区間:統計的有意性のある非重複の等化。計算統計とデータ分析、54(10):2296-2305。

カミング、G。(2009)。目による推論:独立した信頼区間の重複を読み取ります。Statistics In Medicine、28(2):205–220。

ペイトン、ME、グリーンストーン、MH、シェンカー、N。(2003)。重複する信頼区間または標準誤差区間:統計的有意性の観点でそれらはどういう意味ですか Journal of Insect Science、3(34):1–6。

Tryon、WWおよびLewis、C。(2008)。Tryon(2001)の低減係数を修正する統計的等価性を確立する推論信頼区間法。Psychological Methods、13(3):272–277。


今は完全な回答を調査する時間がないので、コメントで回答します。
ハーベイモトゥルスキー14

[最後のコメントは切り捨てられました。[今すぐ完全な回答を調査する時間がないので、コメントで回答します。1)はい、仮説検定の多重比較が理にかなっているのと同じ状況で理にかなっています。2. Bonferroni、Tukey、およびDunnetの多重比較は、信頼レベルが家族全員に適用される信頼区間を作成するために簡単に適応できます。3.私の知る限り、ホルム法から信頼区間を作成する可能性はありません。4.手がかりがありません!
ハーベイモトゥルスキー14

2
@HarveyMotulsky素晴らしい!最初の2つの答えについて:(1)なぜですか?(2)CIを構築している分布の臨界値を計算するときに、単に値調整から数学を alpha- 調整に反転させることによって?コメントを増幅する(nudgitty-nudge nudge)の代わりに、常に正式な回答を(ナッジ)書く(ナッジ)ことができます。pα
アレクシス14

回答:


9

悲しいことに、十分な注意が払われていない素晴らしいトピック。

複数のパラメーターと信頼区間を議論する場合、同時推論と選択的推論を区別する必要があります。参照[2] 問題の優れたデモンストレーションを提供します。

同時信頼区間は、すべてのパラメーターが信頼でカバーされることを意味します。 選択的な信頼区間とは、選択したパラメーターのサブセットがカバーされることを意味します。1α

これらの2つの概念は組み合わせることができます。帰無仮説を棄却したパラメーターのみで区間を構築するとします。あなたは明らかに選択的推論を扱っています。選択したパラメーターの同時カバレッジ、または選択したパラメーターの周辺カバレッジを保証することができます。前者はFWER制御に対応し、後者はFDR制御に対応します。

要するに、すべてのテスト手順に付随する間隔があるわけではありません。FWERの手順とそれに伴う間隔については、[3]を参照してください。悲しいことに、このリファレンスは少し時代遅れです。BH FDR制御のインターバル対応については、[1]および[4]のアプリケーションを参照してください(問題の簡単なレビューも含まれています)。これは新鮮で活発な研究分野であり、近い将来より多くの結果を期待できることに注意してください。

[1] Benjamini、Y。、およびD. Yekutieli。「選択されたパラメーターの偽発見率調整された複数の信頼区間。」Journal of the American Statistical Association 100、no。469(2005):71–81。

[2] Cox、DR「複数の比較方法に関する注意」。Technometrics7、no。2(1965):223–24。

[3] Hochberg、Y。、およびAC Tamhane。多重比較手順。米国ニューヨーク州ニューヨーク:ジョン・ワイリー・アンド・サンズ社、1987年。

[4] Rosenblatt、JD、およびY. Benjamini。「選択的相関。NeuroImage 103(2014年12月):401–10。


1

私は決してしません複数のテストの信頼区間を調整します。私は、p値の大ファンではありません。パラメーターを推定することは、決して正確ではない仮説をテストすることよりも統計のより良い使用であると信じているからです。しかし、少なくとも1つが漸近的に、治療がうまくいかない場合は帰無仮説が真であると主張することができるランダム化比較試験など、仮説検定には価値があると認めています。ただし、他の場所で述べたように[1]、通常、これには1つの主要な結果が含まれます。ただし、頻繁な定義では、信頼区間は仮説を含まないため、他の潜在的に無関係な比較のために調整する必要はありません。身長や血圧など、特定の遺伝子に関連する表現型をテストしていたとします。私' d遺伝子を持つ人と持たない人の身長の違いがどれだけ大きいか、そしてどれだけうまく推定したかを知りたい。私も血圧を測定したという事実がそれと関係があるとは思いません。問題になるのは、これらの2つがテストした数百の重要なものである場合です。そして、その差は、偶然に、身長と血圧のみを測定したが数百回の実験を行った予想される反事実的実験よりも大きい可能性があります。ただし、そのような状況では、単純な調整は機能せず、未調整の推定値を提供する方が良いのですが、これらの比較をどのように取得したかは明確になります。また、信頼区間の重複に関する結果も発表しました。[2] 私も血圧を測定したという事実は、それと関係があることがわかります。問題になるのは、これらの2つがテストした数百の重要なものである場合です。そして、その差は、偶然に、身長と血圧のみを測定したが数百回の実験を行った予想される反事実的実験よりも大きい可能性があります。ただし、そのような状況では、単純な調整は機能せず、未調整の推定値を提供する方が良いのですが、これらの比較をどのように取得したかは明確になります。また、信頼区間の重複に関する結果も発表しました。[2] 私も血圧を測定したという事実は、それと関係があることがわかります。問題になるのは、これらの2つがテストした数百の重要なものである場合です。そして、その差は、偶然に、身長と血圧のみを測定したが数百回の実験を行った予想される反事実的実験よりも大きい可能性があります。ただし、そのような状況では、単純な調整は機能せず、未調整の推定値を提供する方が良いのですが、これらの比較をどのように取得したかは明確になります。また、信頼区間の重複に関する結果も発表しました。[2] 身長と血圧のみを測定したが、数百回の実験を行った予想される反事実的実験よりも大きい。ただし、そのような状況では、単純な調整は機能せず、未調整の推定値を提供する方が良いのですが、これらの比較をどのように取得したかは明確になります。また、信頼区間の重複に関する結果も発表しました。[2] 身長と血圧のみを測定したが、数百回の実験を行った予想される反事実的実験よりも大きかった。ただし、そのような状況では、単純な調整は機能せず、未調整の推定値を提供する方が良いのですが、これらの比較をどのように取得したかは明確になります。また、信頼区間の重複に関する結果も発表しました。[2]

[1]キャンベルMJおよびSwinscow TDV(2009)Square Oneの統計。第11版オックスフォード。BMJブックスブラックウェルパブリッシング

[2] Julious SA、Campbell MJ、Walters SJ(2007)現在の試験の結果に基づいて、将来の手段がどこにあるかを予測します。現代臨床試験、28、352-357。


1
考えさせる刺激的な答えをありがとう、マイク。Benjamini、Hochberg、およびYekutieliは、比較は「無関係」ではないが、実際には同時であると主張しているようです。「すべてのパラメータの値に基づいてアクションを実行する場合は、同時カバレッジも必要です。臨床試験での治療は、それらが有意に異なるかどうかに関係なく、それらすべての検査を含む可能性があります。これは、同時カバレッジが必要な明確な状況です。(一部のCIのみの選択的提示の問題は別として。)
アレクシス

ちなみに、「パラメータの推定は、決して正確ではない仮説をテストするよりも統計の優れた使用であると考えているため、p値の大ファンではない」と考えると、頻繁な仮説テストがサンプルが十分に大きい帰無仮説?。乾杯。
アレクシス

1
パラメーターの信頼区間は、ほとんどの形式の推論でp値よりも優れていることに同意しますが、それが信頼区間で多重比較の補正が不要であることを必ずしも意味するかどうかはわかりません。ほとんどの信頼区間は、アルファを使用して定義され、カバレッジを指定します。厳密な仮説テストフレームワークから離婚したとしても、複数の比較が行われる場合、名目上のカバレッジ(たとえば95%でアルファ= 0.05)に独断的に固執するのは誤解を招く可能性があるようです(単純に、確認するためのシミュレーションを行う必要はありません)関与した。
ライアンシモンズ

2
マイクキャンベルは、「信頼区間は、頻繁な定義では仮説を含まないので、他の、潜在的に無関係な比較のために調整する必要はありません」と述べました。それは奇妙な声明です。CIはそれ自体「仮説検定」を反映していない場合がありますが、特定のエラー率(。帰無仮説検定に適用される原則。p値の代わりにCIに注目することにより、多重比較の問題を回避することはできません。
ボンフェローニ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.