多重比較のために重回帰のp値を調整するのは良い考えですか?


54

あなたがサービスの需要の関連する予測因子を見つけようとしている社会科学研究者/計量経済学者であると仮定しましょう。需要を説明する2つの結果/従属変数があります(サービスのyes / noおよび機会の数を使用)。需要を理論的に説明できる予測変数/独立変数が10個あります(年齢、性別、収入、価格、人種など)。2つの別々の重回帰を実行すると、20の係数推定とそのp値が得られます。回帰に十分な独立変数があると、遅かれ早かれ、従属変数と独立変数の間に統計的に有意な相関を持つ少なくとも1つの変数が見つかります。

私の質問:回帰にすべての独立変数を含めたい場合、複数のテストのp値を修正するのは良い考えですか?先行研究への言及は大歓迎です。


うーん...興味深い問題-1つの変数(ある種)が連続し、1つが二分する2変量回帰。通常のMVN回帰理論では、2つの二変量正規応答のそれぞれに対して個別の回帰を実行し、次に結果をつなぎ合わせることが正しい分析です-ガウスマルコフの意味では、すべての不偏線形推定量の中で回帰推定量のvc行列を最小化します-およびMVNの場合、すべての不偏推定量の中で]。1つの回帰がロジスティックである場合、「個別の回帰」は依然として最善の方法ですか?[その場合、不偏は少し伸びているように見える、例外
ロナフ

回答:


48

あなたの質問は、より一般的には、優れた予測因子を識別する問題に対処しているようです。この場合、ある種のペナルティ付き回帰を使用することを検討する必要があります(変数または機能の選択を処理する方法も関連します)。たとえば、L1、L2(またはそれらの組み合わせ、いわゆるelasticnet)ペナルティ(このサイト、またはR ペナルティおよびElasticnetパッケージなど)。

回帰係数(または同等に偏相関係数)のp値を修正して、過剰な楽観(例えば、Bonferroniまたはより良いステップダウン法)から保護することについては、これを考慮している場合にのみ関連するようです。 1つのモデルを作成し、説明された分散の重要な部分に寄与する予測子を探します。つまり、モデル選択(段階的選択または階層テスト)を実行しない場合です。この記事は良い出発点かもしれません:回帰係数の検定におけるBonferroni調整。そのような修正は、報告されたp値に影響する多重共線性の問題からあなたを保護しないことに注意してください。

stepAICR2

段階的アプローチには欠点もあることに注意してください(たとえば、Waldテストは段階的手順によって誘導される条件付き仮説に適合していません)、またはRメーリングでFrank Harrellが示すように、「AICに基づく段階的変数選択にはすべてがありますP値に基づく段階的な変数選択の問題。AICはP値の単なる修正です」関連する質問- 線形回帰モデルで変数は重要ですか?- 変数の選択にAICを使用することについて興味深いコメント(特に@Rob)を提起しました。最後にいくつかのリファレンスを追加します(@Stephanから親切に提供された論文を含む); P.Meanには他にも多くの参照があります。

フランク・ハレルは、回帰モデリング戦略に関する本を執筆しました。この本には、この問題に関する多くの議論とアドバイスが含まれています(§4.3、pp。56-60)。また、一般化された線形モデルを扱うための効率的なRルーチンを開発しました(Designパッケージまたはrmsパッケージを参照)。だから、あなたは間違いなくそれを見てみる必要があると思う(彼の配布資料は彼のホームページで入手できる)。

参照資料

  1. MJのウィッティンガム、Pのスティーブンス、RBのブラッドベリー、RPのフレクルトン。なぜ生態学と行動で段階的なモデリングを使用するのですか? 動物生態学のジャーナル75、1182年から1189年。
  2. オースティン、PC(2008)。ブートストラップモデルの選択は、後方変数の除去と比較して、本物の変数とノイズ変数を選択するパフォーマンスが似ていましたJournal of Clinical Epidemiology61(10)、1009-1017。
  3. オースティン、PCおよびTu、JV(2004)。ロジスティック回帰の自動変数選択方法により、急性心筋梗塞死亡率を予測するための不安定なモデルが作成されました臨床疫学誌57、1138年から1146年。
  4. グリーンランド、S(1994)。多重暴露の疫学的分析のための階層的回帰環境衛生の観点102(補足8)、33–39。
  5. グリーンランド、S(2008)。一般疫学における多重比較および関連選択International Journal of Epidemiology37(3)、430-434。
  6. Beyene、J、Atenafu、EG、Hamid、JS、To、T、およびSung L(2009)。予測モデルの開発および検証における変数の相対的重要性の決定BMC医学研究方法論9、64。
  7. ブルサック、Z、ガウス、CH、ウィリアムズ、DK、およびホスマー、DW(2008)。ロジスティック回帰における変数の意図的な選択生物学と医学のソースコード3、17。
  8. Bブロビン、C、Finos、L、およびSalmaso、L(2007)。一般化線形モデルでの段階的なp値の調整多重比較手順に関する国際会議step.adj()-R someMTPパッケージを参照してください。
  9. ウィーガンド、RE(2010)。変数選択に複数の段階的アルゴリズムを使用するパフォーマンス医学統計、29(15)、1647-1659。
  10. Moons KG、Donders AR、Steyerberg EW、およびHarrell FE(2004)。バイナリの結果を予測するためのペナルティ付き最尤推定。Journal of Clinical Epidemiology57(12)、1262–1270。
  11. Tibshirani、R(1996)。投げ縄による回帰収縮と選択Journal of The Royal Statistical Society B58(1)、267–288。
  12. Efron、B、Hastie、T、Johnstone、I、およびTibshirani、R(2004)。最小角度回帰統計学32(2)、407-499。
  13. フロム、PLおよびカッセル、DL(2007)。ステップワイズの停止:ステップワイズおよび同様の選択方法が悪い理由、および使用すべきものNESUG 2007プロシーディングス
  14. ESのShtatland、E。のCain、およびMBのBarton(2001)。段階的ロジスティック回帰の危険性と、情報基準と出力配信システムを使用してそれらを回避する方法SUGI 26 Proceedings(pp。222–226)。

10
賛成票は気にしませんが、コメントをいただければ幸いです(したがって、自分自身を学び、何が間違っていたかを理解し、将来の対応を改善することができます)。
chl

3
+1、良い答え、そして著者と読者の両方が不足しているかもしれないことを理解するのを助けるために、ダウン投票の説明を残すことについてのchlのコメントを支持します。ありがとう。
アルス

第二に、ある種のペナルティ付き回帰(たとえば、投げ縄)を使用するというchlの推奨。
S. Kolassa -モニカ元に戻し

10
@chl:段階的な予測子の選択を推奨することに不満です。通常、これはp値に基づいており(「p> .15の予測子を除外し、p <.05の場合はそれを含めます」)、偏った推定値と悪い予測性能をもたらします(Whittingham et al。、2006、Why do still stillエコロジーと行動に段階的なモデリングを使用しますか?J Anim Ecol、75、1182-1189)。ただし、AICベースの段階的なアプローチには同じ弱点があります。フランクハレルは、スレッド「Logistic Regression in R(SAS-)」の2010年8月9日月曜日の16:34:19 -0500(CDT)出力のような)」。
S. Kolassa -モニカ元に戻し

コメントにリンクを含める方法はありますか?
S. Kolassa -モニカ元に戻し

25

保持されたデータに基づいて思いつくモデルをテストするのに十分なデータをランダムに保持すれば、好きなことをかなり行うことができます。50%に分割することをお勧めします。はい、関係を検出する能力を失いますが、得られるものは膨大です。つまり、公開前に作品を複製する機能。どんなに高度な統計手法を使用しても、確認データに適用したときにまったく重要でない予測子がまったく役に立たなくなることにショックを受けることになります。

また、予測に「関連する」とは、p値が低いこと以上のものを意味することにも留意してください。結局のところ、この特定のデータセットで見つかった関係が偶然によるものではない可能性が高いことを意味しているだけです。予測には、実際に、予測に実質的な影響を与える変数を見つけることがより重要です(モデルの過剰適合なし)。それは「本物」である可能性が高い変数を見つけるために、であると、値の合理的な範囲にわたって変化させる(あなたのサンプル中に発生する可能性があるだけでなく、値を!)、predictandはかなり変化させます。モデルを確認するためのホールドアウトデータがある場合、低いp値を持たない可能性のあるわずかに「重要な」変数を暫定的に保持する方が快適です。

これらの理由(およびchlの細かい答えに基づいて構築)のために、段階的モデル、AIC比較、およびBonferroni補正が非常に有用であることがわかっていますが(特に数百または数千の予測可能性があります)、これらは変数の唯一の決定要因ではありませんモデルを入力してください。理論によって提供されるガイダンスを見失うこともありません条件の悪い方程式(共線性など)を作成しない限り、通常、モデルに含まれる強い理論的正当性を持つ変数は、重要ではない場合でも保持する必要があります。

NB:モデルに落ち着いて、ホールドアウトデータでその有用性を確認したら、最終推定のために、保持されたデータをホールドアウトデータと再結合しても構いません。したがって、モデル係数を推定できる精度に関しては何も失われません。


ありがとう!元のデータにはアクセスできず、回帰係数のテーブルのみにアクセスできる場合、Bonferroni調整が唯一の選択肢ですか?
ミカエルM

4
おそらくあなたもp値を持っています:-)。しかし、それらと係数だけでは、Bonferroni調整以外に他に何ができるか想像するのは困難です。(複数のテストを含む論文を読むときはいつも、このような調整を行います。ジャンクになる可能性のある結果を素早く選別する方法です。)ほとんどの人は変数の要約統計も提供します。各説明変数が予測に与える影響を推定する係数。
whuber

あなたの説明をありがとう、特に。クロスバリデーションについて。最後の議論、つまり理論的な関連性(p値を超えて)も探す必要があることを感謝します。
chl

19

これは非常に良い質問だと思います。疫学から計量経済学に至るまでの分野を悩ませている論争の多い複数のテスト「問題」の核心になります。結局、見つけた重要性が偽であるかどうかをどのようにして知ることができますか?多変数モデルはどの程度真実ですか?

ノイズ変数を公開する可能性を相殺するための技術的アプローチに関しては、サンプルの一部をトレーニングデータとして使用し、残りをテストデータとして使用することをお勧めします。これは技術文献で議論されているアプローチなので、時間をかけると、おそらくそれをいつどのように使用するかの良いガイドラインを見つけることができるでしょう。

しかし、複数のテストの哲学をより直接的に理解するには、以下で参照する記事を読むことをお勧めします。複数のテストの調整は多くの場合有害であり(コストがかかる)、不要であり、論理的な誤acyでさえあるという立場を支持する記事があります。私は、ある予測因子を調査する能力が別の予測因子の調査によって容赦なく低下するという主張を自動的に受け入れません。家族単位のタイプ1のエラー率は限り我々はサンプルサイズ、それぞれのタイプ1エラーの確率の限界を超えていないとして、我々は与えられたモデルでより多くの予測因子を含めるよう増えるかもしれないが、個々予測変数は一定です。また、家族ごとのエラーを制御しても、どの特定の変数がノイズで、どの変数がノイズではないかはわかりません。もちろん、説得力のある反論もあります。

したがって、可能性のある変数のリストをもっともらしいものに限定する限り(つまり、結果への既知の経路があるはずです)、スプリアスのリスクはすでにかなりうまく処理されています。

ただし、予測モデルは、その予測子の「真理値」に因果モデルほど関心がないと付け加えます。モデルには多くの交絡があるかもしれませんが、分散の大部分を説明する限り、あまり心配する必要はありません。これにより、少なくともある意味で作業が簡単になります。

乾杯、

ブレンデン、生物統計コンサルタント

PS:2つの別個の回帰の代わりに、記述したデータに対してゼロ膨張ポアソン回帰を実行することもできます。

  1. Perneger、TV Bonferroniの調整の何が問題になっていますか。BMJ 1998; 316:1236
  2. Cook、RJ&Farewell、VT 臨床試験の設計と分析における多重度の考慮事項Journal of the Royal Statistical Society、シリーズA 1996; 巻 159、1番:93-110
  3. ロスマン、KJ 多重比較に調整は必要ありません疫学 1990; 巻 1、1番:43-46
  4. マーシャル、JR データのedとノートワージネス疫学 1990; 巻 1、1番:5-7
  5. Greenland、S.&Robins、JM Empirical-Bayesの複数比較の調整が役立つ場合があります。疫学 1991; 巻 2、4番:244-251

Cont'd:2. Cook RJと別れVT臨床試験の設計と分析における多重度の考慮事項。Journal of the Royal Statistical Society、シリーズA 1996; 巻 159、1号:93-110
ブレンデン

ブレンデン、特に予測と因果関係の説明についての最後のコメントをありがとう。そして、サイトへようこそ!将来、より多くの貢献を期待しています。
whuber

続き:3.ロスマンKJ多重比較のための調整は必要ありません。疫学1990; 巻 1、No。1:43-46 4.マーシャルJRデータのdrとノートワージネス。疫学1990; 巻 1、No. 1:5-7 5.グリーンランドS.とロビンズJM複数の比較のための経験的ベイズの調整は、時には有用です。疫学1991; 巻 2、No. 4:244-251
ブレンデン

(+1)次のスレッドに興味があるかもしれません:stats.stackexchange.com/questions/3252/…。多くのリンクを共有しているようです:
chl

6

ここには良い答えがあります。他の場所で説明されていない小さな点をいくつか追加します。

まず、応答変数の性質は何ですか?より具体的には、それらは互いに関連していると理解されていますか?(理論的に)独立していると理解されている場合、または2つのモデルの残差が(経験的に)独立している場合、2つの別々の重回帰のみを実行する必要があります。それ以外の場合は、多変量回帰を検討する必要があります。(「多変量」は1つ以上の応答変数を意味し、「複数」は1つ以上の予測変数を意味します。)

F


0

一見無関係な回帰を行い、Fテストを使用できます。次のような形式でデータを入力します。

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

その結果、最初の結果の予測変数は、その結果がy変数である場合に値を持ち、そうでない場合は0になります。あなたのyは両方の結果のリストです。P11とP12は最初の結果の2つの予測因子であり、P21とP22は2番目の結果の2つの予測因子です。たとえば、性別が両方の結果の予測因子である場合、結果1を予測するためのその使用は、結果2を予測するときに別の変数/列にある必要があります。

このフレームワークでは、標準のFテスト手順を使用できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.