変数選択のより決定的な議論


55

バックグラウンド

私は医学の臨床研究を行っており、いくつかの統計コースを受講しています。私は線形/ロジスティック回帰を使用した論文を公開したことがなく、変数の選択を正しく行いたいと考えています。解釈可能性は重要なので、凝った機械学習技術はありません。変数選択についての私の理解をまとめました-誰かが誤解に光を当てることを気にしますか?私が見つかりました。2(1)と同様のこの1の(2)CVの記事、しかし、彼らは非常に完全に私の懸念に答えませんでした。どんな考えでも大歓迎です!最後に3つの主要な質問があります。

問題と議論

私の典型的な回帰/分類問題には、200-300の観測値、15%の有害事象率(分類の場合)、および文献で「統計的に有意な」効果があると主張された、またはもっともらしいと主張されている40の変数のうち25の情報がありますドメイン知識によるセンス。

「統計的に有意」を引用符で囲みます。これは、全員と母親がステップワイズ回帰を使用しているように見えますが、Harrell(3)とFlom(4)は多くの正当な理由でそれを好まないようです。これは、Gelmanブログ投稿ディスカッション(5)でさらにサポートされています。ステップワイズが受け入れられるのは、これが本当に探索的分析であるか、予測に関心があり、相互検証スキームが関係している場合のみです。特に、多くの医学的併存症は共線性に悩まされ、研究は小さなサンプルサイズに悩まされるため、私の理解では、文献には多くの偽陽性が存在するということです。また、これにより、含める可能性のある変数について文献を信頼する可能性が低くなります。

別の一般的なアプローチは、予測変数と独立変数間の一連の単変量回帰/関連付けを開始点として使用することです。特定のしきい値未満(たとえば、p <0.2)。このStackExchangeの投稿(6)で概説されている理由により、これは間違っているか、少なくとも誤解を招くように思われます。

最後に、機械学習で一般的に見られる自動化アプローチは、L1(Lasso)、L2(Ridge)、L1 + L2コンボ(Elastic Net)などのペナルティを使用することです。私の理解では、これらにはOLSやロジスティック回帰と同じ簡単な解釈はありません。

Gelman + Hillは以下を提案します。

ゲルマン

Statsコースでは、Fテストまたは逸脱分析を使用して、完全なモデルとネストされたモデルを比較し、変数ごとにモデル/変数選択を行うことも思い出します。これは理にかなっているように思えますが、dfごとの逸脱の最大の低下を引き起こす変数を見つけるために、順番にネストされたモデルをフィッティングすることは、簡単に自動化できるように思えるので(少し心配です)、次の順序の問題に苦しんでいるようにも見えます変数の包含をテストします。私の理解では、これは多重共線性と残差プロット(残差対予測)を調べることによっても補足されるべきであるということです。

質問:

  1. ゲルマンの要約は進むべき道ですか?彼の提案した戦略で何を追加または変更しますか?

  2. 潜在的な相互作用と変換(非常に偏り/エラー/脱落が発生しやすいようです)について純粋に考える以外に、潜在的なものを発見する別の方法はありますか?多変量適応回帰スプライン(MARS)が推奨されましたが、非線形性/変換は標準回帰モデルの同じ変数に変換されないことが通知されました。

  3. 私の目標が非常に単純だとしましょう:「Y上のX1の関連付けを推定したいのですが、X2のみを考慮します」。Y〜X1 + X2を単に回帰するだけで、実際の予測能力を参照せずに結果を報告するだけで十分ですか(クロス検証RMSEまたは精度測定によって測定される場合があります)?これは、イベントレートやサンプルサイズに応じて、またはR ^ 2が非常に低い場合に変化しますか(R ^ 2はオーバーフィッティングによって常に増加させることができるため、R ^ 2は良くないことを認識しています)。一般的に、予測力を最適化するよりも推論/解釈可能性に興味があります。

結論の例:

  1. 「X2の制御、X1はX1の参照レベルと比較してYと統計的に有意に関連していませんでした。」(ロジスティック回帰係数)
  2. 「X1はYの統計的に有意な予測因子ではありませんでした。モデルではdfの変化に対して逸脱度の低下が十分ではなかったからです。」(逸脱の分析)

相互検証は常に必要ですか?その場合、SMOTE、サンプリングなどを介してクラスのバランスを取ることもできます。



6
何かを自動化できるかどうか(現時点では、強力なAIの出現前)は、私を赤いニシンと思っています。
GUNG -モニカ元に戻し

7
非常に思慮深い質問のために+1。あなたのレビューが示す一つのことは、変数選択のための標準的なレシピや料理本がないことです。誰もが異なるアプローチと一連の「ベスト」プラクティスを持っています。次に、理論モデルまたは人口モデルと経験的に駆動されるモデルとの間には非常に重要な違いがあります。これらの異なるフレームワークはほとんど整列せず、それらを統合するのは簡単です。何かを「見逃す」ことに対するあなたの懸念は根拠のないものではありませんが、現実は決定的な明確な答えが存在しないということです。あなたがレビューしたアプローチは広範囲に文書化されており、いずれかを選択してください
マイクハンター

4
ハレル、フロム、コラッサ。それで解決します。
グング-モニカの復職

4
Re Gelman&Hill's 4(b):Harrell、RMS 1st edn、p60:「変数選択の最終的な問題は、このアプローチ[段階的]を、多くのエコノミストが回帰モデルを開発する賢明な方法と比較することで説明されます。重要でない変数および回帰係数に意味のない方向がある変数のみを削除する」。そして、シュタイアーバーグがそれについて論文を書くつもりだったことを思い出すようです。[参照を見つけようとします。チャンスが来たとき。]
スコルチ-モニカの復職

回答:


46

アンドリュー・ゲルマンは間違いなく統計の世界で尊敬されている名前です。彼の原則は、この分野の他の「有名人」によって行われた因果モデリング研究のいくつかと密接に一致しています。しかし、臨床研究に興味があるなら、他の情報源に相談するべきだと思います。

観測データから「因果推論」を実行することと、変数間の因果関係を断定することとの間に明確な境界線が必要なので、私は「因果関係」という言葉を大まかに使用しています。因果関係を評価する主な方法はRCTであることに全員が同意します。ランダム化の仮定に基づいて、このような試験で調整することはほとんどありませんが、例外はほとんどありません(Sen、2004)。観察研究には重要性と有用性があり(Weiss、1989)、観察データから推論するための反事実に基づくアプローチは、そうするための哲学的に健全なアプローチとして受け入れられています(Höfler、2005)。多くの場合、RCTで測定された使用効率に非常に近似しています(Anglemyer、2014年)。

したがって、観測データからの研究に焦点を当てます。Gelmanの推奨事項との私の論点は、モデル内のすべての予測変数と、関心のある単一の露出と関心のある単一の結果との間の推定因果関係aprioriで指定する必要があるということです。主要な結果のセット間の関係に基づいて共変量を投入および除外すると、実際には「ミュンヒハウゼンの統計グリッド」の特別なケースが誘導されます(Martin、1984)。一部のジャーナル(およびトレンドが流行している)は、段階的回帰を使用して最終モデルを特定する記事(Babyak、2004)を即座に拒否します。問題はここでも同様の方法で見られると思います。

モデルへの共変量の包含と除外の理論的根拠は、「Judea Pearl's Causality(Pearl、2002)」で説明されています。おそらく、統計的推論、回帰、および多変量調整の原則を理解するための最良のテキストの1つです。また、サンダースとグリーンランドによる事実上何でも、特に、この推奨リストから残念ながら省かれた交絡に関する彼らの議論が明らかになっています(グリーンランドら1999)。特定の共変量には、因果モデルとのグラフィカルな関係に基づいてラベルを割り当てることができます。予後変数、交絡変数、精度変数などの指定は、統計モデルに共変量として含めることを保証します。メディエーター、コライダー、または因果経路を超えた変数は省略されるべきです。これらの用語の定義は、因果関係の多くの例で厳密にされています。

この小さな背景を踏まえて、ポイントを1つずつ説明します。

  1. これは一般に、1つの重大な警告を伴う健全なアプローチです。これらの変数は結果のメディエーターであってはなりません。たとえば、喫煙と体力の関係を調べているときに肺機能を調整すると、肺機能を低下させることで健康に直接影響するため、喫煙の効果が弱まります。これはすべきではない3番目の変数が関心のある予測因子と関心の結果の原因である交絡と混同してください。交絡因子はモデルに含める必要があります。さらに、過剰調整は分析に複数の形のバイアスを引き起こす可能性があります。調停者と交絡者は、分析で見つかったものではなく、主題分野の専門家(SME)としてあなたが信じているもののために、そのようにみなされます。時間ごとの分析またはロジスティック分析で、変数ごとに20個以下の観測、またはイベントごとに20個の観測がある場合は、代わりに条件付きメソッドを検討する必要があります。

  2. これは、傾向スコア調整、SEM、または因子分析ほど複雑ではない、優れた省電力アプローチです。できる限りこれを行うことをお勧めします。

  3. 私は心から反対します。分析の他の変数を調整するポイントは、比較が可能な層を作成することです。交絡因子の関係を誤って指定しても、一般的に分析の偏りにつながりません。そのため、私の経験では、省略された相互作用用語からの残留交絡は大きな問題ではありません。ただし、事後分析として、対象の予測変数と他の変数との相互作用項を考慮することができます。これは仮説を生成する手順であり、可能性のある所見(またはその欠如)をaとして絞り込むことを意図しています。潜在的にサブグループに属する、またはb。2つの環境的および/または遺伝的要因間の機械的相互作用を含む。

  4. 私もこれに心から反対します。これは、確認分析ベースの回帰アプローチとは一致しません。あなたは中小企業です。分析は、データではなく、質問によって通知される必要があります。因果モデルの絵図に基づいて(パールなどのDAGと関連する原則を使用して)起こっていると思われることを自信を持って述べ、関心のあるモデルの予測子を選択し、適合させ、議論します。二次分析としてのみ、このアプローチを考慮すべきです。

これらすべてにおける機械学習の役割は非常に議論の余地があります。一般に、機械学習は予測ではなく、データ分析への明確なアプローチである推論に焦点を当てています。95%CIと係数推定値が関連性の尺度を提供するOLSの推定値とは異なり、ペナルティ付き回帰の影響の解釈は非統計的コミュニティでは簡単に解釈されないのは正しいことです。

OLSモデルY〜Xからの係数の解釈は簡単です。それは勾配であり、Xで1単位だけ異なるグループを比較するYの予想される差です。多変量調整モデルY〜X1 + X2では、これを条件勾配:X2の同じ値を持つX1で1ユニットだけ異なるグループを比較するYの予想される差です。幾何学的に、X2を調整すると、X1とYを比較する3つの空間の別個の層または「断面」が得られ、それらの層ごとに結果が平均されます。Rでは、coplot関数はそのような関係を視覚化するのに非常に便利です。


あなたの詳細な解説に心から感謝します-私はこれまで誰も私の詳細な質問に答えてくれたことはありません。私は今あなたのリンクを調べています!
sharper_image

1
(+1)ポイント#1で、G&Hは「予測のための回帰モデルを構築するための一般的な原則」[イタリック体]と言うので、警告を適用する必要はありません。(おそらく、肺機能が良好なまれな喫煙者は、実際に特にフィットする傾向があります。)因果モデルの議論に進むと、彼らは同じ点を指摘します(9.7章)。
Scortchi -モニカ元に戻し

2
(+1)優れた対応、AdamO!すでに膨大な量の作業を行ったことに感謝しますが、言及しているジャーナルポリシーの現在の採用状況について、何か知っていることを教えていただけませんか。少なくともJAMAジャーナルで「段階的」という言葉を見ると、今でも怒り狂っています。このポリシーに関する論説を引用できますか?
デビッドC.ノリス

2
@ DavidC.Norris "Educational and Psychological Measurement"は問題のジャーナルであり、悲しいかな、Babyakの記事では自動化れた段階的回帰についてのみ説明しています。私は、いくつかの記事で著者が、モデルを「段階的」であると自動化せずに含めて再定義する「実践的」アプローチについて議論しています。私は彼らが使用した手順を正確に説明したと主張しますが、このアプローチには依然として重大な論争があります。
AdamO

1/2 +1素敵な答え。簡単な説明:「交絡因子はモデルに含める必要があります。」関連する特定の因果関係に応じて、そうすることで、因果推定から関連付けを偏らせることがあります。たとえば、、、、、およびで記述されるDAG では、は交絡因子です。 、バックドアの基準の意味、および古典的な(i)&関連する、(ii)または原因、および(iii)&前LAU1LU1AU2YU2LLAYAYAYセンス。ただし、はバイアスされます()。E[Y|A,L]AU1LU2Y
アレクシス

9

この壮大な質問と@AdamOの包括的な回答は、CVが定期的に人類に対する信仰を更新する方法の代表的な例です。ここでは主に、その答え(およびOPの質問)をより広いコンテキストで評価する方法を提供することを目指します。

まず、私は統計的実践に関するすべての信頼できるアドバイスがあることを主張するベンチャー注意 -自然の中でプロ scriptiveではなく、事前に scriptive。たとえば、Gelman&Hillのポイント#3は、表面的には何かを積極的に行うためのアドバイス(「検討」)として読みますが、強力な効果との相互作用を考慮ないことに注意することで理解が深まります。(多変量)テイラー級数展開で最も重要な用語を選択することに関連する直観へのアピールとして直感的に理解された、それは私には異論のないようです。

第二に、OPはほとんどのPhD生物統計学者が持っているより良い教育を得るのに忙しいが(AdamOの引用をフォローすることにより)、OPは同様にDavid A. Friedmanの統計モデルと因果推論 [1]を選ぶかもしれない。回帰は臨床研究における主要なツールであると推定されました。特に第3章「統計モデルと靴革」をお勧めします。これは、以前に公開された形式[2]でも入手できます。(ジャーナルの名前を消さないでください。描かれている重要な教訓は、ジョン・スノーのコレラに関する調査からのものです。この回答も参照してください。これらの教訓は詳細に説明されています。)

最後に、そしておそらくこれは本当にFreedmanの帰結です-OPによって提供される「結論」の例は、実際には論文の結果セクションに属することに言及する必要があります。医師、メディア、そしてますます多くの患者や英雄的な信者にさえアクセスできるように、論文の実際の結論議論のセクションがどのように表現されるかをできるだけ早く検討することが最も健全です医学文献を読む労働。そのエンドポイントに焦点を当て続けることは、統計分析の技術的作業を有効に形成し、それが記述することを目指している世界の現実と、それが果たすことを目指しているニーズに根ざし続けるでしょう。


  1. フリードマン、デビッド、デビッドコリアー、ジャジートシンセコン、フィリップB.スターク。統計モデルと因果推論:社会科学との対話。ケンブリッジ ニューヨーク:ケンブリッジ大学出版局、2010年。

  2. フリードマン、デビッドA.「統計モデルと靴革」。社会学的方法論 21(1991):291–313。doi:10.2307 / 270939。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.