段階的回帰の最新の簡単に使用できる代替手段は何ですか?


76

約30の独立変数を持つデータセットがあり、それらと従属変数との関係を調べるために一般化線形モデル(GLM)を構築したいと思います。

この状況で教えられた方法である段階的回帰は、現在統計的な罪と見なされていることを認識しています

この状況では、どのような最新のモデル選択方法を使用する必要がありますか?


4
他の人は役に立つかもしれない統計的手順に言及しますが、まず変数間の関係の強さと形についての理論があるかどうか尋ねます。サンプルの大きさは?複雑なモデルを避ける理由はありますか?
マイケルビショップ

2
事前テストのバイアス問題と仕様ミスの問題と戦うための代替手段として、モデルの平均化を検討した人はいますか?大まかに言って、すべての変数は潜在的な予測子であり、それらが有用になる確率を推定できます。したがって、結合された推定器は、予測パフォーマンスを向上させるだけでなく、「スコープ」の下の変数のパラメーターの優れた特性推定値も生成します。
ドミトリーチェロフ

1
収縮。誰もステップワイズを使用しません。うまくいけば
Aksakal

回答:


56

Stepwise Regressionにはいくつかの選択肢があります。私が見た中で最も使用されているのは:

  • モデルに含める変数を決定する専門家の意見
  • 部分最小二乗回帰。基本的に潜在変数を取得し、それらを使用して回帰を行います。また、PCAを自分で実行してから、プリンシパル変数を使用することもできます。
  • 最小絶対収縮および選択演算子(LASSO)。

PLS回帰LASSOの両方は、次のようなRパッケージで実装されます。

PLShttp : //cran.r-project.org/web/packages/pls/および

LARShttp : //cran.r-project.org/web/packages/lars/index.html

従属変数と独立変数の関係のみを調べたい場合(たとえば、統計的有意性検定は不要)、ランダムフォレスト分類/回帰ツリーなどの機械学習法もお勧めします。ランダムフォレストは、従属変数と独立変数の間の複雑な非線形関係を近似することもできます。これは、線形手法(線形回帰など)では明らかにされなかった可能性があります。

機械学習の良い出発点は、CRANの機械学習タスクビューです。

機械学習タスクビューhttp : //cran.r-project.org/web/views/MachineLearning.html


10
glmnetパッケージは、同様に投げ縄の非常に高速な実装である
デヴィッド・J.ハリス

2
潜在変数コミュニティ内で、PLSerは独自の非常に孤立したクリークを形成し、深刻な文献(たとえば、Michaelの作品の最小二乗推定量の漸近理論を貫通することはできませんでした) Browne、Peter Bentler、Albert Satorra、Alex Shapiro、Ken Bollenのインストゥルメンタル変数モデリング、最も重要なものを挙げます)。不思議なことに、PLSは統計界では受け入れられる方法であるように思われ、一般に潜在変数モデリングコミュニティが行うよりも高い水準の厳格さを支持していました。
StasK

6
統計学習要素には、差分変数の選択と縮小方法の比較があります:(OLS)最適なサブセット、リッジ、投げ縄、PLS、PCR。
-cbeleites


16

モデルの平均化は、進むべき1つの方法です(情報理論的アプローチ)。Rパッケージglmultiは、予測変数のすべての組み合わせに対して線形モデルを実行し、これらの結果に対してモデル平均化を実行できます。

http://sites.google.com/site/mcgillbgsa/workshops/glmultiご覧ください

ただし、予測変数間の共線性を最初に調査することを忘れないでください。分散インフレーション係数(Rパッケージ "car"で利用可能)はここで役立ちます。


ありがとう。すべての可能なモデルに本当に適合していますか?相互作用がなくても、この場合は約10億モデルです。
ピーターエリス

知る限りではありますが、すべてのモデルの評価にかかる時間を大幅に短縮する遺伝的アルゴリズムのオプションがあります。www.jstatsoft.org/v34/i12/paper
OliP

3
またMuMInAICcmodavgパッケージ、glmulti大きなモデルセットについては賢いです。
ベンボルカー

8

@johannesがすばらしい答えをくれました。SASユーザーの場合、LASSOはPROC GLMSELECTで利用でき、部分最小二乗はPROC PLSで利用できます。

David Cassellと私は、いくつかのSASユーザーグループでLASSO(およびLeast Angle Regression)についてプレゼンテーションを行いました。ここから入手できます


7

興味深い議論。段階的回帰を統計的な罪としてラベル付けすることは、宗教的な声明です。偏りがあり、最適性などを保証するものではありません。しかし、他の多くのことについても同じことが言えます。共変量空間における相関構造のより基本的な問題に対処し、最適性を保証し、かなり前から存在しており、ある程度学習曲線を持っているCCAについては言及していません。Rを含むさまざまなプラットフォームに実装されています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.