LARSによって検出されたモデルが、徹底的な検索によって検出されたモデルと最も異なると予想される設定はどれですか。


9

もう少し情報; 仮定

  1. 事前に、選択する変数の数、およびLARSプロシージャで複雑さのペナルティを設定していることがわかります
  2. 計算コストは​​問題ではありません(変数の総数は少なく、たとえば50です)。
  3. すべての変数(y、x)が連続的であること。

LARSモデル(つまり、LARSフィットで非ゼロ係数をもつ変数のOLSフィット)は、同じ数の係数を持つモデルと最も異なりますが、徹底的な検索(la regsubsets())によって見つかりますか?

編集:50の変数と250の観測値を使用して、標準のガウスから抽出された実際の係数を使用します。選択した変数の2つのセットの違いはわずかなので、これらの設定は明らかに良くありません。これは本当に、ほとんどの違いを得るにはどのタイプのデータ構成をシミュレートする必要があるのか​​という問題です。

回答:


1

ここでLARSアルゴリズムの説明は次のとおりです。http://www-stat.stanford.edu/~tibs/lasso/simple.htmlそれは一種私はそれが上逃す可能性があることを推測するベンチャー企業ですので、無視し説明変数間の相関の多重共線性の場合の適合。


それが私の質問の動機です。vifの最大値が30を超える50変数の設定をシミュレートしましたが、2つのアプローチの間に(たとえば、選択したモデルのR ^ 2に関して)非常に少ない違いが見られます。
user603

1
私自身もstepAICとlarsでさまざまな答えを見つけており、私の問題はグループLASSOで処理されると想像します。これは、マトリックス全体のVIFではなく、相関変数のクラスターの数に関するものです。
アレックス

Interresting ...どうやってそのようなデータを生成しますか?(つまり、相関変数のクラスターがある場合)
user603

それらの内部に相関関係があるいくつかの独立したグループを一緒に積み重ねます。私自身、いくつかのブランドについて同じ質問がたくさんあります。人々は自分が選んだブランドが好きで、他のブランドは嫌いです。
Alex

3

サンプル数との関係で、より多くの機能を使用すると、LARSを使用した場合よりも、強力な検索方法を使用した場合に、より多くの適合が得られる可能性があります。LARSで使用されるペナルティ用語は、単一の正則化パラメーターによってインデックスが付けられ、ますます複雑なモデルの入れ子構造を課すため、LARSを使用した機能選択の「自由度」はかなり低くなります。強引な検索の場合、特徴ごとに事実上1つの(バイナリ)自由度があります。つまり、強引な検索では、データのランダムサンプリングにより、特徴選択基準のランダムな変動性をよりうまく活用できます。その結果、「仮説クラス」が大きいほど、強引な検索モデルは特徴選択基準に厳しく適合される可能性が高くなります。


あなたの答えは私の質問とは無関係のようです。明確にするために:LARSによってアクティブとして選択された変数のサブセットが、徹底的な検索によって選択された変数のサブセットと最も異なる状況を生成することに本当に興味があります。これは、たとえば、LARSモデル間のR ^ 2の違いによって測定されます。同じ数のアクティブな変数を使用した徹底的な検索モデル。この違いが大きくなるような敵対的な事例を思いつくことができますか?これらの用語であなたの答えを言い換えることはできますか?
user603

3
私の答えはあなたの質問に直接関係しています。過剰適合の程度は、特徴の数だけでなく、重みの値によっても制御されます。したがって、より多くの機能を使用せずにオーバーフィットすることが可能です。LARSは重みの大きさにペナルティを課すので、大きな等級の重みを犠牲にして2乗損失のみを減らす機能を選択しません。そのため、過剰適合しにくくなります。派手な検索方法は、基本的には過剰適合のレシピであるため、過剰適合が発生する可能性が高い状況では、非常に異なるソリューションが得られます。
Dikran Marsupial 2011

わかりました、私はあなたの要点を得ます:それは私が私の元の質問で覆い隠した何かから来ます(そしてうまくいけば今より明確にした)。私は実際にここでリンゴを比較しています(つまり、選択したモデル)、つまり、LARSによって選択された変数を使用した(R ^ 2 of)OLSフィットとそれらを使用した(R ^ 2 of)OLSフィット全数検索によって選択された変数。私は....直接LARS係数を使用していないよ
user603

3
直交していないため、1つのモデルが異なることなく他のモデルよりも優れているとは考えられません。過剰適合が発生する可能性がある状況では、強力な検索ベースのモデルが不安定になる可能性があります。つまり、異なる500サンプルを収集すると、異なる機能セットが取得される可能性があります。一方、LARSはより安定しています。50個の特徴と500個のサンプルが過剰適合になるかどうかは、データセットの性質によって異なりますが、確かに可能です。徹底的な検索では、このサンプルに固有の変動性を説明する機能を選択する傾向があります。LARSはそれほどではありません。
Dikran Marsupial 2011

2
なぜそうしたいのを説明できれば役立つでしょう。あなたが見る必要があるのは、真のモデルの重みとデータの分布の大きさです。ペナルティ付き回帰モデル(LASSO、LARS、Elarisネット、リッジ回帰)は、予想される重みの分布に事前に基づいているため、これが無効なデータセットがある場合は、それから始めるのが良いでしょう。
Dikran Marsupial 2011
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.