回答:
「無料昼食なし」の定理は、統計的推論アルゴリズム間にアプリオリの区別がないことを示唆しています。つまり、LARSまたはLASSOが最適に機能するかどうかは、特定のデータセットの性質に依存します。実際には、両方を試して、一般化パフォーマンスの信頼できる推定量を使用して、どちらを操作で使用する(またはアンサンブルを使用する)かを決定するのが最善です。LARSとLASSOの違いはごくわずかなので、パフォーマンスの違いもごくわずかである可能性がありますが、一般に確実に見つける方法は1つだけです!
段階的モードで使用する場合、LARSアルゴリズムは貪欲な方法であり、証明可能な一貫性のある推定量を生成しません(つまり、サンプル数を増やしても安定した結果に収束しません)。
逆に、LASSO(およびLASSOモードで使用される場合のLARSアルゴリズム)は、凸データ適合問題を解決します。特に、この問題(L1のペナルティ付き線形推定器)には、証明された優れた特性(一貫性、スパース性)がたくさんあります。
したがって、段階的に優先する理由が特にない限り、常にLASSOをLASSOモードで使用する(またはLASSOに別のソルバーを使用する)ようにします。
前述のように、LARSはLasso問題、つまり正規化最小二乗問題を解決する特定の方法です。その成功は、標準最小二乗回帰に匹敵する漸近的な努力を必要とするという事実に由来し、したがって、二次計画問題の解決策によって要求されるよりも非常に優れたパフォーマンスをもたらします。LARSのその後の拡張では、と正規化項の合計を最小二乗関数に含める、より一般的なElastic-Netの問題も解決しました。l 1 l 2
この回答の意図はLARSが、最近でsuperseededされているようだということを指摘している座標降下と確率的座標降下方法。これらの方法は特に単純なアルゴリズムに基づいていますが、同時にパフォーマンスはLARSよりも高いようです(多くの場合、1桁または2桁高速です)。例については、Friedmanらのこの論文を参照してください。
したがって、LARSを実装する予定がある場合は、実行しないでください。数時間かかる座標降下を使用します。
投げ縄解法の計算は、2次計画問題であり、標準の数値解析アルゴリズムによって取り組むことができます。しかし、最小角度回帰手順はより良いアプローチです。このアルゴリズムは、投げ縄問題の特別な構造を活用し、すべての値に対して解を同時に計算する効率的な方法を提供します 。
私の意見は次のとおりです。
質問は2つの部分に分けることができます。高次元の場合と低次元の場合。一方、最適なモデルを選択するためにどの基準を使用するかによって異なります。LARSの元の論文では、最適なモデルを選択するための基準が証明されており、論文の「ディスカッション」でもSVSおよびCV基準を確認できます。一般に、LARSとLassoにはわずかな違いがあり、完全に無視できます。
さらに、LARSは計算が高速で信頼性があります。Lassoは高速ですが、LARSが速度の課題に勝つ原因となるアルゴリズムにはわずかな違いがあります。一方、Rには「glmnet」と呼ばれる、larsパッケージよりも信頼性の高い代替パッケージがあります(より一般的であるため)。
要約すると、larsとlassoについて考慮できる重要なものはありません。モデルを使用するコンテキストによって異なります。
個人的には、高次元と低次元の両方のケースでRでglmnetを使用することをお勧めします。または、異なる基準に関心がある場合は、http://cran.r-project.org/web/packages/msgps/ package を使用できます。
状況によっては、最小二乗解の正規化バージョンが望ましい場合があります。LASSO(最小絶対収縮および選択演算子)アルゴリズムは、たとえば、次の制約を持つ最小二乗解を見つけます。β| 1、パラメーターベクトルのL1ノルムは、指定された値以下です。同様に、これは、α| β| 1が追加されました。ここで、αは定数です(これは制約付き問題のラグランジアン形式です)。この問題は、2次計画法またはより一般的な凸最適化手法を使用して、最小角度回帰アルゴリズムなどの特定のアルゴリズムによって解決できます。L1で正規化された定式化は、非ゼロパラメーター値の少ないソリューションを優先する傾向があるため、一部のコンテキストで役立ちます。特定のソリューションが依存する変数の数を効果的に削減します。[11] このため、LASSOとその変形は、圧縮センシングの分野の基本です。