モデルの相互検証予測エラーの観点から見た、前方選択/後方除去に対するLASSOの優位性


10

を使用して、元のフルモデルから3つの縮小モデルを取得しました

  • 前方選択
  • 後方消去
  • L1ペナルティテクニック(LASSO)

順方向選択/逆方向除去を使用して取得したモデルの場合、で利用可能なCVlmパッケージのをDAAG使用して、予測誤差のクロス検証された推定値を取得しましたR。LASSOで選択したモデルにはを使用しましたcv.glm

LASSOの予測誤差は、他の誤差よりも少なかった。したがって、LASSOを介して取得したモデルは、予測能力と変動性の点で優れているようです。これは常に発生する一般的な現象ですか、それとも問題固有ですか?これが一般的な現象である場合、これの理論的な理由は何ですか?


2
比率が正しいと分類されるなど、不適切な精度のスコアリングルールを使用しないでください。これは、不適切な予測/モデルに報いるためです。そしてL2ノルムと比較してください。きっとあなたが試した3つのアプローチよりも良いでしょう。
フランクハレル2014年

回答:


15

LASSOとフォワード/バックワードモデルの選択には、どちらも長所と制限があります。徹底的な推奨はできません。これに対処するために、シミュレーションをいつでも探索できます。

どちらも次元の意味で理解できますはモデルパラメーターの数、は観測数のことです。後方モデル選択を使用しモデルを適合させることができた場合、おそらくがありませんでした。その場合、「最適な」モデルは、すべてのパラメーターを使用するモデルです...内部で検証されたとき!これは単に過剰適合の問題です。pp

モデルの評価に分割サンプル相互検証(CV)を使用して、過剰適合が修正されます。あなたはこれを説明しなかったので、私はあなたがそれをしなかったと思います。段階的なモデル選択とは異なり、LASSOは調整パラメーターを使用して、モデル内のパラメーターの数にペナルティを課します。調整パラメーターを修正するか、複雑な反復プロセスを使用してこの値を選択できます。LASSOはデフォルトで後者を行います。これは、予測のMSEを最小限に抑えるためにCVで行われます。そのような洗練された手法を使用する段階的モデル選択の実装については知りません。基準としてのBICでさえ、内部検証バイアスの影響を受けるでしょう。私の説明では、これによりLASSOは「すぐに使える」段階的なモデル選択よりも自動的に活用されます。

最後に、段階的なモデルの選択には、さまざまなリグレッサを含める/除外するためのさまざまな基準があります。特定のモデルパラメーターのWald検定または結果のモデルR ^ 2にp値を使用すると、主に内部検証バイアスのためにうまくいきません(ここでも、CVで修正できます)。これが、このようなモデルが実装される傾向がある方法であることは驚くべきことです。AICまたはBICは、モデル選択のはるかに優れた基準です。

それぞれの方法にはいくつかの問題があります。段階的なモデル選択の問題は、はるかによく理解されており、LASSOの問題よりもはるかに悪いです。私があなたの質問で見る主な問題は、予測を評価するために特徴選択ツールを使用しているということです。それらは異なるタスクです。LASSOは、特徴選択または疎モデル選択に適しています。リッジ回帰はすべての変数を使用するため、より良い予測を与える可能性があります。

LASSOの大きな強みは、順方向(ただし逆方向ではない)の段階的回帰の場合と同様に、であるモデルを推定できることです。どちらの場合も、これらのモデルは、非常に強力な予測子が少数ある場合にのみ、予測に効果的です。結果が多くの弱い予測子によってより適切に予測される場合、リッジ回帰またはバギング/ブースティングは、ロングショットで前方ステップワイズ回帰とLASSOの両方を上回ります。LASSOは、順方向の段階的回帰よりはるかに高速です。p

機能の選択と予測の間にはかなりのオーバーラップがあることは明らかですが、レンチがハンマーとしてどれだけ役立つかについては、決して触れません。一般的に、モデル係数の数が少なく、を使用した予測の、フォワードステップワイズモデル選択よりもLASSOを優先します。p


4

いくつかの基準に従って予測子のサブセットを選択したいとします。サンプル内のAICであるか、調整されたR ^ 2であるか、交差検証であるかは関係ありません。

すべての予測子サブセットの組み合わせをすべてテストして、最適なサブセットを選択できます。しかしながら

  • パラメータの組み合わせの爆発により、非常に時間がかかります。
  • 解を与えるすべての予測子の組み合わせをテストするという意味で、観測よりも多くのパラメーターがある場合に機能します

順方向の段階的選択を使用できます

  • 時間はかかりませんが、特に最高の組み合わせになるとは限りません。予測子が相関している場合(1つの予測子を選択する可能性があり、他の2つの予測子を追加すると改善が見られた場合、それ以上の改善が得られない可能性があります)
  • 観測値よりも多くのパラメーターがある場合でも機能します

後方消去を使用できます

  • 観測値よりも多くのパラメーターがあり、1つの適切な開始点がない場合は機能しません(理論的には、すべての有効な開始点から開始し、逆方向に作業し、最適なものを1つ選択できますが、通常、逆方向除去が意味するものではありません)
  • 順方向のステップワイズのように、すべてのサブセットよりも時間はかかりませんが、特に最良の組み合わせを得ることができない場合があります。予測子が相関している場合

LASSOを使用できます

  • 観測値よりも多くのパラメーターがある場合でも機能します
  • 多くのパラメーターとサブセットの組み合わせの爆発がある場合のCPU効率
  • 正則化を追加します

LAVがCVのデータでよりよく機能する理由についての質問について

  • 1つの可能性は、上記のパス依存性です。LASSOはより良いサブセットを見つける場合があります。多分それは幸運になりました、おそらくLASSOは一般に/時にはより良いサブセットを取得します、私にはわかりません。おそらくこの主題に関する文献があるでしょう。
  • 別の(可能性が高い)可能性は、LASSOの正規化により過剰適合が防止されるため、サンプルのCV / outでLASSOのパフォーマンスが向上します。

結論として、LASSOは、特に多数の予測変数がある場合に、正規化と効率的なサブセット選択を提供します。

ところで、LASSOを実行し、CV(最も一般的)を使用してモデルを選択できますが、AICまたはその他の基準も使用できます。L1正則化と制約なしでモデルを実行し、AICが最小、またはCVエラー、または選択した基準に達するまで、制約を徐々に厳しくします。http://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_model_selection.htmlを参照してください

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.