ステップワイズ回帰の利点は何ですか?


11

私は問題への私のアプローチの多様性のために、段階的回帰を実験しています。だから、私は2つの質問があります:

  1. ステップワイズ回帰の利点は何ですか?その具体的な長所は何ですか?

  2. ステップワイズ回帰を使用して特徴を選択し、選択したすべての特徴をまとめて通常の回帰を適用するハイブリッドアプローチについてどう思いますか?

回答:


15

ステップワイズ回帰の主な利点は、計算が効率的であることです。ただし、そのパフォーマンスは通常、代替方法よりも劣ります。問題は、それが貪欲すぎるということです。次のリグレッサでハード選択を行い、重みを「凍結」することにより、各ステップでローカルに最適ですが、一般的には最適ではない選択を行います。そして、過去の選択を修正するために戻ることはできません。

私の知る限り、ステップワイズ回帰は、より良いソリューションを生成する傾向がある正則化回帰(LASSO)と比較して、一般的に支持されています。l1

Tibshirani(1996)。なげなわによる回帰収縮と選択

LASSO は、重みのノルムにペナルティをます。これにより、解のスパース性が誘導されます(多くの重みは強制的にゼロになります)。これは変数の選択を実行します(「関連する」変数はゼロ以外の重みを持つことができます)。スパース性の程度はペナリティ項によって制御され、それを選択するにはいくつかの手順を使用する必要があります(交差検証は一般的な選択です)。LASSOはステップワイズ回帰よりも計算集約的ですが、多くの効率的なアルゴリズムが存在します。いくつかの例は、最小角度回帰(LARS)と座標降下に基づくアプローチですl1

(2)で提案したのと同様のアプローチは、直交マッチング追跡と呼ばれます。これはマッチング追跡の一般化であり、信号処理の文献における段階的回帰の名前です。

パティら。(1993)。直交マッチング追跡:ウェーブレット分解への応用を伴う再帰関数近似

各反復で、次の最適なリグレッサがアクティブセットに追加されます。次に、アクティブセットのすべてのリグレッサの重みが再計算されます。再重み付けのステップがあるため、このアプローチは、通常のマッチング追跡/段階的回帰よりも貪欲ではありません(パフォーマンスも優れています)。しかし、それでも貪欲な検索ヒューリスティックを採用しています。

これらすべてのアプローチ(段階的回帰、LASSO、および直交マッチング追跡)は、次の問題の近似として考えることができます。

minwyXw22s.t. w0c

回帰のコンテキストでは、列は独立変数に対応し、は従属変数に対応します。信号処理では、列は基底関数に対応し、は近似する信号です。目標は、最良の(最小二乗)近似を与える重みまばらなセットを見つけることです。ノルムは、単純で非ゼロエントリの数をカウント。残念ながら、この問題はNP困難であるため、実際には近似アルゴリズムを使用する必要があります。ステップワイズ回帰と直交マッチング追跡は、貪欲な検索戦略を使用して問題を解決しようとします。LASSOは、XyXywyl0wl0に規範当たり前。ここで、最適化問題は凸型になります(したがって扱いやすくなります)。そして、問題はもはや同じではありませんが、解決策は似ています。私が正しく思い出すと、LASSOと直交マッチングの両方が特定の条件下で正確なソリューションを回復することが証明されています。l1


8

段階的な選択は、一般的に良い考えではありません。理由を理解するには、ここで私の答えを読むのに役立ちます:自動モデル選択のアルゴリズム

利点としては、考えられるすべての機能の組み合わせを検索するのが計算量が多すぎてコンピューターで処理できない時代には、段階的な選択が時間を節約し、扱いやすかったです。ただし、上記のリンクされた回答で説明されている問題は、「最良のサブセット」の回帰にも同じように適用されるため、段階的では、良い解決策は得られず、悪い解決策がより速く生成されることに注意してください。

ハイブリッドアプローチのアイデアは、2番目のモデル(選択した機能を含む)が新しいデータセットに適合している限り問題ありません。


OPが "ハイブリッドアプローチ"と呼んだもの(なぜハイブリッドなのかよくわからない)に関しては、2番目の新しいデータセットのモデルの係数の推定値は(バイアスがかかって問題がある一方で)良いという意味で問題ないということです元のデータ)、新しいデータセットが十分に大きい限り?もちろん、最初のデータセットで間違った方法で選択されたので、それは潜在的に貧弱なモデルになる可能性があります。係数は、問題の少ないデータセットで推定されるだけです。
ビョルン

さらに、私たちがデータを持っているさまざまな変数の数は計算能力よりさらに速く増加し、人々はモデルに何を含めるかについてますます多くのアイデアを持っているので、すべての可能な組み合わせを調べることは依然としてしばしば不可能です。
Stephan Kolassa、2016年

そのスレッドを読んでも役に立たないままです。
Mox

2

ステップワイズ回帰とは何かについてグーグルで検索したところです。完全に理解できたかどうかはわかりませんが、ここで私の最初の考えです

  • 貪欲なので、投げ縄のように良い解決策を生み出すことはできません。私はなげなわを好む
  • シンプルで使いやすく、コーディングも簡単
  • ステップワイズ回帰を使用した後、選択した機能を使用するトレーニング済みモデルができあがるので、ハイブリッドアプローチとして述べたように他の回帰ステップを使用する必要はありません。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.