なげなわと比較して、最適なサブセット選択が好ましくないのはなぜですか？

統計学習の本の中で最良のサブセット選択について読んでいます。3つの予測子場合、サブセットを作成します。 $x_1,x_2,x_3$ $2^3=8$

予測子のないサブセット
予測子サブセット $x_1$
予測子サブセット $x_2$
予測子サブセット $x_3$
予測子サブセット $x_1,x_2$
予測子サブセット $x_1,x_3$
予測子サブセット $x_2,x_3$
予測子サブセット $x_1,x_2,x_3$

次に、テストデータでこれらすべてのモデルをテストして、最適なモデルを選択します。

今、私の質問は、なぜなげなわと比較して最良のサブセット選択が好まれないのかということです。

最適なサブセットとなげなわのしきい値関数を比較すると、最適なサブセットは、なげなわのようにいくつかの係数をゼロに設定することがわかります。ただし、他の係数（ゼロ以外の係数）にはまだols値があり、バイアスはかけられません。一方、なげなわでは、係数の一部がゼロになり、その他（ゼロ以外の係数）にはバイアスがかかります。下の図はそれをより良く示しています：

写真から、最適なサブセットの場合の赤い線の部分は灰色の線の上にあります。他の部分は、いくつかの係数がゼロであるx軸上にあります。灰色の線は、偏りのないソリューションを定義します。投げ縄では、いくつかのバイアスが導入されますます。この図から、最適なサブセットは投げ縄よりも優れていることがわかります！最適なサブセットを使用することの欠点は何ですか？ $\lambda$

— ヴィル
ソース

..データのランダム性が原因で多くの誤ったサブセットの1つを選択し、関連する係数推定値が標準誤差に比べてゼロから遠い場合、曲線はどのようになりますか？

— jbowman

@jbowman私はそれを非常に明確に理解していませんが、なぜデータのランダム性が間違ったものを選択させるのですか？クロス検証を使用して最適なサブセットを選択すると、間違ったサブセットを選択する可能性が低くなります。

— ヴィル

あなたは「より少ないバイアス」を「より良い」と同一視しているようです。公平性にこのような高い価値を置くことになったのはなぜですか？

— マシュードゥルーリー

回答:

サブセット選択では、正しいモデルのスーパーセットを選択した場合、つまり、真の係数値がゼロである予測子のみを削除した場合にのみ、非ゼロパラメーターがバイアスされません。選択手順により、真の非ゼロ係数を持つ予測変数を除外することになった場合、すべての係数推定値にバイアスがかかります。選択が通常完璧ではないことに同意する場合、これはあなたの議論を無効にします。

したがって、偏りのないモデル推定を「確実に」行うには、より多くの、または潜在的に関連する可能性のあるすべての予測子を含める側で誤解する必要があります。つまり、まったく選択しないでください。

なぜこれは悪い考えですか？バイアスと分散のトレードオフのため。はい、大きなモデルは偏りがありませんが、大きな分散を持ち、分散が予測（またはその他の）エラーを支配します。

したがって、パラメータの推定値は、サブセットの選択で真のゼロパラメーターのみが削除され、より大きな分散の不偏モデルが得られることを期待するのではなくバイアスが分散が小さい（正規化）です。

クロスバリデーションを使用して両方のアプローチを評価すると書いているので、これは上記の懸念のいくつかを軽減します。Best Subsetの残りの1つの問題は残ります。一部のパラメーターを厳密にゼロに制限し、他のパラメーターを自由にフローティングできるようにします。だから我々は、投げ縄微調整している場合がない見積もりの不連続があり、ポイントを超えの予測含まれるか除外されているが。クロスバリデーションは「最適」を出力するとし近いことです、我々はpが含まれるべきか否か、本質的に不確かなように、。この場合、私はそれがパラメータ推定値を制限するために、より理にかなっていると主張 $\lambda$ $\lambda_0$ $p$ $\lambda$ $\lambda_0$ $\hat{\beta}_p$ 小さな（絶対）値に投げ縄を介してではなく、どちらかに排除、またはそれが自由に浮遊させ最高のサブセットがないように、。 $\hat{\beta}_p=0$ $\hat{\beta}_p=\hat{\beta}_p^{\text{OLS}}$

これは役に立つかもしれません：なぜ収縮が働くのですか？

— ステファン・コラッサ
ソース

うーん。これがなぜ最良のサブセットが投げ縄よりも悪いのか（ここでの主な質問です）とは思わない。

— アメーバは、モニカを復活させる

@amoeba：詳しく説明しますか？

— ステファンKolassa

まあ、私はなぜ投げ縄が最良のサブセットよりも好まれるのかという質問として理解しました。両方を交差検証ループに入れてから、投げ縄パラメーターを調整するか、最適なサブセットを見つけることを想像してください。通常、投げ縄が推奨されます。私は質問を理由を尋ねると理解しました。（たとえば、Qのタイトルを参照）、あなたの答えが実際に答えているかどうかはわかりません。または、私はあなたの答えを誤解しましたか？

— アメーバは、

λ

$\lambda$

λ_{0}

$\lambda_0$

p

$p$

p

$p$

λ \approx λ_{0}

$\lambda\approx\lambda_0$

{\hat{β}}_{p}

$\hat{\beta}_p$

この答えは本当に質問に答えていないことに同意-私は...以下この上で私のテイクを追加しました

— トムWenseleers

原則として、最良のサブセットが見つかる場合、（1）実際に適合に寄与する変数を選択する、（2）適合に寄与しない変数を選択しない、という点でLASSOよりも優れています。（3）予測精度と（4）選択した変数の本質的に不偏の推定値を生成します。LASSOよりも優れた最高のサブセットの品質を主張した最近の論文の1つは、Bertsimas et al（2016）による「最新の最適化レンズによる最高のサブセット選択」です。LASSOまたはリッジよりも優れたサブセットが優れた具体例（スパイク列のデコンボリューション）を示したもう1つの古い例は、de Rooi＆Eilers（2011）によるものです。

$L_0$ $L_1$ $L_0$ $L_q$ qが0に近いノルムペナルティ付き回帰は、原則としてLASSOよりも最適なサブセット選択に近くなりますが、これはもはや凸最適化の問題ではないため、適合させるのは非常に困難です）。

LASSOのバイアスを減らすために、適応LASSO（最小二乗またはリッジ回帰適合からの事前推定に基づいて係数が微分的にペナルティを課される）や緩和されたLASSO（簡単な解決策を行うなど） LASSOによって選択された変数の最小二乗適合）。ただし、最適なサブセットと比較して、LASSOは選択する変数が多すぎる傾向があります。最適なサブセット選択は優れていますが、適合させるのが難しくなります。

そうは言っても最適なサブセット選択/を行うための効率的な計算方法もあります $L_0$ 。また、最適なサブセット選択では、クロス検証または何らかの情報基準（調整済みR2、AIC、BIC、mBIC ...）を使用して、最適な予測パフォーマンス/説明力を提供する予測子の数を決定する必要があることに注意してくださいモデルの変数の数。これは過剰適合を避けるために不可欠です。Hastie et al（2017）による論文「Best Subset Selection、Forward Stepwise Selection、およびLassoの拡張比較」最適なサブセット、LASSO、および緩和されたLASSOのような一部のLASSOバリアントの広範な比較を提供し、緩和されたLASSOは最も広い範囲の状況で最高のモデル予測精度を生成したものであると主張します。ベルツィマス。しかし、どちらが最適であるかについての結論は、あなたが最良と考えるものに大きく依存します（例えば、最高の予測精度、または関連する変数を選択し、無関係な変数を含まない場合、リッジ回帰などは、通常、あまりにも多くの変数を選択しますが、それにもかかわらず、共線性の高い変数は本当に優れている可能性があります）。

あなたが説明するような3つの変数を持つ非常に小さな問題の場合、それは明白なことですが、最良のサブセット選択が好ましいオプションです。

— トム・ウェンセリアーズ
ソース

「投げ縄よりも優れている」というフレーズで「より良い」とはどういう意味ですか？

— マシュードゥルーリー

k

$k$

λ

$\lambda$

k

$k$

k

$k$

k

$k$

編集されたが、いくつかの詳細...与えるために少しに答える私の

— トムWenseleers

答えのどれもが安定性の問題に対処しているとは思わない。段階的およびすべての可能なサブセット回帰のように、lasso不安定であることが有名です。つまり、プロセス全体をブートストラップする場合、選択した機能のリストに意性が多すぎることになります。

— フランクハレル

はい、LASSOによって選択された変数は不安定になる可能性があり、これはさらに良いので、最良のサブセット回帰の場合は、この点でエラスティックネット回帰が少し良くなります。安定した方法であり、高い共線性の下でより良い予測精度を与えることができます。予測精度、無関係な変数または関連性の高い変数を含んでいないの偽陰性率を含むの偽陽性率... -しかし、多くのアプリケーションのための最も重要な基準であるかに依存します

— トムWenseleers