統計学習の本の中で最良のサブセット選択について読んでいます。3つの予測子場合、2 3 = 8個のサブセットを作成します。
- 予測子のないサブセット
- 予測子x 1のサブセット
- 予測子x 2のサブセット
- 予測子x 3のサブセット
- 予測子x 1、x 2のサブセット
- 予測子x 1、x 3のサブセット
- 予測子x 2、x 3のサブセット
- 予測子x 1、x 2、x 3のサブセット
次に、テストデータでこれらすべてのモデルをテストして、最適なモデルを選択します。
今、私の質問は、なぜなげなわと比較して最良のサブセット選択が好まれないのかということです。
最適なサブセットとなげなわのしきい値関数を比較すると、最適なサブセットは、なげなわのようにいくつかの係数をゼロに設定することがわかります。ただし、他の係数(ゼロ以外の係数)にはまだols値があり、バイアスはかけられません。一方、なげなわでは、係数の一部がゼロになり、その他(ゼロ以外の係数)にはバイアスがかかります。下の図はそれをより良く示しています:
写真から、最適なサブセットの場合の赤い線の部分は灰色の線の上にあります。他の部分は、いくつかの係数がゼロであるx軸上にあります。灰色の線は、偏りのないソリューションを定義します。投げ縄では、いくつかのバイアスが導入されますます。この図から、最適なサブセットは投げ縄よりも優れていることがわかります!最適なサブセットを使用することの欠点は何ですか?