LASSO、リッジ、エラスティックネットで


8

について疑問に思う

  • 最適なグリッドの細かさと
  • グリッドの細かさとオーバーフィットの関係は

LASSO、リッジ回帰、エラスティックネットなどの正則化手法では、

LASSOを使用した回帰モデルを500観測値のサンプルに適合させたいとします(データがありません。これは単なる例です)。私が持っていることも仮定
(A) 100と異なるグリッド間の範囲内の値λ mはiがNλ M A X(B) 1000の異なる有するグリッドλの同じ範囲の値λは制御パラメータでありますペナルティの程度。λλminλmax
λ
λ

質問:

  1. (A)(B)でオーバーフィットする傾向について何か言えますか?
  2. 最適なグリッドの細かさを決定できますか?どうやって?

回答:


7

(A)対(B)でオーバーフィットする傾向について何か言えますか?

λλλあなたがテストします。グリッドが粗い場合は、サンプル外のメトリックの絶対最小値をスキップすることを意味する場合がありますが、ハイパーパラメータは十分に推定されない傾向があるため、絶対最小値を見つけることはおそらく最初から望ましくなく、有限サンプルプロパティはそのデータを意味します制限は、隣接するグリッドポイント間の距離のわずかな変化を圧倒するその推定におけるソースノイズになります。推定の標準誤差は、グリッドの細かさの違いを圧倒する傾向があります。

サンプル外のパフォーマンスメトリックが過度に楽観的である可能性があることを本当に懸念している場合は、1の標準エラールールを採用できます。これは、最小値の1標準エラー内で最も正則化されたモデルを選択します。そうすれば、少し保守的になり、それほど複雑ではないモデルを選択できます。

最適なグリッドの細かさを決定できますか?どうやって?

λλλλなげなわの場合、係数パスは区分的に線形であることが観察されるため、新しい係数がゼロ以外の場合は保持されるため、その場合、ノットを格納するだけで情報の損失はありません。ただし、LARSは、係数パスが区分的に線形である場合にのみ機能します。リッジペナルティによって係数が正確にゼロに縮小されることはないため、すべての係数パスはスムーズで常にゼロではありません。同様に、弾性ネット回帰(ラッソ回帰でもある弾性ネット回帰の場合を除く)。

λλmaxβλminλmax。最後に、それらは対数スケールで2つの値のシーケンスを均一に生成します。このグリッドはほとんどの目的には十分ですが、係数がゼロ以外の値で推定されるときに正確にわかるプロパティは省略されます。ウォームスタートは、より迅速にソリューションを提供するために使用され、多くの一般的なGLMをサポートします。


*これを人工ニューラルネットワークの観点から考えているかもしれません。早期停止を使用して正則化が行われることもありますが、これはまったく無関係な問題です(つまり、最適化アルゴリズムが最適に到達できないため、モデルはそれほど複雑ではないことを強制されます)。


2
glmnetがどのようにラムダのuser777を選択するかについての説明は、あなたの言うとおりではないと思います。ペーパーのセクション2.5を確認してください。ラムダの最小値と最大値の選択、およびその間の選択について説明しています。あなたはLARSについて考えているかもしれませんが、それは実際にあなたが説明することを行いますが、リッジペナルティを含めるように一般化されたとは思いません。
Matthew Drury

@MatthewDrury Bah あなたが正しい。LARSのことを考えていました。
Sycoraxは、モニカ

私はいくつかの関連資料とおそらくその論文も読みましたが、次のことは私にとって完全には説得力がありませんでしたこれが最適な選択であることを示す正当化はありますか?また、グリッドの細かさをどのように選択するのですか?良い説明を読んだ覚えがない。
Richard Hardy

1
私はglmnetのすべての使用において、連続したグリッドポイント間の対数尤度の変化は常に、この推定値の推定std-errorが支配的であることを観察しました。そのため、標準グリッドは十分に細かく、解像度の増加から得られる情報はラムダ推定の不確実性によって支配されます。
Matthew Drury、

1
λλ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.