(A)対(B)でオーバーフィットする傾向について何か言えますか?
λλλあなたがテストします。グリッドが粗い場合は、サンプル外のメトリックの絶対最小値をスキップすることを意味する場合がありますが、ハイパーパラメータは十分に推定されない傾向があるため、絶対最小値を見つけることはおそらく最初から望ましくなく、有限サンプルプロパティはそのデータを意味します制限は、隣接するグリッドポイント間の距離のわずかな変化を圧倒するその推定におけるソースノイズになります。推定の標準誤差は、グリッドの細かさの違いを圧倒する傾向があります。
サンプル外のパフォーマンスメトリックが過度に楽観的である可能性があることを本当に懸念している場合は、1の標準エラールールを採用できます。これは、最小値の1標準エラー内で最も正則化されたモデルを選択します。そうすれば、少し保守的になり、それほど複雑ではないモデルを選択できます。
最適なグリッドの細かさを決定できますか?どうやって?
λλλλなげなわの場合、係数パスは区分的に線形であることが観察されるため、新しい係数がゼロ以外の場合は保持されるため、その場合、ノットを格納するだけで情報の損失はありません。ただし、LARSは、係数パスが区分的に線形である場合にのみ機能します。リッジペナルティによって係数が正確にゼロに縮小されることはないため、すべての係数パスはスムーズで常にゼロではありません。同様に、弾性ネット回帰(ラッソ回帰でもある弾性ネット回帰の場合を除く)。
λλmaxβλminλmax。最後に、それらは対数スケールで2つの値のシーケンスを均一に生成します。このグリッドはほとんどの目的には十分ですが、係数がゼロ以外の値で推定されるときに正確にわかるプロパティは省略されます。ウォームスタートは、より迅速にソリューションを提供するために使用され、多くの一般的なGLMをサポートします。
*これを人工ニューラルネットワークの観点から考えているかもしれません。早期停止を使用して正則化が行われることもありますが、これはまったく無関係な問題です(つまり、最適化アルゴリズムが最適に到達できないため、モデルはそれほど複雑ではないことを強制されます)。