ラムダが、エラスティックネット回帰のラムダの推奨値である「最小値から1つの標準誤差以内」であるのはなぜですか?


23

エラスティックネット回帰でラムダが果たす役割を理解しています。そして、なぜ相互検証エラーを最小化するラムダ値であるlambda.minを選択するのかを理解できます。

私の質問は、統計文献のどこでlambda.1seを使用することを推奨していますか、それはCVエラーと1つの標準エラーを最小にするラムダの値ですか?正式な引用を見つけることも、これがしばしば良い値である理由を見つけることもできないようです。私はそれがより制限された正則化であり、パラメータをゼロに向かってより小さくすることを理解していますが、lambda.1seがlambda.minよりも良い選択である条件が常にあるとは限りません。誰かが説明を助けることができますか?


5
正式なリファレンスは、Hastie et al。「統計的学習の要素」 61ページしかし、彼らは...この選択のための多くの正当性を与えていない
リチャード・ハーディ

回答:


22

Friedman、Hastie、およびTibshirani(2010)は統計学習の要素を引用して、

最適なモデルを選択する際に、「1つの標準エラー」ルールをよく使用します。これは、リスク曲線が誤差を伴って推定されるという事実を認識しているため、par約の側に誤りがあります。

他の量とは対照的に、1つの標準エラーを使用する理由は、それが標準であるためです。Krstajic、et al(2014)は次のように書いています(太字の強調鉱山):

ブライマンら。[25]は、分類木モデルに最適な木サイズを選択した場合、最小の交差検証エラーを持つ木サイズが一般にオーバーフィットするモデルを生成することを発見しました。したがって、彼らの本のセクション3.4.3では、Breiman et al。[25]最適なツリーサイズを選択するための1つの標準エラールール(1 SEルール)を定義し、本全体でそれを実装します。単一のVフォールド交差検証の標準誤差を計算するには、各フォールドの精度を計算する必要があり、標準誤差は各フォールドのV精度から計算されます。ハスティ等。[4] 1 SEルールは、エラーが最良のモデルのエラーの1標準エラー以下である最もs約なモデルを選択するものとして定義します。私たちが同意する1 SEルールの主なポイントは、精度が最良のモデルに匹敵する最も単純なモデルを選択することです。

λ


1
ありがとうございました!ラムダの「標準」選択に慣れていない人のために質問が出てきたとき、私はついに適切な何かを引用することができます。Krstajic et alへのリンクも素晴らしい。
jhersh

その引用は、「1seが分類に最適であることがわかった」とのみ述べています。しかし、質問は回帰について尋ねました!選択肢があります。たとえば、2seに戻ろうとすると、ラムダが大きすぎて係数が小さくなりすぎるという問題が発生します。しかし、たとえば、元のモデルのlambda.1seで選択されていないすべての変数を除外するモデルを再構築できます。
smci

@smciどの引用?私が抽出した引用のいずれにもありません。どちらも、分類だけでなく、1-SE規則が一般に適用可能であることを示唆しています。
シャドウトーカー

6

ブライマンらの本(Krstajicからの他の回答の引用で引用)は、私が1SEルールについて見つけた最も古い参照です。

これは、ブライマン、フリードマン、ストーン、およびオルシェンの分類および回帰ツリー(1984)です。セクション3.4.3でこのルールを「導出」します。

したがって、正式な引用が必要な場合、それが元の情報源のようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.