cv.glmnet()プロットを解釈する方法は?


8

投げ縄を実行してから、1回限りの相互検証を実行しました

cv<-cv.glmnet(df, df$Price, nfolds = 1500) 

cvをプロットすると、次のようになります。 ここに画像の説明を入力してください

また、私は2つの異なるラムダを得ることに気づいた:lambda.minlambda.1se

  • これらのラムダの違いは何ですか?
  • 上記のプロットから一般的に何を理解できますか(これらの信頼区間とは何か、2つの点線とは何ですか)?

nfolds=1010倍の検証を実行するように変更するとlambda.1se、このラムダに対して異なる係数が得られます。どのクリテリオに基づいて、自分に最適なものを選択できますか?


2
ここを見てみましたか:web.stanford.edu/~hastie/glmnet/glmnet_alpha.html
ilanman

@ilanmanそれは素晴らしいです、ありがとう!しかし、それでも私はどのラムダを選ぶべきですか?私の直感はlambda.minを言うだろうが、私はそのlambda.1seは通常、提案された参照...
ジャスミン

回答:


16

これは統計についてではなく、ドキュメントを読むだけです。

  • 2つの異なる値のために2つの一般的な選択を反映。アウトオブサンプル最小限に損失CVの一方です。最大のものであるの1つの標準誤差内の値。推論の1行は、を使用することを提案しています。これは、最小値よりも大きい値を選択することにより、過剰適合を回避するためです。どちらが最適かは、状況によって異なります。λλλminλ1seλλminλ1seλ
  • 信頼区間は、損失測定基準(赤い点)の推定誤差を表します。CVを使用して計算されます。縦線はとの場所を示しています。上部の数字は、非ゼロ係数推定の数です。λminλ1se
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.