LASSOを使用すると、R Squaredが回帰適合の適切な尺度にならないのはなぜですか?


12

LASSOを使用してモデルを近似する場合、R Squaredは理想的な尺度ではないことをいくつかの箇所で読みました。しかし、それがなぜなのか正確にはわかりません。

さらに、最良の代替案を推奨できますか?

回答:


19

LASSOを使用する目的は、多くの共変量を持たないという意味で(予測量の)スパース表現を取得することです。モデルをと比較すると、多くの共変量を持つモデルが優先される傾向があります。実際、結果に関係のない共変量を追加しても、R 2は決して減少せず、少なくとも少しは増加します。LASSOモデルは、最適なペナルティ付き対数尤度でモデルを識別します(ペナルティなしの対数尤度はR 2に単調に関連しています)。LASSOモデルを他のタイプのモデルと比較するためにより広く使用されている検証統計は、たとえば、BICまたは交差検証されたR 2です。R2R2R2R2


1
理由を明確に提示し、代替案を提供するための+1
Haitao Du

1
すばらしい答えをありがとう!「LASSOモデルは、最適なペナルティ付き対数尤度でモデルを識別します(ペナルティなしの対数尤度はR2に単調に関連しています)。」最初の部分は、予測とペナルティによってエラーが最も少ないモデルを選択することを意味しますか?ただし、括弧内のビットの意味がわかりません。それは、R2がダウンするとペナルティなしのLLがアップすることを意味しますか?また、相互検証されたR2は完全に新しいデータセットに含まれている必要がありますか?それとも、トレーニングデータに基づくことができますか?
Dave

3
log(2π)N+1log(N)+log(i=1nri2)1i=1nri2/i=1nyi2。ペナルティは間接的にエラーの原因となり、スパース性を適用するために支払う代償です。ペナルティなしのモデルでは、常に(内部)エラーが低くなります。一般的に、人々は同じデータセットで相互検証を行います。新しいデータセットでモデルをテストすることはまったく別のことであり(「クロス」部分は必要ありません)、十分に行われていません。
AdamO

@AdamOコメントをあなたの回答に編集するのは良い考えだと思います。とても良いです。
Matthew Drury

こんにちは@AdamOの最後のフォローアップ質問です。なぜ、従来のR2が悪い指標なのか理解しました。しかし、なぜ(同じデータセット内で)相互検証されたR2が大丈夫なのかはわかりません。
Dave
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.