説明モデルのLASSO:パラメーターが縮小されているかどうか?


9

データを理解することを主な目的とする分析を行っています。データセットは相互検証(10k)に十分な大きさで、予測子には連続変数とダミー変数の両方が含まれ、結果は連続です。主な目標は、モデルを解釈しやすくするために、いくつかの予測子を除外することが理にかなっているかどうかを確認することでした。

質問:

  1. 私の質問は、「どの変数が結果を説明し、その説明の「十分に強い」部分であるか」です。ただし、Lassoのラムダパラメーターを選択するには、交差検証、つまり予測有効性を基準として使用します。推論を行う場合、予測有効性は、私が尋ねている一般的な質問に対する十分な代案ですか?

  2. LASSOは8つの予測子のうち3つだけを保持したとしましょう。そして今、私は「これらが結果にどのような影響を与えるか」と自問します。たとえば、性別の違いを発見しました。投げ縄収縮後の係数は、女性のスコアが男性よりも1ポイント高いことを示しています。しかし、収縮がない場合(つまり、実際のデータセットでは)、スコアは2.5ポイント高くなります。

    • 私の「本当の」性別効果としてどれをとりますか?予測の妥当性によってのみ行くと、それは収縮係数になります。
    • または、ある文脈で、統計に精通していない人々のためにレポートを書いていると言います。どの係数を彼らに報告しますか?

1
どのようなモデルを見ていますか?線形、ロジスティック、ポアソンなどのモデル?
TrynnaDoStat 2015年

1
それは線形モデルですが、それが質問に
影響を与える

回答:


7

λ

λ)。統計学者として、「最良の」推定とは何かを判断し、統計に精通していない人にそれを(できれば、推定の信頼度をある程度示して)報告する必要があります。「最良」とは、偏った見積もりである場合とそうでない場合があります。

glmnetλλ

λ


「バイアスを最小化するパラメーター推定値」の「バイアス」とはどういう意味ですか?そして、次のように読んだ場合、残りを正しく読みますか?サンプル外の推定MSEが最も低い(つまり、交差検証の)モデルを選択する必要がありますか?尾根は疎な係数行列が欲しいので問題外なので、縮小さ
mbokulic

λ

おもしろい、そんなふうに思ったことはない。もう一度私はあなたを正しく理解しているかどうかを尋ねなければなりません。したがって、線形回帰により、母集団係数の最も公平な推定値が得られます(元の質問の「2.5ポイント高い」例)。一方、なげなわまたは尾根は。サンプル外のMSEを最小限に抑えます。もしそうなら、(予測ではなく)単に理解したい場合は、線形回帰の方が良いように見えますが、ステップワイズ法などでモデルを単純化する必要があります。
mbokulic 2015

ここでの答えは役に立ちます。彼らは、OLS(線形回帰)がサンプル内の強力なパフォーマンスを持っているのに対し、投げ縄はサンプル外のものであることを示唆しています。また、彼らは、投げ縄によって選択された制限付き予測子のセットでOLSを使用できることを示唆しています。これは、OLSの見積もりがわずかにオーバーフィットする場合でも、私の解釈の目標にとっては理にかなっています。
mbokulic 2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.