データを理解することを主な目的とする分析を行っています。データセットは相互検証(10k)に十分な大きさで、予測子には連続変数とダミー変数の両方が含まれ、結果は連続です。主な目標は、モデルを解釈しやすくするために、いくつかの予測子を除外することが理にかなっているかどうかを確認することでした。
質問:
私の質問は、「どの変数が結果を説明し、その説明の「十分に強い」部分であるか」です。ただし、Lassoのラムダパラメーターを選択するには、交差検証、つまり予測有効性を基準として使用します。推論を行う場合、予測有効性は、私が尋ねている一般的な質問に対する十分な代案ですか?
LASSOは8つの予測子のうち3つだけを保持したとしましょう。そして今、私は「これらが結果にどのような影響を与えるか」と自問します。たとえば、性別の違いを発見しました。投げ縄収縮後の係数は、女性のスコアが男性よりも1ポイント高いことを示しています。しかし、収縮がない場合(つまり、実際のデータセットでは)、スコアは2.5ポイント高くなります。
- 私の「本当の」性別効果としてどれをとりますか?予測の妥当性によってのみ行くと、それは収縮係数になります。
- または、ある文脈で、統計に精通していない人々のためにレポートを書いていると言います。どの係数を彼らに報告しますか?
1
どのようなモデルを見ていますか?線形、ロジスティック、ポアソンなどのモデル?
—
TrynnaDoStat 2015年
それは線形モデルですが、それが質問に
—
影響を与える