LASSO回帰は係数をゼロに向けて縮小するため、効果的にモデルを選択できます。私のデータには、名義共変量と連続共変量の間に意味のある相互作用があると思います。ただし、必ずしも真のモデルの「主効果」が意味がある(ゼロ以外)わけではありません。もちろん、本当のモデルは不明なので、私はこれを知りません。私の目的は、真のモデルを見つけ、可能な限り密接に結果を予測することです。
モデル構築の古典的なアプローチには、相互作用が含まれる前に主効果が常に含まれることがわかった。したがって、同じモデル内に共変量相互作用がある場合、2つの共変量と主効果のないモデルは存在できません。結果として、この関数は 、この規則に従うモデル用語(例えば、後方または前方AICに基づいて)を慎重に選択します。step
R
LASSOの動作は異なるようです。すべてのパラメーターにペナルティが課されるため、主効果がゼロに縮小されるのに対し、最良の(たとえば、相互検証された)モデルの相互作用はゼロではないことは間違いありません。これは、特にR
のglmnet
パッケージを使用しているときにデータに見られます。
上記の最初のルールに基づいて批判を受けました。つまり、最終的な交差検証されたLassoモデルには、非ゼロ相互作用の対応する主効果項が含まれていません。しかし、この文脈ではこの規則はやや奇妙に思えます。結局のところ、真のモデルのパラメーターがゼロかどうかという問題です。そうだと仮定しますが、相互作用はゼロではないので、LASSOはおそらくこれを識別し、正しいモデルを見つけます。実際、このモデルには実際にはノイズ変数である真のゼロの主効果が含まれていないため、このモデルからの予測はより正確になるようです。
この根拠に基づいて批判に反論することはできますか、それともLASSOには相互作用期間の前に主な効果が含まれることに何らかの注意を払う必要がありますか?