損失関数を使用して線形回帰モデルを実行するのに、なぜL 2ではなくを使用する必要があるのか正則?
過剰適合を防ぐ方が良いですか?それは確定的ですか?(常にユニークなソリューションです)?(スパースモデルを生成するため)特徴選択の方が優れていますか?機能間で重みを分散しますか?
2
L2は変数の選択を行わないため、L1の方が決定的に優れています。
—
マイケルM