非常に多くの正則化手法があり、すべての組み合わせを試すのは現実的ではありません。
- l1 / l2
- 最大ノルム
- 脱落
- 早期停止
- ...
ほとんどの人はドロップアウトと早期停止の組み合わせに満足しているようです。他の手法を使用することが理にかなっているケースはありますか?
たとえば、疎なモデルが必要な場合は、l1正則化を少し追加できます。それ以外に、他の正則化手法を散布することを支持する強力な議論はありますか?
フリーランチなしの定理について知っています。理論的には正則化手法のすべての組み合わせを試す必要がありますが、パフォーマンスが大幅に向上しない場合は、試す価値はありません。