3
クラスを線形分離可能な高次元の特徴空間にデータを変換すると、なぜ過剰適合につながるのでしょうか。
私の本(WebbとWileyによる統計的パターン分類)で、SVMと線形的に分離できないデータに関するセクションを読みました。 多くの実際の実用的な問題では、クラスを分離する線形境界はなく、最適な分離超平面を検索する問題は意味がありません。高度な特徴ベクトルを使用して、クラスが線形分離可能な高次元の特徴空間にデータを変換したとしても、これはデータの過剰適合につながり、一般化能力が低下します。Φ(x)Φ(x)\Phi(x) データをクラスが線形分離可能な高次元の特徴空間に変換すると、過剰適合と一般化能力の低下につながるのはなぜですか?