一般に、次元の呪いは、空間を検索する問題をはるかに難しくし、ベクトル空間の分割を通じて「学習する」アルゴリズムの大部分に影響を与えます。最適化問題の次元が高いほど、最適化するスペースを満たすためにより多くのデータが必要になります。
一般化線形モデル
β^= (X′バツ)− 1バツ′y
決定木
決定木も次元の呪いに苦しんでいます。決定木は、各ノードでサンプル空間を直接分割します。サンプルスペースが増加すると、データポイント間の距離が増加するため、「適切な」分割を見つけるのが非常に難しくなります。
ランダムフォレスト
ランダムフォレストは、意思決定ツリーのコレクションを使用して予測を行います。ただし、問題のすべての機能を使用する代わりに、個々のツリーは機能のサブセットのみを使用します。これにより、各ツリーで最適化されているスペースが最小化され、次元の呪いの問題に対処できます。
AdaBoostなどのBoosted Treeの Boostingアルゴリズムは、次元の呪いに苦しみ、正則化が利用されない場合に過剰適合する傾向があります。AdaBoostの投稿はオーバーフィッティングになりやすいのですか、オーバーフィッティングになりやすいので、詳しく説明しません。
私ができるよりも良い理由を説明しています。
ニューラルネットワーク
ニューラルネットワークは、アーキテクチャ、活性化、深さなどに依存する次元の呪いの影響を受けないという意味で奇妙です。したがって、次元の呪いを繰り返すことは、大量のポイントが必要になるという問題です。入力スペースをカバーする寸法。ディープニューラルネットワークを解釈する1つの方法は、すべての層が、最後の層が高次元の多様体を低次元の多様体に複雑に投影し、最後の層がその上で分類されると考えることです。したがって、たとえば最後の層がソフトマックス層である分類の畳み込みネットワークでは、アーキテクチャをより小さな次元に非線形投影し、その投影で多項ロジスティック回帰(ソフトマックス層)を行うと解釈できます。したがって、ある意味では、データの圧縮表現により、次元の呪いを回避することができます。繰り返しますが、これは1つの解釈であり、実際には次元の呪いは実際にニューラルネットワークに影響しますが、上記のモデルと同じレベルではありません。
SVM
SVMは、過剰な正則化が発生するため、一般化線形モデルほど過剰適合しない傾向があります。詳細については、この投稿のSVM、オーバーフィッティング、次元の呪いをご覧ください。
K-NN、K-平均
K-meanとK-NNは両方ともL2の2乗距離測定を使用するため、次元の呪いの影響を大きく受けます。次元の量が増えると、さまざまなデータポイント間の距離も増えます。これは、距離がより記述的になることを期待して、より多くのスペースをカバーするためにより多くのポイントが必要な理由です。
私の答えは非常に一般的であるため、モデルの詳細についてはお気軽にお問い合わせください。お役に立てれば。