次元の呪いは、一部のモデルに他のモデルよりも大きな影響を与えますか?


15

私が次元の呪いについて読んでいた場所は、主にkNNと線形モデル一般に関連してそれを説明します。Kaggleのトップランカーは、10万個のデータポイントをほとんど持たないデータセットで数千の機能を使用しています。主に、特にブーストツリーとNNを使用します。多くの機能が高すぎるように思われ、それらが次元の呪いの影響を受けると感じています。しかし、これらのモデルは競合他社を上回っているため、そうではないようです。それでは、元の質問に戻ります。一部のモデルは、他のモデルよりも次元の呪いの影響を受けますか?

具体的には、次のモデルに興味があります(これらが私が知っている/使用しているモデルだからです)。

  • 線形およびロジスティック回帰
  • デシジョンツリー/ランダムフォレスト/ブーストツリー
  • ニューラルネットワーク
  • SVM
  • kNN
  • k-meansクラスタリング

簡単な答えは間違いなく「はい」ですが、実際に興味のあるモデルが必要でしょうか?CVコミュニティは、次元の呪いの影響を受ける何千もの異なるタイプのモデルについてあなたに伝えることができると確信しています。そのため、特定のタイプのモデルに焦点を絞ると、この質問に答えるのに役立つ場合があります。

@RustyStatistician -私は私が興味を持っていくつかのモデルが追加されました。
ディリープクマーPatchigolla

この質問には非常に興味がありますが、未回答のままです。どうすればこれを可視化して答えを得ることができますか?
ディレープクマールパッチゴラ

回答:


16

一般に、次元の呪いは、空間を検索する問題をはるかに難しくし、ベクトル空間の分割を通じて「学習する」アルゴリズムの大部分に影響を与えます。最適化問題の次元が高いほど、最適化するスペースを満たすためにより多くのデータが必要になります。

一般化線形モデル

β^=バツバツ1バツy

決定木
決定木も次元の呪いに苦しんでいます。決定木は、各ノードでサンプル空間を直接分割します。サンプルスペースが増加すると、データポイント間の距離が増加するため、「適切な」分割を見つけるのが非常に難しくなります。

ランダムフォレスト
ランダムフォレストは、意思決定ツリーのコレクションを使用して予測を行います。ただし、問題のすべての機能を使用する代わりに、個々のツリーは機能のサブセットのみを使用します。これにより、各ツリーで最適化されているスペースが最小化され、次元の呪いの問題に対処できます。


AdaBoostなどのBoosted Treeの Boostingアルゴリズムは、次元の呪いに苦しみ、正則化が利用されない場合に過剰適合する傾向があります。AdaBoostの投稿はオーバーフィッティングになりやすいのですか、オーバーフィッティングになりやすいので、詳しく説明しません 私ができるよりも良い理由を説明しています。

ニューラルネットワーク
ニューラルネットワークは、アーキテクチャ、活性化、深さなどに依存する次元の呪いの影響を受けないという意味で奇妙です。したがって、次元の呪いを繰り返すことは、大量のポイントが必要になるという問題です。入力スペースをカバーする寸法。ディープニューラルネットワークを解釈する1つの方法は、すべての層が、最後の層が高次元の多様体を低次元の多様体に複雑に投影し、最後の層がその上で分類されると考えることです。したがって、たとえば最後の層がソフトマックス層である分類の畳み込みネットワークでは、アーキテクチャをより小さな次元に非線形投影し、その投影で多項ロジスティック回帰(ソフトマックス層)を行うと解釈できます。したがって、ある意味では、データの圧縮表現により、次元の呪いを回避することができます。繰り返しますが、これは1つの解釈であり、実際には次元の呪いは実際にニューラルネットワークに影響しますが、上記のモデルと同じレベルではありません。

SVM
SVMは、過剰な正則化が発生するため、一般化線形モデルほど過剰適合しない傾向があります。詳細については、この投稿のSVM、オーバーフィッティング、次元の呪いをご覧ください。

K-NN、K-平均

K-meanとK-NNは両方ともL2の2乗距離測定を使用するため、次元の呪いの影響を大きく受けます。次元の量が増えると、さまざまなデータポイント間の距離も増えます。これは、距離がより記述的になることを期待して、より多くのスペースをカバーするためにより多くのポイントが必要な理由です。

私の答えは非常に一般的であるため、モデルの詳細についてはお気軽にお問い合わせください。お役に立てれば。


こんにちはアーメン私が尋ねたすべてのモデルの素晴らしい簡潔な説明。線形モデルの問題は、私にとってはまだ明確ではありません:線形モデルは、同じno:of次元のk-NNおよびk-Meansモデルよりもパフォーマンスが良いですか、それとも悪いですか?また、共線性が線形モデルの問題であると言ったとき、共線性がない(または最小の)場合、高次元は線形モデルの問題ではないことを意味しますか?
ディリープクマールパッチゴラ

線形モデルが、任意の問題に対してk-nnまたはk-meansよりも優れているかどうかを定量化することは困難です。あなたの問題が線形的に分離可能である場合、私は線形モデルに賭けますが、あなたのスペースがもう少し複雑な場合、私はk-nnで行きます。共線性は、次元の呪いの問題を悪化させます。共線性がなくても、次元の呪いは依然として適用されます。K-meansは両方とも近傍駆動であるため、k-nnと同じ程度に苦しむ必要があり、一般に同じ距離関数を使用します。実際には、CODがどれほど悪いかを定量化することは困難です。お役に立てれば!
アーメンアガジャニヤン

次元の呪い(CoD)の定義は何ですか?あなたの答えは、線形モデルがCoDの影響を最も受けていることを示唆しているように思われます。これは誤解を招く可能性があります。
マティフォー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.