高次元特徴空間におけるK最近傍のような非パラメトリック手法

k-Nearest-Neighbourの主なアイデアは、最も近い点を考慮に入れ、多数決によってデータの分類を決定します。その場合、局所性に敏感なハッシュのようなメソッドは最も近い近傍を効率的に見つけることができるため、高次元のデータでは問題が発生しないはずです。 $k$

さらに、ベイジアンネットワークでの特徴選択により、データの次元が削減され、学習が容易になります。

ただし、統計的学習におけるJohn Laffertyによるこのレビューペーパーは、高次元の特徴空間でのノンパラメトリック学習は依然として課題であり、未解決であることを指摘しています。

何が問題になっていますか？

machine-learning artificial-intelligence

— ストリン
ソース

論文の完全なリファレンスを提供してください。著者はそこに（目立つように）現れていないようです。

— ラファエル

回答:

$d$

$50$ $d$ $d$ $1..1000$ $d$

— ニック
ソース

もちろん。あなたは一様にランダムに50点を選択した場合ので、これは、dimensionaltyに指数関数的に固定半径の超球内のポイントの数を増やしている発生します。したがって、あなたの推論が正しければ、私が多くのサンプルを持っている場合、パーティショニングは簡単になるはずです。そうですか？

— ラファエル

あなたはそれを逆転させたと思います。次元を増やすことにより、超球内のポイントの数を減らします。距離の測定は本質的にその意味を失うため（たとえば、すべてが遠く離れているなど）、分割はより困難になります。

— Nick

k

$k$

N^{n}

$\mathbb{N}^n$

| N^{n} \cap S_{n} (k) |

$|\mathbb{N}^n \cap S_n(k)|$

n

$n$

n

$n$

d

$d$

n << d

$n << d$

これが当然のことかどうかはわかりません。しかし、それは経験に基づく慣習のようです。

— ラファエル

完全な答えではありませんが、引用したウィキペディアのページには次のように記載されています。

k-NNアルゴリズムの精度は、ノイズのある、または無関係な特徴が存在する場合、または特徴のスケールがそれらの重要性と一致しない場合、大幅に低下する可能性があります。

これが発生する可能性は、高次元の特徴空間が存在する場合に増加します。

— デイブ・クラーク
ソース

しかし、PCA（主成分分析）または他の方法で次元を減らし、無関係なデータを削除すると、k-NNは引き続き機能します。そして、ウィキペディアのページが意味するのは、素朴なk-NNは失敗するということです。したがって、これはレビューペーパーを説明していません。

— Strin

PCAは確かに機能しますが、すべての状況で機能するわけではありません。

— Dave Clarke