最近傍が無意味になる高次元データセットの生成


7

論文では、「「Nearest Neighbor」はいつ意味があるのですか?

特定の広範な条件(データとクエリの分布、またはワークロードの観点から)の下で、次元が増加するにつれて、最近傍への距離が最遠距離への距離に近づくことを示します。言い換えれば、異なるデータポイントまでの距離のコントラストは存在しなくなります。これが発生するという私たちが特定した条件は、他の作業が想定している独立して同一に分散された(IID)ディメンションの想定よりもはるかに広いものです。

私の質問は、この効果を生成するデータセットをどのように生成する必要があるかです。

私は、各次元について0〜255の範囲の乱数で1000次元の3つのポイントを作成しましたが、ポイントは異なる距離を作成し、上記の内容を再現しません。寸法(10、100、1000など)と範囲([0,1]など)を変更しても、何も変更されないようです。私はまだ異なる距離を取得しますが、クラスタリングアルゴリズムなどでは問題になりません!

編集:私の実験に基づいて、より多くのサンプルを試してみましたが、ポイント間の距離が数値に収束していません。逆に、ポイント間の最大距離と最小距離がよりはっきりしています。これは、次元の呪いのためにもっと直感必要という最初の投稿に書かれていることや、https://en.wikipedia.org/wiki/Clustering_high-dimensional_data#Problemsのように同じことを主張する他の多くの場所にも反しています。誰かがコードや実際のデータセットを使って、そのような効果が実際のシナリオに存在することを私に示すことができれば、私はそれでも感謝します。


100次元はすでに非常に高い次元としてカウントされます(ユークリッド距離が最初に使用された2、3、または4次元の実際のアプリケーションと比較して)。100と1000の間の大きな変化は期待しないでください。距離は異なりますが、どのくらいですか?
David Ernst、

距離は、100万次元でも意味のある方法で異なります。今考えてみると、おそらく私の乱数生成が問題です。現在、私は特定の範囲の乱数を生成し、それらを各次元専用にしていますが、より正確なアプローチは、多変量正規分布のようなものを使用して乱数を生成することだと思います。
U66、2016

apache commonの多変量正規分布を使用しましたが、効果を再現できません!!!
U66、2016

回答:


4

以下のような新しいフォローアップ記事をいくつか読んでください。

ホーレ、ME、クリーゲル、HP、クレガー、P。、シューベルト、E。、およびジメック、A。(2010年6月)。隣人同士の距離は、次元の呪いを打ち負かすことができますか?。科学的および統計的データベース管理に関する国際会議(pp。482-500)。スプリンガーベルリンハイデルベルク。

そして

Zimek、A.、Schubert、E。、およびKriegel、HP(2012)。高次元数値データにおける教師なしの異常値検出に関する調査 Statistical Analysis and Data Mining、5(5)、363-387。

私が正しく覚えていれば、それらは理論的な距離集中効果(証明されている)の特性と、現実が非常に異なる動作をする理由の限界を示しています。これらの記事が役に立たない場合は、pingを実行して参照を再確認します(覚えていることをGoogle Scholarに入力しただけで、論文を再度ダウンロードしませんでした)。

「呪い」は、最も近い隣人と最も遠い隣人までの距離の差が0に近づくとは言わないことに注意してください。また、距離がいくつかの数値に収束することもありません。むしろ、絶対値比較し相対的な差が小さくなるということです。次に、ランダムな偏差により、近傍が誤ってランク付けされることがあります。

この方程式では、分数、期待値、無視しないでください。 d

limdE(distmax(d)distmin(d)distmin(d))0

こんにちは、情報に感謝します。この効果に似たサンプルをどのように生成できるかということですが、主な質問は未解決のままです。
U66、2017年

うーん...効果をうまく再現できると思います。ポイントは除算内にあります(たとえば、単純な距離ではなく、最小ポイントに対する(max-min)の相対距離です)。寸法を大きくすると、相対距離は小さくなります。これは、原点とデータセット内の他のポイントにも当てはまります。
U66 2017年

「相対距離」はこの区分を正確に指します。絶対値が定数に収束しないことはかなり明らかです。
QUITあり-Anony-Mousse 2017年

2

私もこれについて聞いたことがなかったので、高次元の実際のデータセットと合成データセットが問題の論文の主張を実際にサポートしていないことを見たので、私は少し防御的です。

その結果、私が最初に提案するのは、最初に、汚くて不器用で、多分良くない試みとして、選択した次元で球を生成し(このよう行います)、次にクエリを中央に配置します球。

その場合、すべてのポイントはクエリポイントと同じ距離にあるため、Nearest Neighborの距離はFarthest Neighborと同じになります。

もちろん、これは次元とは無関係ですが、それは紙の図を見たときに思いついたものです。じっと見つめるには十分なはずですが、確かに、より良いデータセットが生成される可能性があります。


について編集:

各ポイントの距離は、より多くの次元で大きくなりました!!!!

これは予想されることです。次元空間が高いほど、空間はまばらになり、距離も長くなります。さらに、たとえば、ユークリッド距離を考えると、これは予想されます。これは、次元が大きくなるにつれて大きくなります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.