論文では、「「Nearest Neighbor」はいつ意味があるのですか?」
特定の広範な条件(データとクエリの分布、またはワークロードの観点から)の下で、次元が増加するにつれて、最近傍への距離が最遠距離への距離に近づくことを示します。言い換えれば、異なるデータポイントまでの距離のコントラストは存在しなくなります。これが発生するという私たちが特定した条件は、他の作業が想定している独立して同一に分散された(IID)ディメンションの想定よりもはるかに広いものです。
私の質問は、この効果を生成するデータセットをどのように生成する必要があるかです。
私は、各次元について0〜255の範囲の乱数で1000次元の3つのポイントを作成しましたが、ポイントは異なる距離を作成し、上記の内容を再現しません。寸法(10、100、1000など)と範囲([0,1]など)を変更しても、何も変更されないようです。私はまだ異なる距離を取得しますが、クラスタリングアルゴリズムなどでは問題になりません!
編集:私の実験に基づいて、より多くのサンプルを試してみましたが、ポイント間の距離が数値に収束していません。逆に、ポイント間の最大距離と最小距離がよりはっきりしています。これは、次元の呪いのためにもっと直感が必要という最初の投稿に書かれていることや、https://en.wikipedia.org/wiki/Clustering_high-dimensional_data#Problemsのように同じことを主張する他の多くの場所にも反しています。誰かがコードや実際のデータセットを使って、そのような効果が実際のシナリオに存在することを私に示すことができれば、私はそれでも感謝します。