1999年、バイエル等。尋ねられ、 ときに「最も近い隣人は」意味がありますか?
1999年以降、距離の平坦性がNN検索に与える影響を分析および視覚化するより良い方法はありますか?
[与えられた]データセットは、1-NN問題に対する意味のある答えを提供しますか?10 NN問題?100-NNの問題?
今日、この質問に専門家はどのようにアプローチしますか?
1月24日月曜日の編集:
「次元の増加に伴う距離フラットネス」の短縮名としての「距離ホワイトアウト」はどうですか?
「距離ホワイトアウト」を調べる簡単な方法は、2-NNを実行し、最も近い隣人と2番目に近い隣人までの距離をプロットすることです。以下のプロット は、モンテカルロによるnclustersと次元の範囲のdist 1とdist 2を示しています。この例は、スケーリングされた絶対差| dist 2 -dist 1 | に対してかなり良い距離コントラストを示しています。(相対差| dist 2 / dist 1 |→1次元→∞なので、役に立たなくなります。)
特定のコンテキストで絶対誤差を使用するか相対誤差を使用するかは、もちろん、存在する「実際の」ノイズに依存します。難しいです。
提案:常に2-NNを実行します。2つのネイバーは、近くにあるときに便利で、近くにないときに便利です。