回答:
高次元データの距離に関するいくつかの古典的な観察:
これに関するいくつかのより最近の研究は、共有された最も近い隣人とハブネスを含みます:
次元の呪いについてのよくある誤解を指摘しているので、これらは興味深いものです。本質的に、データがiidであると仮定した理論上の結果は、複数の分布を持つデータには一般的に当てはまらない可能性があることを示しています。呪いは数値的な問題を引き起こし、単一の分布内での差別の喪失につながりますが、十分に分離された2つの分布を区別することをさらに簡単にすることができます。
これのいくつかはかなり明白でなければなりません。あるオブジェクトがあるとします 各次元のiidとオブジェクトの別のセット 各次元のiid。二つの異なるセットからのオブジェクト間の違いは、常になります大きさの単一のセット内の距離よりも大きく、かつ問題がさえなります増加次元で簡単に。
「このデータは高次元であり、次元の呪いのために分析できない」と主張することで、物事が少し簡単になりすぎている可能性があることを示しているため、Houleらによるこの作品を読むことをお勧めします。それでも、あちこちで使われているラインです。「私たちのアルゴリズムは、次元の呪いのため、低次元のデータに対してのみ機能します。」「私たちのインデックスは、次元の呪いのため、最大10次元までしか機能しません。」ヤッダヤッダヤッダ これらのステートメントの多くは、そのような作成者がデータとアルゴリズムの高次元で何が起こるかを理解していないことを明らかに示しているだけです(または言い訳が必要です)。Houle et al。パズルを完全に解決するわけではありませんが(まだですか?これはかなり最近のことです)、少なくとも人気のあるステートメントの多くを再考します。
結局のところ、高次元がこれほど大きな問題である場合、テキストマイニングでは、1万から100000のオーダーの次元を喜んで使用しているのに、他のドメインでは10次元しかあきらめないのはなぜですか。
質問の2番目の部分については、コサインの類似性は次元の影響を受けにくいようです。それとは別に、さまざまな分布を区別し、数値の精度を制御し、手動で選択したしきい値に依存しない限り(多くの有効桁を指定する必要がある場合があるため)、クラシック-ノルムはまだ大丈夫です。
ただし、次に説明するように、Cosineも次元の呪いの影響を受けます。