距離計量と次元の呪い


8

あなたが多くのパラメータを持っているなら (x1,x2,,xn)そして、これらのベクトル間の「類似性メトリック」を見つけようとすると、「次元の呪い」があるかもしれません。これは、ほとんどの類似性スコアが等しくなり、有用な情報を提供しないことを意味すると思います。言い換えると、ほとんどすべてのパートナーベクトルには中程度の距離スコアがあり、分類やクラスタリングなどには役立ちません。

それについて私がどこでより詳細に学ぶことができるか知っていますか?

この影響を受けにくい指標はありますか?

回答:


11

高次元データの距離に関するいくつかの古典的な観察:

  • K.ベイヤー、J。ゴールドスタイン、R。ラマクリシュナン、およびU.シャフト、ICDT 1999:「いつ最も近い隣人が意味を持つのか?」
  • CC Aggarwal、A。Hinneburg、およびDA Keim、ICDT 2001: "高次元空間における距離メトリックの驚くべき動作について"

これに関するいくつかのより最近の研究は、共有された最も近い隣人とハブネスを含みます:

  • ME Houle、H.-P。SSDBM 2010、クリーゲル、P。クレガー、E。シューベルト、A。ジメック:「共有隣接距離は次元の呪いを打ち負かすことができるか?」
  • T.ベルネッカー、ME Houle、H.-P。Kriegel、P。Kröger、M。Renz、E。SchubertおよびA. Zimek、SSTD 2011:「時系列における類似性ランキングの品質」
  • N.Tomašev、M。Radovanović、D。Mladenić、およびM.Ivanović。前売 KDDM 2011:「高次元データのクラスタリングにおけるハブネスの役割」
  • 他の人を覚えていないで、「Hubness」を検索します。それが彼らの高次元の観察でした

次元の呪いについてのよくある誤解を指摘しているので、これらは興味深いものです。本質的に、データがiidであると仮定した理論上の結果は、複数の分布を持つデータには一般的に当てはまらない可能性があることを示しています。呪いは数値的な問題を引き起こし、単一の分布での差別の喪失につながりますが、十分に分離された2つの分布を区別することをさらに簡単にすることができます。

これのいくつかはかなり明白でなければなりません。あるオブジェクトがあるとしますAiN(0;1) 各次元のiidとオブジェクトの別のセット BiN(100;1)各次元のiid。二つの異なるセットからのオブジェクト間の違いは、常になります大きさの単一のセット内の距離よりも大きく、かつ問題がさえなります増加次元で簡単に

「このデータは高次元であり、次元の呪いのために分析できない」と主張することで、物事が少し簡単になりすぎている可能性があることを示しているため、Houleらによるこの作品を読むことをお勧めします。それでも、あちこちで使われているラインです。「私たちのアルゴリズムは、次元の呪いのため、低次元のデータに対してのみ機能します。」「私たちのインデックスは、次元の呪いのため、最大10次元までしか機能しません。」ヤッダヤッダヤッダ これらのステートメントの多くは、そのような作成者がデータとアルゴリズムの高次元で何が起こるかを理解していないことを明らかに示しているだけです(または言い訳が必要です)。Houle et al。パズルを完全に解決するわけではありませんが(まだですか?これはかなり最近のことです)、少なくとも人気のあるステートメントの多くを再考します。

結局のところ、高次元がこれほど大きな問題である場合、テキストマイニングでは、1万から100000のオーダーの次元を喜んで使用しているのに、他のドメインでは10次元しかあきらめないのはなぜですか。

質問の2番目の部分については、コサインの類似性は次元の影響を受けにくいようです。それとは別に、さまざまな分布を区別し、数値の精度を制御し、手動で選択したしきい値に依存しない限り(多くの有効桁を指定する必要がある場合があるため)、クラシックLp-ノルムはまだ大丈夫です。

ただし、次に説明するように、Cosineも次元の呪いの影響を受けます。

  • M.Radovanović、A。Nanopoulos、およびM.Ivanović、SIGIR2010。「ベクトル空間モデルにおける頑健な結果の存在について」

10
  • Aggarwal CC、Hinneburg A.、Keim、DA(2001)、「高次元空間における距離メトリックの驚くべき動作について」
  • Beyer K.、Goldstein J.、Ramakrishnan R.、Shaft U.(1999)、 "When is Nearest Neighbors Meaningfull?"、ICDE Con​​ference Procedings。

面白そうですね:)これらのコピーを入手できるといいのですが。通常のメトリックでこの問題の解決策が存在するかどうかを知っていますか?
ジェレヌク

(+1)これは非常に興味深いようです。
Elvis

@Gerenuk:「通常の」メトリックとはどういう意味ですか?また、どちらの論文も利用できます。オンライン、ゲートなし、PDF形式
user603 2012年

ありがとう。タイトル名で見つけたと思います。普通の測定基準で(私は思う)私は意味しますLk規範。だから問題は、より良い仕事をするいくつかの単純な類似性ファインダーがあるかどうかですLk規範。
ジェレヌク

1
フラクショナルL_pノルムは問題を隠すだけです。その結果は、属性の最小差のようなものに向かう傾向があると思います。これは、次元の数が多い場合、実際には無意味になります。それは数がますます大きくなる問題を解決するだけです。次元削減はいくつかのケースで機能しますが、それ以上先に進めない場合を考慮してください。それで?さらに、次元削減は本質的に「誰にとっても640k次元で十分であるべき」です。通常、テキストは10 ^ 5の範囲です。ビデオはどうですか?
QUITあり-Anony-Mousse 2012年

2

また:

  • Robert J. Durrant、AtaKabán:「最も近い隣人」が意味を持つのはいつか:逆定理と含意。J. Complexity 25(4):385-397(2009)

  • AtaKabán:特定のデータ削減手法の距離集中意識について。パターン認識44(2):265-277(2011)

  • AtaKabán:高次元データにおける無意味な距離のノンパラメトリック検出。Statistics and Computing 22(2):375-385(2012)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.