ユークリッド距離は通常、スパースデータには適していませんか？

72

多次元データとスパースデータがある場合、古典的な距離（ユークリッド距離など）が弱判別性になることをどこかで見ました。どうして？ユークリッド距離がうまく機能しない2つのスパースデータベクトルの例はありますか？この場合、どの類似性を使用する必要がありますか？

— shn
ソース

1

この記事も参考になります。この記事では、著者は高次元データのコサイン類似性の問題を説明し、この問題を軽減するための新しい類似性測定を提案します。journalofbigdata.springeropen.com/articles/10.1186/...

— サハル

33

差別問題における次元の影響を示す簡単なおもちゃの例です。例えば、何かが観察された場合やランダム効果のみが観察された場合に直面する問題（この問題は科学の古典です）。

ヒューリスティック。 ここでの重要な問題は、ユークリッドノルムがどの方向にも同じ重要性を与えることです。これは事前の欠如を構成し、高次元では確かに無料の昼食がないことを知っています（つまり、探しているものについて事前に考えていない場合、ノイズがあなたのように見えない理由はありません）検索、これはトートロジーです...）。

どんな問題でも、ノイズ以外の何かを見つけるために必要な情報の限界があると言えます。この制限は、「ノイズ」レベル（つまり、情報量の少ないコンテンツのレベル）に関して調査しようとしている領域の「サイズ」に何らかの形で関係しています。

高次元では、信号がスパースであるという事前条件がある場合、スパースベクトルで空間を埋めるメトリックを使用して、またはしきい値手法を使用して、非スパースベクトルを削除（ペナルティ）できます。

フレームワークと仮定平均でガウスベクトルである対角共分散（知られている）、あなたは、単純な仮説をテストしたいこと $\xi$ $\nu$ $\sigma Id$ $\sigma$

H_{0} : ν = 0, V s H_{θ} : ν = θ

$H_0: \;\nu=0,\; Vs \; H_{\theta}: \; \nu=\theta$ （指定された）は必ずしも事前にわかっているとは限りません。

θ \in R^{n}

$\theta\in \mathbb{R}^n$

θ

$\theta$

エネルギーを含む検定統計量。あなたが確かに持っている直観は、あなたの観察のノルム/エネルギーを評価することは良い考えであるということです検定統計を作成します。実際に、エネルギーの標準化された中心（下）バージョンを構築できます。これにより、適切に選択されたに対して、レベルにの形式のクリティカル領域が作成されます $\mathcal{E}_n=\frac{1}{n}\sum_{i=1}^n\xi_i^2$ $\xi$ $H_0$ $T_n$ $T_n=\frac{\sum_i\xi_i^2-\sigma^2}{\sqrt{2n\sigma^4}}$ $\alpha$ $\{T_n\geq v_{1-\alpha}\}$ $v_{1-\alpha}$

テストと次元の力。この場合、テストの能力について次の公式を示すのは簡単な確率の練習です。

$P_{θ} (T \leq v_{1 - α}) = P (Z \leq \frac{v_{1 - α}}{\sqrt{1 + 2 ‖ θ ‖_{2}^{2} / (n σ^{2})}} - \frac{‖ θ ‖_{2}^{2}}{\sqrt{2 n σ^{4} + 2 σ^{2} ‖ θ ‖_{2}^{2} / (n σ^{2})}})$ $P_{\theta}(T\leq v_{1-\alpha})=P\left (Z\leq \frac{v_{1-\alpha}}{\sqrt{1+2\|\theta\|_2^2/(n\sigma^2)}}-\frac{\|\theta\|^2_2}{\sqrt{2n\sigma^4+2\sigma^2\|\theta\|_2^2/(n\sigma^2)}}\right )$ との合計とIIDランダム変数及び。 $Z$ $n$ $\mathbb{E}[Z]=0$ $Var(Z)=1$

これは、テストの出力が信号のエネルギー増加し、減少することをます。実用的に言えば、問題のサイズを大きくしても、信号の強度が同時に増加しない場合、観測に有益でない情報を追加することになります（または、情報内の有用な情報の割合を減らすことになります）あなたが持っている）：これはノイズを追加するようなもので、テストのパワーを減らします（つまり、実際に何かがある間は何も観察されないと言う可能性が高くなります）。 $\|\theta\|^2_2$ $n$ $n$

しきい値統計を使用したテストに向けて。信号にあまりエネルギーがないが、このエネルギーを信号の小さな部分に集中させるのに役立つ線形変換を知っている場合は、小さなエネルギーのみを評価する検定統計量を構築できます信号の一部。あなたが事前に分かっている場合、それが（例えば、あなたが知られている自分の信号における高い周波数があることはできませんが）、あなたが持つ前のテストで電力を得ることができ、濃縮されたの小さな数に置き換えるとほとんど同じ...事前にそれを知らない場合、それを推定する必要があり、これはよく知られているしきい値テストにつながります。 $n$ $\|\theta\|^2_2$

この引数は次のような多くの論文の根源にあることに注意してください。

Aアントニアディス、Fアブラモビッチ、Tサパティナス、Bビダコビッチ。分散モデルの機能分析でテストするためのウェーブレット手法。ウェーブレットとその応用に関する国際ジャーナル、93：1007-1021、2004。
MVバーナシェフとベグマトフ。安定した分布につながる信号検出の問題について。確率論とその応用、35（3）：556–560、1990
Y.バロー。信号検出のテストの非漸近的ミニマックスレート。ベルヌーイ、8：577–606、2002。
Jファン。ウェーブレットしきい値処理とネイマン切り捨てに基づく有意性のテスト。JASA、91：674–688、1996。
J.ファンとSKリン。データが曲線である場合の有意性の検定。JASA、93：1007-1021、1998。
V.スポコニー。ウェーブレットを使用した適応仮説検定。統計学、24（6）：2477–2498、1996年12月。

— ロビン・ジラード
ソース

51

スパース性ではなく、通常、スパースデータに関連する高次元性だと思います。ただし、データが非常にまばらな場合はさらに悪化する可能性があります。そのため、2つのオブジェクトの距離は、その長さの2次平均、またはなる可能性が高いためです。

lim_{d i m \to \infty} d (x, y) = | | x - y | | \to_{p} \sqrt{| | x | |^{2} + | | y | |^{2}}

$\lim_{dim\rightarrow\infty}d(x,y) = ||x-y|| \rightarrow_p \sqrt{||x||^2 + ||y||^2}$

場合、この方程式は自明です。ほぼすべての属性を保持できるように次元とスパースネスを十分に大きくすると、その差は最小限になります。 $\forall_i x_i=0 \vee y_i=0$

さらに悪いことに、ベクトルを長さに正規化した場合、任意の2つのオブジェクトのユークリッド距離はになる可能性が高くなります。 $||x||=1$ $\sqrt{2}$

経験則として、ユークリッド距離を使用可能にするために（有用または意味があると主張しているわけではありません）、オブジェクトは属性ので非ゼロでなければなりません。それから、である合理的な数の属性があるはずですそのため、ベクトルの違いが役立ちます。これは、他の規範による違いにも適用されます。上記の状況では $3/4$ $|y_i| \neq |x_i-y_i| \neq |x_i|$ $|x-y| \rightarrow_p |x + y|$

これは、距離関数が実際の差、または絶対差が絶対和に収束することから大きく独立するための望ましい動作ではないと思います！

一般的な解決策は、コサイン距離などの距離を使用することです。一部のデータでは、非常にうまく機能します。大まかに言えば、両方のベクトルがゼロ以外の属性のみを調べます。興味深いアプローチは、以下の参考文献で説明されています（彼らは発明しませんでしたが、プロパティの実験的評価が好きです）は、共有された最近傍を使用することです。したがって、ベクトルxとyに共通の属性がない場合でも、いくつかの共通の近傍がある可能性があります。2つのオブジェクトを接続するオブジェクトの数をカウントすることは、グラフの距離と密接に関連しています。

距離関数に関する多くの議論があります：

共有隣接距離は次元の呪いを打ち負かすことができますか？
MEホール、H.-P。Kriegel、
P。Kröger、E。Schubert 、A。Zimek SSDBM 2010

科学記事を好まない場合は、Wikipedia： Curse of Dimensionality

— アノニムース
ソース

2

興味深い紙。この類似性測定に関連付けられたクラスタリングアルゴリズムもあります。共有された最近傍は何らかの形で有効なMercerカーネルで表現できますか？

— ゼーダ

覚えていれば、それらは空間のユークリッドに対応しています。その後、はい、彼らは素晴らしいカーネルをもたらします。

R^{n}

$R^{n}$

— アノニムース

44

私が始まることをお勧めしたいのコサイン距離、ほぼ直交最もベクターを用いた任意のデータ、ユークリッドない、 0を見て、なぜ見るには。場合 0を、これは軽減へ：Anony-ムースなど距離の安っぽく尺度は、指摘しています。 $x \cdot y \approx$
$|x - y|^2 = |x|^2 + |y|^2 - 2\ x \cdot y$
$x \cdot y \approx$ $|x|^2 + |y|^2$

余弦距離はを使用することになります、または単位球の表面にデータを投影するため、すべて=1。次に、は、通常のユークリッドとはかなり異なり、通常はより良いメトリックです。は小さいかもしれませんが、ノイズの多いによってマスクされません。 $x / |x|$ $|x|$ $|x - y|^2 = 2 - 2\ x \cdot y$
$x \cdot y$ $|x|^2 + |y|^2$

$x \cdot y$ スパースデータの場合、はほとんど0に近くなります。たとえば、とそれぞれ100項の非ゼロと900のゼロがある場合、両方とも約10項のみで非ゼロになります（非ゼロの項がランダムに散在する場合）。 $x$ $y$

/ =正規化スパースデータの場合は遅くなる可能性があります。scikit-learnでは高速です。 $x$ $|x|$

要約：余弦距離から始めますが、古いデータに驚異を期待しないでください。
メトリックを成功させるには、評価、チューニング、ドメインの知識が必要です。

— デニス
ソース

1

+1これにより、他の回答に思慮深く有用な分析が追加されます。

— whuber

1

のランダムに配置されたポイントの平均角度はが大きいは常に90°に近くなります（こちらのプロットを参照）

[- 1, 1]^{n}

$[-1, 1]^n$

n

$n$

— Martin Thoma

10

次元の呪いの一部は、データが中心から広がり始めることです。これは、多変量法線、およびコンポーネントがIID（球面法線）の場合でも当てはまります。ただし、データに相関構造がある場合、低次元空間でもユークリッド距離について厳密に説明したい場合、ユークリッド距離は適切なメトリックではありません。データがいくつかの非ゼロ共分散を持つ多変量正規であると仮定し、引数のために共分散行列が既知であると仮定します。この場合、マハラノビス距離は適切な距離尺度であり、共分散行列が単位行列に比例する場合にのみ減少するユークリッド距離とは異なります。

— マイケル・チャーニック
ソース

1

データが相関している場合、ユークリッド距離の代わりにマハラノビス距離を提案してくれてありがとう。ユークリッド距離が相関データとマハラノビス距離を処理しない理由について詳しく説明していただけますか？

— ジャブルズ

5

私はこれが次元の呪い/測定の集中に関連していると信じていますが、この発言を動機づける議論を見つけることはできません。メタ最適化のスレッドがあったと思いますが、Googleに失敗しました...

テキストデータの場合、TF-IDFを使用してベクトルを正規化してからコサイン類似度を適用すると、長いドキュメント（多くの単語を含む）が同じトピックを共有できるため、ユークリッド距離よりも良い結果が得られるため、多数の共通ドキュメントを共有する短いドキュメント言葉。この特定のケースでは、ベクトルのノルムを破棄することが役立ちます。

— オグリセル
ソース

4

スパース性の公理的尺度は、いわゆるカウントです。これは、ベクトル内の非ゼロエントリの（有限）数をカウントします。この測定では、ベクトルとは同じスパース性を持ちます。そして、絶対に同じ規範ではありません。また、（非常にまばら）には、と同じノルムがあります、非常にフラットな非スパースベクトル。そして、絶対に同じカウントではありません。 $\ell_0$ $(1,0,0,0)$ $(0,21,0,0)$ $\ell_2$ $(1,0,0,0)$ $\ell_2$ $\left(\frac{1}{4},\frac{1}{4},\frac{1}{4},\frac{1}{4}\right)$ $\ell_0$

この関数は、ノルムでも準ノルムでもなく、滑らかではなく、凸でもありません。ドメインに応じて、その名前は、たとえば、カーディナリティー関数、数的尺度、または単に節約またはスパース性です。使用するとNPの困難な問題が発生するため、実際の目的ではしばしば非実用的と見なされます。

（などの標準的な距離や規範ながらユークリッド距離）は、より扱いやすいです、彼らの問題の一つは、彼らのある -homogeneity：以下のため。スカラー積はデータ内のヌルエントリの割合を変更しないため、これは直感的ではないとができます（は均質）。 $\ell_2$ $1$

‖ a . x ‖ = | a | ‖ x ‖

$\| a.x\| = |a|\| x\|$

a \neq 0

$a\neq 0$

ℓ_{0}

$\ell_0$

0

$0$

そのため、実際には、なげなわ、リッジ、またはエラスティックネット正則化など、用語の組み合わせ（）にれます。規範（マンハッタンまたはタクシー距離）、またはその平滑化アバターは、特に便利です。E.Candèsなどによる作品なので、なぜが：A Geometric Explanationに良い近似であるのかを説明できます。他の人は、非凸性の問題をしてでを作りました。 $\ell_p(x)$ $p \ge1$ $\ell_1$ $\ell_1$ $\ell_0$ $p < 1$ $\ell_p(x)$

別の興味深いパスは、スパースの概念を再公理化することです。最近の注目すべき作品の1つは、N。Hurley等による分布のスパース性を扱うスパース性の測定の比較です。6つの公理（ロビンフッド、スケーリング、ライジングタイド、クローニング、ビルゲイツ、ベイビーなどの面白い名前）から、いくつかのスパースインデックスが出現しました。1つはGiniインデックスに基づいており、もう1つはノルム比に基づいています。以下に示す2つのノルム比： $\frac{\ell_1}{\ell_2}$

凸面ではありませんが、収束のいくつかの証明といくつかの歴史的参照は、タクシーのユークリッド：スムース正則化によるスパースブラインドデコンボリューションで $\frac{\ell _1}{\ell_2}$ 詳しく説明されています。

— ローラン・デュバル
ソース

4

高次元空間での距離メトリックの驚くべき動作に関する論文では、高次元空間での距離メトリックの動作について説明しています。

彼らはノルムを、マンハッタンノルムをクラスタリング目的の高次元空間で最も効果的であると提案します。また、これらはノルムに似ていますが、もつ分数ノルム導入します。 $L_k$ $L_1$ $L_f$ $L_k$ $f \in (0..1)$

つまり、ユークリッドノルムをデフォルトとして使用する高次元空間では、おそらく良いアイデアではないことを示しています。通常、そのような空間ではほとんど直感がなく、次元数による指数関数的な爆発はユークリッド距離を考慮するのが困難です。

— facuq
ソース

1

良い。の、ノルムではなく準ノルムです。

L_{f}

$L_f$

0 < f < 1

$0<f<1$

— ローランデュバル