回答:
差別問題における次元の影響を示す簡単なおもちゃの例です。例えば、何かが観察された場合やランダム効果のみが観察された場合に直面する問題(この問題は科学の古典です)。
ヒューリスティック。 ここでの重要な問題は、ユークリッドノルムがどの方向にも同じ重要性を与えることです。これは事前の欠如を構成し、高次元では確かに無料の昼食がないことを知っています(つまり、探しているものについて事前に考えていない場合、ノイズがあなたのように見えない理由はありません)検索、これはトートロジーです...)。
どんな問題でも、ノイズ以外の何かを見つけるために必要な情報の限界があると言えます。この制限は、「ノイズ」レベル(つまり、情報量の少ないコンテンツのレベル)に関して調査しようとしている領域の「サイズ」に何らかの形で関係しています。
高次元では、信号がスパースであるという事前条件がある場合、スパースベクトルで空間を埋めるメトリックを使用して、またはしきい値手法を使用して、非スパースベクトルを削除(ペナルティ)できます。
フレームワークと仮定平均でガウスベクトルである対角共分散(知られている)、あなたは、単純な仮説をテストしたいことν σ I D σ
θ ∈ R N θ
エネルギーを含む検定統計量。あなたが確かに持っている直観は、あなたの観察のノルム/エネルギーを評価することは良い考えであるということです検定統計を作成します。実際に、エネルギーの標準化された中心(下)バージョンを構築できます。これにより、適切に選択されたに対して、レベルにの形式のクリティカル領域が作成されます ξH0TNT、N=Σiは、ξ 2 、I -σ2 α{TN≥V1-α}V1-α
テストと次元の力。この場合、テストの能力について次の公式を示すのは簡単な確率の練習です。
との合計とIIDランダム変数及び。
これは、テストの出力が信号のエネルギー増加し、減少することをます。実用的に言えば、問題のサイズを大きくしても、信号の強度が同時に増加しない場合、観測に有益でない情報を追加することになります(または、情報内の有用な情報の割合を減らすことになります)あなたが持っている):これはノイズを追加するようなもので、テストのパワーを減らします(つまり、実際に何かがある間は何も観察されないと言う可能性が高くなります)。
しきい値統計を使用したテストに向けて。信号にあまりエネルギーがないが、このエネルギーを信号の小さな部分に集中させるのに役立つ線形変換を知っている場合は、小さなエネルギーのみを評価する検定統計量を構築できます信号の一部。あなたが事前に分かっている場合、それが(例えば、あなたが知られている自分の信号における高い周波数があることはできませんが)、あなたが持つ前のテストで電力を得ることができ、濃縮されたの小さな数に置き換えるとほとんど同じ...事前にそれを知らない場合、それを推定する必要があり、これはよく知られているしきい値テストにつながります。
この引数は次のような多くの論文の根源にあることに注意してください。
スパース性ではなく、通常、スパースデータに関連する高次元性だと思います。ただし、データが非常にまばらな場合はさらに悪化する可能性があります。そのため、2つのオブジェクトの距離は、その長さの2次平均、またはなる可能性が高いためです。
場合、この方程式は自明です。ほぼすべての属性を保持できるように次元とスパースネスを十分に大きくすると、その差は最小限になります。
さらに悪いことに、ベクトルを長さに正規化した場合、任意の2つのオブジェクトのユークリッド距離はになる可能性が高くなります。
経験則として、ユークリッド距離を使用可能にするために(有用または意味があると主張しているわけではありません)、オブジェクトは属性ので非ゼロでなければなりません。それから、である合理的な数の属性があるはずですそのため、ベクトルの違いが役立ちます。これは、他の規範による違いにも適用されます。上記の状況では
これは、距離関数が実際の差、または絶対差が絶対和に収束することから大きく独立するための望ましい動作ではないと思います!
一般的な解決策は、コサイン距離などの距離を使用することです。一部のデータでは、非常にうまく機能します。大まかに言えば、両方のベクトルがゼロ以外の属性のみを調べます。興味深いアプローチは、以下の参考文献で説明されています(彼らは発明しませんでしたが、プロパティの実験的評価が好きです)は、共有された最近傍を使用することです。したがって、ベクトルxとyに共通の属性がない場合でも、いくつかの共通の近傍がある可能性があります。2つのオブジェクトを接続するオブジェクトの数をカウントすることは、グラフの距離と密接に関連しています。
距離関数に関する多くの議論があります:
科学記事を好まない場合は、Wikipedia: Curse of Dimensionality
私が始まることをお勧めしたい
のコサイン距離、ほぼ直交最もベクターを用いた任意のデータ、ユークリッドない、
0を
見て、なぜ見るには
。
場合 0を、これは軽減へ
:Anony-ムースなど距離の安っぽく尺度は、指摘しています。
余弦距離はを使用することになります 、または単位球の表面にデータを投影するため、すべて=1。次に、
は、通常のユークリッドとはかなり異なり、通常はより良いメトリックです。
は小さいかもしれませんが、ノイズの多いによってマスクされません。
スパースデータの場合、はほとんど0に近くなります。たとえば、とそれぞれ100項の非ゼロと900のゼロがある場合、両方とも約10項のみで非ゼロになります(非ゼロの項がランダムに散在する場合)。
/ =正規化 スパースデータの場合は遅くなる可能性があります。scikit-learnでは高速 です。
要約:余弦距離から始めますが、古いデータに驚異を期待しないでください。
メトリックを成功させるには、評価、チューニング、ドメインの知識が必要です。
次元の呪いの一部は、データが中心から広がり始めることです。これは、多変量法線、およびコンポーネントがIID(球面法線)の場合でも当てはまります。ただし、データに相関構造がある場合、低次元空間でもユークリッド距離について厳密に説明したい場合、ユークリッド距離は適切なメトリックではありません。データがいくつかの非ゼロ共分散を持つ多変量正規であると仮定し、引数のために共分散行列が既知であると仮定します。この場合、マハラノビス距離は適切な距離尺度であり、共分散行列が単位行列に比例する場合にのみ減少するユークリッド距離とは異なります。
スパース性の公理的尺度は、いわゆるカウントです。これは、ベクトル内の非ゼロエントリの(有限)数をカウントします。この測定では、ベクトルとは同じスパース性を持ちます。そして、絶対に同じ規範ではありません。また、(非常にまばら)には、と同じノルムがあります 、非常にフラットな非スパースベクトル。そして、絶対に同じカウントではありません。
この関数は、ノルムでも準ノルムでもなく、滑らかではなく、凸でもありません。ドメインに応じて、その名前は、たとえば、カーディナリティー関数、数的尺度、または単に節約またはスパース性です。使用するとNPの困難な問題が発生するため、実際の目的ではしばしば非実用的と見なされます。
(などの標準的な距離や規範ながらユークリッド距離)は、より扱いやすいです、彼らの問題の一つは、彼らのある -homogeneity:以下のため。スカラー積はデータ内のヌルエントリの割合を変更しないため、これは直感的ではないとができます(は均質)。
そのため、実際には、なげなわ、リッジ、またはエラスティックネット正則化など、用語の組み合わせ()にれます。規範(マンハッタンまたはタクシー距離)、またはその平滑化アバターは、特に便利です。E.Candèsなどによる作品なので、なぜが:A Geometric Explanationに良い近似であるのかを説明できます。他の人は、非凸性の問題をしてでを作り ました。
別の興味深いパスは、スパースの概念を再公理化することです。最近の注目すべき作品の1つは、N。Hurley等による分布のスパース性を扱うスパース性の測定の比較です。6つの公理(ロビンフッド、スケーリング、ライジングタイド、クローニング、ビルゲイツ、ベイビーなどの面白い名前)から、いくつかのスパースインデックスが出現しました。1つはGiniインデックスに基づいており、もう1つはノルム比に基づいています。以下に示す2つのノルム比:
凸面ではありませんが、収束のいくつかの証明といくつかの歴史的参照は、タクシーのユークリッド:スムース正則化によるスパースブラインドデコンボリューションで詳しく説明されています。
高次元空間での距離メトリックの驚くべき動作に関する論文では、高次元空間での距離メトリックの動作について説明しています。
彼らはノルムを、マンハッタンノルムをクラスタリング目的の高次元空間で最も効果的であると提案します。また、これらはノルムに似ていますが、もつ分数ノルム導入します。
つまり、ユークリッドノルムをデフォルトとして使用する高次元空間では、おそらく良いアイデアではないことを示しています。通常、そのような空間ではほとんど直感がなく、次元数による指数関数的な爆発はユークリッド距離を考慮するのが困難です。