「ユークリッド距離は、高次元では良い距離ではない」と読みました。この声明は次元の呪いと関係があると思いますが、正確には何ですか?また、「高次元」とは何ですか?100個の特徴を持つユークリッド距離を使用して階層的クラスタリングを適用しています。このメトリックを使用しても「安全」な機能はいくつまでありますか?
「ユークリッド距離は、高次元では良い距離ではない」と読みました。この声明は次元の呪いと関係があると思いますが、正確には何ですか?また、「高次元」とは何ですか?100個の特徴を持つユークリッド距離を使用して階層的クラスタリングを適用しています。このメトリックを使用しても「安全」な機能はいくつまでありますか?
回答:
高次元での非直感的な結果の素晴らしい要約は、ワシントン大学のペドロ・ドミンゴスによる「機械学習について知っておくべきいくつかの有用なもの」から来ています。
[O] 3次元の世界に由来する直感は、高次元の世界には適用されないことがよくあります。高次元では、多変量ガウス分布の質量の大部分は平均に近くありませんが、その周囲のますます「シェル」にあります。高次元のオレンジの大部分は果肉ではなく皮膚にあります。高次元のハイパーキューブに一定数のサンプルが均一に分布している場合、いくつかの次元を超えると、ほとんどのサンプルは最も近いものよりもハイパーキューブの面に近くなります。そして、超立方体に内接することによって超球体を近似すると、高次元では、超立方体のほとんどすべての体積が超球体の外側にあります。これは機械学習にとって悪いニュースです。あるタイプの形状は、多くの場合、別のタイプの形状で近似されます。
この記事には、機械学習のための多くの知恵の真珠もたくさんあります。
機械学習以外のアプリケーションとして、最近傍検索があります。関心のある観測値が与えられると、その最近傍を検索します(これらはクエリポイントからの距離が最小であるという意味で)。しかし、高次元では、奇妙な現象が発生します。最も近いポイントと最も遠いポイントの比率は1に近づきます。つまり、ポイントは本質的に互いに均一に離れます。この現象は、さまざまな距離メトリックで観察できますが、ユークリッドメトリックでは、たとえばマンハッタン距離メトリックよりも顕著です。最近傍検索の前提は、「近い」ポイントは「遠い」ポイントよりも関連性が高いことですが、すべてのポイントが本質的に互いに均一に離れている場合、区別は意味がありません。
Charu C. Aggarwal、Alexander Hinneburg、Daniel A. Keim、「高次元空間における距離計量の驚くべき挙動について」より:
[ケビン・バイエル、ジョナサン・ゴールドスタイン、ラグー・ラマクリシュナン、ウリ・シャフト、「「最も近い隣人」が意味を持つのはいつか?」]では、データ分布に関する特定の合理的な仮定の下で、最も近い隣人と最も遠い隣人の距離の比さまざまなデータ分布と距離関数の場合、高次元空間の特定のターゲットへのほぼ1になります。このような場合、異なるデータポイントまでの距離のコントラストが存在しないため、最近傍の問題は不明確になります。このような場合、近接の概念でさえ定性的な観点からは意味がない場合があります。これは、高次元アルゴリズムのパフォーマンス低下よりもさらに根本的な問題です。
...多くの高次元インデックス構造およびアルゴリズムは、2次元または3次元空間アプリケーションでの従来の使用法の自然な拡張として[E]ユークリッド距離メトリックを使用します。...このペーパーでは、kの値に対するノルムの依存性を分析する際に、驚くべき理論的および実験的結果を提供します。より具体的には、クエリポイントまでの距離の相対コントラストが、使用されるL kメトリックに大きく依存することを示します。これは、kの値が大きいほど次元数が増加するにつれて、L kノルムの有意性がより速く悪化するというかなりの証拠を提供します。。したがって、次元固定(高い)値を持つ特定の問題では、kの低い値を使用することが望ましい場合があります。これは、L 1距離メトリック(マンハッタン距離メトリック)が高次元のアプリケーションに最も適していることを意味し、続いてユークリッドメトリック(L 2)があります。...
「驚くべき行動」論文の著者は、k < 1のノルムを使用することを提案しています。それらは、これらの「分数基準」が最も遠い点と最も近い点の間のコントラストを増加させる特性を示すことを示すいくつかの結果を生み出します。これはいくつかの状況では有用かもしれませんが、警告があります。これらの「分数基準」は三角形の不等式に違反するため、適切な距離メトリックではありません。三角形の不等式が研究で重要な品質である場合、分数メトリックスは非常に有用ではありません。
ユークリッド距離の概念は、ユークリッドによって研究された2次元および3次元の世界でうまく機能しますが、2次元および3次元からの外挿でもある私たちの(おそらく私の)幾何学的直観に反する高次元の特性があります次元。
(± 2 、± 2 )に頂点がある正方形を考えます。(± 1 、± 1 )を中心とする4つの単位半径の円を描きます。これらは正方形を「塗りつぶし」、各円は2点で正方形の側面に接触し、各円はその2つの隣接点に接触します。例えば、を中心とする円 (1 、1 )で、正方形の辺に接触(2 、1 )及び(1 、2 )で、その隣接円及び(0 、1 )。次に、4つすべての円に接する原点を中心とした小さな円を描きます。端点が2つの接触円の中心である線分が接触点を通過するため、小さな円の半径がr 2 = √であることを簡単に確認できます。 およびそれが接触することは(±r2/ √で4つの大きな円に接触します。小さな円は4つの大きな円に「完全に囲まれている」ことに注意してください。したがって、正方形の内部にも完全に収まります。ポイントことにも留意されたい(R2、0)小円上にあります。また、その原点からの通知、一つの点を「見る」ことができない(2、0、0)視線がosculationの点を通過するため、正方形のエッジ(1、0、0)を中心と二つの円ので(1、1)と(1、。軸が正方形のエッジを通過する他のポイントへの視線についても同じです。
次に、頂点が(± 2 、± 2 、± 2 )の立方体を 考えます。(± 1 、± 1 、± 1 )を中心とする8個の接触単位半径球体を充填し、原点を中心とするより小さな接触球体を配置します。小さな球の半径はr 3 = √であることに注意してください。 と点(R3、0、0)小球体の表面上にあります。しかし、また、その三次元における通知は、一つができる点を「見る」 (2、0、0)の原点から、2次元で起こるような、ビューをブロックする大きな大きな球はありません。原点から立方体の表面を通る軸までのこれらの明確な視線は、すべてのより大きな次元でも発生します。
一般化して、サイド4の次元の超立方体を 考慮し、(± 1 、± 1 、… 、± 1 )を中心とする2 n個の接触単位半径超球で埋め、次に半径rの「より小さい」接触球を置くことができます n = √原点で n −1。ポイント(Rnは、0、0、...、0) 、この"小さい"球体上にあります。しかし、からの通知(1)すなわち、N=4、RN=1及びので、「小さい」の球部半径を有し、したがって、実際には、「より小さい」のsoubriquetに値しないN≥4
OPの質問に対する私の答えは、「さらに、「高次元」とは何ですか?」されている。
それはS / Nの問題です。2乗項によるユークリッド距離は、ノイズに特に敏感です。しかし、マンハッタン距離と「分数」(非メトリック)距離でも問題があります。
この記事の研究は非常に啓発的なものでした。
Zimek、A.、Schubert、E。およびKriegel、H.-P。(2012)、
高次元数値データにおける教師なし異常値検出に関する調査。
統計分析データマイニング、5:363–387。土井:10.1002 / sam.11161
@Patが言及したAggarwal、Hinneburg、およびKeimによる、例えば、高次元空間における距離メトリックの驚くべき挙動について行われた観察を再訪します。しかし、合成実験がどのように誤解を招くか、そして実際に高次元データがより簡単になる可能性があることも示しています。多くの(冗長な)信号があり、新しい次元がノイズをほとんど追加しない場合。
重複ディメンションを検討する場合、最後の主張はおそらく最も明白です。データセットは代表的な次元を増加させますが、ユークリッド距離が失敗することはありません。(参照:固有の次元)
したがって、最終的にはデータに依存します。役に立たない属性がたくさんある場合、ユークリッド距離は役に立たなくなります。低次元のデータ空間にデータを簡単に埋め込むことができれば、ユークリッド距離も全次元の空間で機能するはずです。特に、テキストからのTFベクトルなどのスパースデータの場合、これは、データがベクトル空間モデルが示唆するよりもはるかに低い次元である場合のようです。
一部の人々は、高次元データではコサイン距離がユークリッドよりも優れていると考えています。余弦距離とユークリッド距離は密接に関連しています。そのため、同じ問題に苦しむことを期待する必要があります。ただし、コサインが一般的なテキストデータは通常スパースで、スパースデータではコサインの方が高速です。したがって、スパースデータの場合、コサインを使用する十分な理由があります。また、データがスパースであるため、固有の次元はベクトル空間の次元よりもはるかに小さくなります。
以前の質問に答えたこの返信も参照してください:https : //stats.stackexchange.com/a/29647/7828
ユークリッド距離は、機械学習で選択するのに適した距離になることはめったにありません。これは、高次元でより明らかになります。これは、ほとんどの場合、機械学習ではユークリッドメトリック空間ではなく確率的メトリック空間を扱っているため、エントロピーベースなどの確率的および情報理論的な距離関数を使用する必要があるためです。
ユークリッド空間は、概念化が容易であるために人間が好みます。さらに、線形代数を適用できることを意味する線形特性のために数学的にも簡単です。たとえば、Kullback-Leibler Divergenceで距離を定義すると、数学的に視覚化して操作するのが難しくなります。
類推として、原点を中心とした円を想像してください。ポイントは均等に分配されます。ランダムに選択されたポイントが(x1、x2)にあるとします。原点からのユークリッド距離は((x1)^ 2 +(x2)^ 2)^ 0.5
ここで、球に均等に分布する点を想像してください。同じポイント(x1、x2)は(x1、x2、x3)になります。偶数の分布では、座標の1つがゼロである点はごくわずかであるため、ランダムに選択された均一に分布した点について[x3!= 0]と仮定します。したがって、ランダムポイントは(x1、x2、0)ではなく(x1、x2、x3)である可能性が最も高くなります。
これの効果は次のとおりです。任意のランダムポイントは、3D球体の原点から((x1)^ 2 +(x2)^ 2 +(x3)^ 2)^ 0.5の距離になります。この距離は、2D円の原点に近いランダムポイントの距離よりも大きくなります。この問題は、高次元では悪化します。そのため、高次元で機能するためにユークリッド次元以外のメトリックを選択します。
編集:私が今思い出すことわざがあります:「高次元のオレンジの質量の大部分は果肉ではなく皮膚にあります」、つまり高次元で均等に分布した点は境界により近い(ユークリッド距離)ます起源より。
サイドノート:ユークリッド距離は、「不均一性の祝福」のために実世界の問題にとってそれほど悪くはありません。これは基本的に、実データの場合、データは高次元空間に均等に分散されないことを示しますが、スペースの小さな包含サブセットを占有します。これは直感的に理にかなっています:身長、体重など人間について100個の量を測定している場合、次元空間の均等な分布は意味をなしません。たとえば、(身長= 65インチ、体重= 150 lbs、avg_calorie_intakeの人= 4000)これは現実の世界では不可能です。
この質問のもう1つの側面は次のとおりです。
(機械学習/統計)問題の高次元は、機能が過剰に制約された結果であることが非常に多くあります。
次元の意味は独立ではありません(または無相関)が、ユークリッドメトリックは(少なくとも)無相関を想定しているため、最良の結果が得られない可能性があります
したがって、あなたの質問に答えるために、「高次元」の数は、相互依存、冗長、または過度に制約されている機能の数に関連しています
さらに:特徴が特定の形式である場合、ユークリッドメトリックが推論の「自然な」候補であるということは、Csiszar(他)による定理です。
このホワイトペーパーでは、訪問するあなたも「平方根コサイン類似性測定の改善」に役立つかもしれhttps://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6を ユークリッド距離が高次元で良いメトリックない理由本稿では説明してデータと、高次元データのユークリッド距離の最適な代替は何ですか。ユークリッド距離はL2ノルムであり、Lkノルムのkの値を小さくすることにより、高次元データの距離の問題を軽減できます。この資料にも参考文献があります。