ユークリッド距離と逆のマンハッタン距離を使用するのはいつですか?


18

機械学習でユークリッド距離よりもマンハッタン距離を使用する理由について、適切な議論を探しています。

私がこれまで良い議論に見つけた最も近いものはこのMIT講義にあります。

36:15に、スライドで次のステートメントを確認できます。

「通常、ユークリッドメトリックを使用します。異なる次元が比較可能でない場合はマンハッタンが適切な場合があります。

教授が、爬虫類の足の数が0から4まで変化するので(他の機能はバイナリで、0から1までしか変化しないため)、「足の数」機能の方がずっと多くなると言った直後ユークリッド距離が使用される場合の重み。案の定、それは確かに正しいです。しかし、マンハッタン距離を使用する場合、その問題が発生します(ユークリッド距離のように差を2乗しないため、問題がわずかに軽減されるだけです)。

上記の問題を解決するより良い方法は、「脚の数」機能を正規化して、その値が常に0〜1になるようにすることです。

したがって、問題を解決するためのより良い方法があるため、この場合のマンハッタン距離を使用するという議論には、少なくとも私の意見では、より強力なポイントが欠けているように感じました。

ユークリッド上でマンハッタン距離を使用する理由と時期を誰かが実際に知っていますか?マンハッタン距離を使用するとより良い結果が得られる例を教えてもらえますか?

回答:


4

この興味深い論文によると、高次元データの場合、マンハッタン距離(L1ノルム)はユークリッド距離(L2ノルム)よりも好ましい場合があります。

https://bib.dbvis.de/uploadedFiles/155.pdf

論文の著者はさらに一歩進んで、クラスタリングなどの距離ベースのアルゴリズムの結果を改善するために、非常に高次元のデータにkの小数値を持つLkノルム距離を使用することを提案しています。


stats.stackexchange.com/a/99191はより完全な回答を提供します
マイク

3

ウィキペディアからいくつかのアイデアを提案できます。

  1. 外れ値にあまり重点を置きたくない場合、マンハッタン距離は勾配が一定の大きさであるため、すべての誤差を等しく低減しようとします。
  2. ノイズがラプラシアン分布している場合、マンハッタン推定値を最小化することによりMLEが見つかります。

3

Scikit-LearnとTensorFlowを使用したハンズオン機械学習で、この問題に関する直観と思われる何かを見つけました。

RMSEとMAEはどちらも、予測のベクトルとターゲット値のベクトルの2つのベクトル間の距離を測定する方法です。さまざまな距離測定、または標準が可能です。

  • 平方和(RMSE)の根の計算は、ユークリッドのノルムに対応しています。これは、慣れ親しんだ距離の概念です。ℓ2ノルムとも呼ばれます(...)

  • 絶対値の合計(MAE)の計算は、ℓ1ノルム(...)に対応します。マンハッタンのノルムと呼ばれることもあります。これは、直交する都市ブロックに沿ってしか移動できない場合に、都市内の2点間の距離を測定するためです。

  • より一般的には、(...)ℓ0はベクトル内の非ゼロ要素の数を与え、ℓ∞はベクトル内の最大絶対値を与えます。

  • ノルムインデックスが高いほど、大きな値に重点が置かれ、小さな値は無視されます。これが、RMSEがMAEよりも外れ値に敏感な理由です。しかし、異常値が指数関数的にまれな場合(ベル型の曲線のように)、RMSEは非常に良好に機能するため、一般的に好まれます。


2

マンハッタン距離の使用は、データセットが使用している座標系の種類に大きく依存します。ユークリッド距離は2点間の最短または最小距離を提供しますが、マンハッタンには特定の実装があります。

たとえば、チェスデータセットを使用する場合、マンハッタン距離の使用はユークリッド距離よりも適切です。もう1つの用途は、数ブロック離れた家の間の距離を知りたい場合です。

また、入力変数のタイプが類似していない場合(年齢、性別、身長など)、マンハッタン距離を考慮することもできます。次元の呪いにより、次元の数が増加するにつれてユークリッド距離は不適切な選択になることがわかっています。

つまり、マンハッタン距離は通常、ポイントがグリッドの形で配置されている場合にのみ機能し、現在取り組んでいる問題は、グリッドに沿ってのみポイント間の距離を優先し、幾何学的距離ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.