マハラノビス距離の一番下の説明?


127

私はパターン認識と統計を研究しており、マハラノビス距離の概念にぶつかる主題について私が開くほとんどすべての本です。本は一種の直観的な説明を提供しますが、それでも私が実際に何が起こっているのかを実際に理解するには十分ではありません。誰かが「マハラノビス距離とは何ですか?」私は答えることしかできませんでした:「それはある種の距離を測定するこの素晴らしいことです」:)

定義には通常、固有ベクトルと固有値も含まれていますが、マハラノビス距離との接続には少し問題があります。固有ベクトルと固有値の定義を理解していますが、それらはマハラノビス距離とどのように関係していますか?線形代数などでベースを変更することに関係していますか?

私はまた、主題に関するこれらの以前の質問を読みました:

私もこの説明を読みました

答えは素晴らしく良いと絵ですが、まだ私はしていない、本当に私はアイデアを持っているが、それは暗闇の中で、まだだ...それを得ます。誰かが「おばあちゃんにそれをどのように説明しますか」という説明を与えることができますか?:)それはどこから来たのですか、何で、なぜですか?

更新:

マハラノビスの式を理解するのに役立つものを次に示します。

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

回答:


188

以下は、いくつかの多変量データの散布図です(2次元):

ここに画像の説明を入力してください

軸が省略された場合、何ができますか?

ここに画像の説明を入力してください

データ自体が示唆する座標を紹介します。

原点は、点の重心(それらの平均の点)であろう。最初の座標軸(次の図では青)(定義により)分散が最大である任意の方向である点、の「背骨」に沿って延びます。第二の座標軸(図中赤)最初のものに対して垂直に延びます。(3次元以上では、分散が可能な限り大きい垂直方向に選択されます。)

ここに画像の説明を入力してください

スケールが必要です。各軸に沿った標準偏差は、軸に沿った単位を確立するためにうまく機能します。68-95-99.7のルールを思い出してください。ポイントの約3分の2(68%)は、原点から1単位以内(軸に沿って)にある必要があります。約95%が2ユニット以内にある必要があります。これにより、正しい単位を簡単に確認できます。参考のため、この図には次の単位の単位円が含まれています。

ここに画像の説明を入力してください

それは本当に円のように見えませんか?これは、この図が歪んでいるためです(2つの軸上の数字の間隔が異なることから明らかです)。軸を適切な方向(左から右、下から上)で再描画し、水平方向に1つのユニットが実際に垂直に1つのユニットに等しくなるように、ユニットのアスペクト比を使用して再描画します。

ここに画像の説明を入力してください

オリジナルではなくこの写真でマハラノビス距離を測定します。

ここで何が起こったのですか? 散布図で測定を行うための座標系の構築方法をデータに教えてもらいます。 それだけです。途中でいくつかの選択肢がありましたが(どちらかまたは両方の軸を常に逆にすることができます;まれな状況では、「背骨」に沿った方向(主な方向)は一意ではありません)、距離は変わりません最終プロットで。


技術的なコメント

(おそらく、プロットに数字が再び現れるとすぐに興味を失い始めたおばあちゃんではなく、提起された残りの質問に対処するために。)

  • 新しい軸に沿った単位ベクトルは、(共分散行列またはその逆行列の)固有ベクトルです。

  • 楕円を歪ませずに円を描くと、各固有ベクトルに沿った距離が標準偏差(共分散の平方根)で除算されます。まかせ共分散関数のためのスタンドを、2点間の新しい(マハラノビス)距離X及びYがからの距離Xに対するYの平方根で割った値C X - Y X - Yは。対応する代数演算。行列としての表現とxおよびyの観点からCを考えるCバツyバツyCバツyバツyCバツyベクトルとしての表現の観点から、書かれている。これは、ベクトルと行列を表すために使用される基底に関係なく機能します。 特に、これは元の座標のマハラノビス距離の正しい式ですバツyC1バツy

  • 最後のステップで軸が展開される量は、逆共分散行列の固有値(の平方根)です。同様に、軸は共分散行列の(根の)固有値によって縮小されます。したがって、散布が多いほど、その楕円を円に変換するのに必要な収縮が大きくなります。

  • この手順は常に任意のデータセットで機能しますが、ほぼ多変量標準のデータについては、このように見えます(古典的なフットボールの形をした雲)。他の場合では、平均点はデータの中心を適切に表していない可能性があります。そうしないと、分散の尺度として分散を使用して「スパイン」(データの一般的な傾向)が正確に識別されません。

  • 座標の原点の移動、軸の回転、および拡張は、集合的にアフィン変換を形成します。 その初期シフトとは別に、これは、元のもの(正の座標方向を指す単位ベクトルを使用)から新しいもの(単位固有ベクトルの選択を使用)への基底の変更です。

  • 主成分分析(PCA)との強いつながりがあります。それだけで、「どこから来たのか」と「なぜ」の質問を説明するのに大いに役立ちます-データを使用してそれらを説明し、測定するために使用する座標を決定する優雅さとユーティリティにまだ納得していない場合違い。

  • 多変量正規分布(ポイントクラウドの類似のプロパティの代わりに確率密度のプロパティを使用して同じ構成を実行できる場合)では、式の「」の代わりにマハラノビス距離(新しい原点まで)が表示されますexp 1バツこれは、標準正規分布の確率密度を特徴づけます。したがって、新しい座標では、多変量正規分布は、原点を通る任意の線に投影されたときに標準正規に見えます。特に、新しい座標のそれぞれで標準のNormalです。この観点から、多変量正規分布が互いに異なる唯一の実質的な意味は、それらが使用する次元の数です。(この次元の数は、公称の次元数よりも少ない場合があります。)exp12バツ2


3
誰もが好奇心Should盛な場合、アフィン変換は「直線を維持する変換...および直線上にあるポイント間の距離の比率」です。(@whuber、箇条書きにこのようなものを追加する必要があるかどうかはわかりません。)
gung

@gungアフィン変換についての私の言及のすぐ後に、アフィン変換の特徴づけがあります:変換の後に基底の変更が続きます。この言語を選択したのは、質問で使用されているものと同じだからです。(非可逆線形変換を包含するために、「基本の変更」をいくぶん
寛容に行わなければなりません

13
@whuber、あなたの説明はおそらく私が今まで見た中で最高のものです。通常、これが説明されるとき、彼らが楕円体と球体に言及したとき、それは非常に抽象的にカバーされます、そして、彼らは彼らが意味するものを示しません。軸変換がどのようにデータ分布を「球」に変換するかを示して、1次元の場合のように、データの平均からデータのsdの倍数として距離を「見る」ことができることを称賛しますデータ。私の意見では、この視覚化は重要であり、残念ながら、このトピックに関するほとんどの議論から除外されています。良い仕事---説明

堅牢なPCAはありますか?共分散行列のサイズを見たときに、外れ値のデータポイントを捨てることができるバリエーションですか?
EngrStudent

@Engr確かに:共分散行列のロバストな推定は、ロバストなPCAにつながります。堅牢なPCAに関する質問への回答でそれらを参照することで示されるように、他の直接的な方法が存在します。
whuber

37

おばあちゃんが料理します。あなたもかも。料理は統計を教えるためのおいしい方法です。

パンプキンハバネロのクッキーは最高です!シナモンジンジャーがクリスマスのごちそうにどれほど素晴らしいかを考えてから、自分たちがどれだけ暑いかを実感してください。

成分は次のとおりです。

  • ハバネロピーマン(10個、種付け、細かく刻んだもの)
  • 砂糖(1.5カップ)
  • バター(1カップ)
  • バニラエッセンス(小さじ1)
  • 卵(2個)
  • 小麦粉(2.75カップ)
  • 重曹(小さじ1)
  • 塩(小さじ1)

ドメインの座標軸が成分量であると想像してください。シュガー。小麦粉。塩。重曹。これらの方向に沿った変動は、他の条件がすべて同じであれば、ハバネロ唐辛子の数の変動としてフレーバーの品質にほとんど影響しません。小麦粉またはバターを10%変化させると、それほど大きくはなりませんが、致命的ではありません。ハバネロを少し追加するだけで、中毒性のあるデザートからテストステロンに基づく痛みのコンテストまで、風味の絶壁をひっくり返すことができます。

マハラノビスは、「成分量」では「最高の味」とはほど遠い距離にあります。変化に非常に敏感な、本当に「強力な」成分は、あなたが最も注意深く管理しなければならないものです。

ガウス分布と標準正規分布を考えると、違いは何ですか?中心傾向(平均)および変動傾向(標準偏差)に基づく中心およびスケール。1つは他の座標変換です。マハラノビスはその変換です。関心の分布がガウス分布ではなく標準正規分布として再キャストされた場合の世界の様子を示します。


4
ガウス分布正規分布なので、最後の段落でどのような区別をしようとしていますか?
whuberの

1
@Whuber-標準。私は標準を意味しました。私が言ったと思った。編集履歴を確認する必要があります。次の文章は主な考えを繰り返します。
EngrStudent

2
「ガウス分布」とどういう意味ですか?
whuber

1
いい?任意の平均と分散をもつガウス分布でもかまいませんが、変換は標準を標準偏差にマッピングし、平均を減算してスケーリングします。
EngrStudent

4
はい、今では明確です。しかし、なぜ同じことを指すのに2つの用語(ガウスと通常)を使用するのか戸惑いますが、説明したので大丈夫です。また、私はあなたの最後の主張について少し混乱しています。これは、すべての多変量分布を標準の正規化に変換できると言っているようです(リンクする定義によれば、これは単変量です各コンポーネントで正常 とにかく、あなたが始めるアナロジーは素晴らしいです。
whuber

10

出発点として、マハラノビス距離は通常のユークリッド距離d x y = √の適切な変形として見るでしょうベクトルとの間のX及びYにおける RのN。ここでの追加情報は、xyが実際にランダムなベクトル、つまり、ランダム変数のベクトルXの2つの異なる実現であり、説明の背景にあるということです。マハラノビスが対処しようとする質問は次のとおりです。dバツy=バツyバツyRnバツyバツ

yが同じ多変量確率変数を実現していることを知って、xyの「相違点」をどのように測定できますか?」 バツy

明らかに、それ自体との実現相違は0に等しくなければなりません。さらに、非類似度は実現の対称関数であり、バックグラウンドでのランダムプロセスの存在を反映する必要があります。この最後の側面は、多変量確率変数の共分散行列Cを導入することにより考慮されます。バツC

上記のアイデアを集めて、私たちは非常に自然に到着します

Dバツy=バツyC1バツy

バツX=(X1,,Xn)Cij=δijXiVar(Xi)=1D(x,y) xyC(x,y)


9

2つの変数のケースを考えてみましょう。この2変量正規分布の画像(@whuberに感謝)を見て、ABがACよりも大きいと単純に主張することはできません。正の共分散があります。2つの変数は互いに関連しています。

変数が次の場合にのみ、単純なユークリッド測定(ABやACなどの直線)を適用できます。

  1. 独立した
  2. 分散が1に等しい

基本的に、マハラノビス距離測定は次のことを行います。変数を1に等しい分散を持つ非相関変数に変換し、単純なユークリッド距離を計算します。


1
ここでの回答に示されているように、グラフに相関関係が表示されるたびに、ユークリッド距離ではなくマハラノビスの計算のみを検討することを提案していますか?どれをいつ使用するか教えてください。
サンディプ

7

できるだけ簡単に説明しようと思います。

マハラノビス距離は、データ分布からの点xの距離を測定します。データ分布は平均と共分散行列によって特徴付けられるため、多変量ガウス分布と仮定されます。

これは、パターン(クラスのトレーニング例のデータ分布)とテスト例の間の類似性尺度としてパターン認識で使用されます。共分散行列は、データが特徴空間でどのように分布するかを示します。

図は3つの異なるクラスを示し、赤い線は各クラスの同じマハラノビス距離を示します。 赤い線の上にあるすべてのポイントは、共分散行列を使用しているため、クラス平均から同じ距離にあります。

図は3つの異なるクラスを示し、赤い線は各クラスの同じマハラノビス距離を示します。赤い線の上にあるすべてのポイントは、共分散行列を使用しているため、クラス平均から同じ距離にあります。

主な特徴は、正規化係数として共分散を使用することです。


6

Whuberの優れた答えに技術的な情報を少し加えたいと思います。この情報はおばあちゃんには関係ないかもしれませんが、おそらく彼女の孫はそれが役に立つと思うでしょう。以下は、関連する線形代数の下から上への説明です。

マハラノビス距離はとして定義されますdバツy=バツyTΣ1バツyΣΣΣΣ=QTDQΣ1=QD12D12QTdバツy=[バツyTQ]D12D12[QTバツy]=zTzQバツyD12D12D1zTz


5

この質問に答えるのに少し遅れるかもしれません。ここのこの論文は、マハラノビス距離を理解するための良い出発点です。数値の完全な例を提供します。私が気に入っているのは、問題の幾何学的表現が提示されていることです。


4

上記の優れた説明に追加するために、マハラノビス距離は(多変量)線形回帰で自然に発生します。これは、他の回答で説明したマハラノビス距離とガウス分布の関係のいくつかの単純な結果ですが、とにかく詳しく説明する価値があると思います。

あるデータバツ1y1バツNyNバツRnyRmβ0Rmβ1Rm×ny=β0+β1バツ+ϵϵ1ϵNm0Cバツyバツβ0+β1バツC

yバツβ=β0β1

ログpyバツ;β=m2ログ2πデットC+12yβ0+β1バツC1yβ0+βバツ
C
argminβ[ログpyバツ;β]=argminβDCβ0+β1バツy
DCy^y=yy^C1yy^
y^yRm

独立により、y = y 1y Nの対数尤度ログpyバツ;βy=y1yNバツ=バツ1バツN

ログpyバツ;β==1Nログpyバツ;β
argminβ[ログpyバツ;β]=argminβ1N=1NDCβ0+β1バツy
1/N argminに影響を及ぼしません。

β0β1


1
ログデットCnバツβバツβ

バツyyϵログデットCargmnβ[ログpyバツ;β]=argmnβyβバツC1yβバツ

読者に推測を要求するのではなく、シンボルが参照するものを説明することが重要です。おそらくあなたの説明は良い説明ですが、その説明なしで(あなたはその最新のコメントから始めました)ほとんどの読者はあなたの意味を理解するのに苦労していると思います。
whuber

2
あなたの言ってる事がわかります。これらのコメントにいくつかのアイデアを組み込むために、元の回答を編集しました。
ベンCW

2

マハラノビス距離は、データの共分散を考慮したユークリッド距離(自然距離)です。ノイズの多いコンポーネントに大きな重みを与えるため、2つのデータセット間の類似性をチェックするのに非常に便利です。

ここでの例変数が相関していることがわかるように、分布は一方向にシフトされています。この効果を削除することがあります。距離の相関を考慮すると、シフト効果を削除できます。


2
マハラノビス距離は、大きな共分散の方向を「より大きな」重みを与えるのではなく、効果的にダウンウェイトすると信じています。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.