非正規データのマハラノビス距離


8

マハラノビス距離は、分類の目的で使用される場合、通常、多変量正規分布を想定しており、重心からの距離は分布に従う必要があります(自由度は次元/特徴の数に等しい)。マハラノビス距離を使用して、新しいデータポイントがセットに属する確率を計算できます。χ2d

多変量正規分布に従わないデータセットがあります()。理論的には、各特徴はポアソン分布に従う必要があり、経験的にこれは多くの()特徴に当てはまるようで、ノイズに含まれていない特徴で、分析から削除できます。このデータの新しいポイントをどのように分類できますか?d1000200

2つのコンポーネントがあると思います。

  1. このデータの適切な「マハラノビス距離」式は何ですか(つまり、多変量ポアソン分布)。他の分布への距離の一般化はありますか?
  2. 通常のマハラノビス距離を使用しても、別の定式化を使用しても、これらの距離の分布はどうなりますか?仮説検定を行う別の方法はありますか?

あるいは...

各クラスの既知のデータポイントのは、(少なすぎます。経験的に最小値を決定します)から約まで幅広く変化します。マハラノビス距離はでスケーリングされるため、1つのモデル/クラスから次のモデル/クラスまでの距離を直接比較することはできません。データが正常に分布している場合、カイ2乗検定は、さまざまなモデルからの距離を比較する方法を提供します(臨界値または確率を提供することに加えて)。「マハラノビスのような」距離を直接比較する別の方法がある場合、たとえそれが確率を提供していなくても、私はそれで作業することができます。nn=1n=6000n

回答:


6

KarlisとMeligkotsidouの「共分散構造を持つ多変量ポアソン回帰」を調べてみてください。2005.この論文は、多変量ポアソン変数をモデル化しようとする著者の試みに関するものであり、困難な作業であることが認められています。

マハラノビスの距離の使用は、平均と共分散行列を通じて推論を行うことができることを意味します。これは、正規分布のみの特性です。データにMDを使用する場合、基本的にはそれらが正常であると偽っています。


Tikuほか、「非正規性の下でのマハラノビス距離」、2010年(これは私が待っている)とEkstrom、「正規分布を超えたマハラノビス距離」、2011年(これは助けにはならなかったが、助けになった他の誰かが私を助けます)。
jmilloy 2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.