マハラノビス距離は、分類の目的で使用される場合、通常、多変量正規分布を想定しており、重心からの距離は分布に従う必要があります(自由度は次元/特徴の数に等しい)。マハラノビス距離を使用して、新しいデータポイントがセットに属する確率を計算できます。
多変量正規分布に従わないデータセットがあります()。理論的には、各特徴はポアソン分布に従う必要があり、経験的にこれは多くの()特徴に当てはまるようで、ノイズに含まれていない特徴で、分析から削除できます。このデータの新しいポイントをどのように分類できますか?
2つのコンポーネントがあると思います。
- このデータの適切な「マハラノビス距離」式は何ですか(つまり、多変量ポアソン分布)。他の分布への距離の一般化はありますか?
- 通常のマハラノビス距離を使用しても、別の定式化を使用しても、これらの距離の分布はどうなりますか?仮説検定を行う別の方法はありますか?
あるいは...
各クラスの既知のデータポイントのは、(少なすぎます。経験的に最小値を決定します)から約まで幅広く変化します。マハラノビス距離はでスケーリングされるため、1つのモデル/クラスから次のモデル/クラスまでの距離を直接比較することはできません。データが正常に分布している場合、カイ2乗検定は、さまざまなモデルからの距離を比較する方法を提供します(臨界値または確率を提供することに加えて)。「マハラノビスのような」距離を直接比較する別の方法がある場合、たとえそれが確率を提供していなくても、私はそれで作業することができます。