クラスタリング:Jensen-Shannon Divergenceまたはその正方形を使用する必要がありますか?


15

Affinity Propagationアルゴリズムを使用して確率分布をクラスタリングしており、距離メトリックとしてJensen-Shannon Divergenceを使用する予定です。

JSD自体を距離として使用するのは正しいですか、それともJSDの2乗ですか?どうして?どちらを選択するとどのような違いが生じますか?

回答:


19

それがどのように使用されるかに依存すると思います。

他の読者への参照のために、とが確率測度である場合、Jensen-Shannon Divergenceは ここで、は中点測定値であり、はカルバック-ライブラーの発散。PQ

J(P,Q)=12(D(P∣∣R)+D(Q∣∣R))
R=12(P+Q)D(∣∣)

今、私が使用するように誘惑されるだろう平方根ことがあるので、ジェンセン・シャノン発散をメトリックすなわち、それを満たすに、距離尺度のすべての「直感的」性質を。

詳細については、

Endres and Schindelin、確率分布の新しいメトリックIEEE Trans。情報で。ねえ。、vol。49、いいえ。3、2003年7月、1858-1860ページ。

もちろん、ある意味で、それはあなたがそれを必要とするものに依存します。それを使用しているのが、何らかのペアワイズ測定を評価することだけである場合、JSDの単調変換はすべて機能します。「二乗距離」に最も近いものを探している場合、JSD自体が類似の量です。

ちなみに、この前の質問と関連する回答や議論にも興味があるかもしれません。


クール、「確率分布の新しいメトリック」をできるだけ早く読みます。Txh
ocram

ありがとう!JSD自体がすでにdist ** 2に類似していることに気付いていませんでした
-AlcubierreDrive

素晴らしい説明をありがとう!簡単な質問です。J-Divergenceはその点で対称的ですJ(P,Q) = J(Q,P)。JSの発散はPとQで対称であると読みました。これはどういう意味JS(P,Q) = JS(Q,P)ですか?これはKLdiv、のflexmixパッケージの関数を使用しているためですR。私の2つの分布では、KLdivからのマトリックス出力は対称ではありません。JSがこれを修正することを期待していましたが、JSからの出力(KLを使用して計算)は対称ではありません。
伝説

1
PQ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.