Affinity Propagationアルゴリズムを使用して確率分布をクラスタリングしており、距離メトリックとしてJensen-Shannon Divergenceを使用する予定です。
JSD自体を距離として使用するのは正しいですか、それともJSDの2乗ですか?どうして?どちらを選択するとどのような違いが生じますか?
Affinity Propagationアルゴリズムを使用して確率分布をクラスタリングしており、距離メトリックとしてJensen-Shannon Divergenceを使用する予定です。
JSD自体を距離として使用するのは正しいですか、それともJSDの2乗ですか?どうして?どちらを選択するとどのような違いが生じますか?
回答:
それがどのように使用されるかに依存すると思います。
他の読者への参照のために、とが確率測度である場合、Jensen-Shannon Divergenceは ここで、は中点測定値であり、はカルバック-ライブラーの発散。
今、私が使用するように誘惑されるだろう平方根ことがあるので、ジェンセン・シャノン発散をメトリックすなわち、それを満たすに、距離尺度のすべての「直感的」性質を。
詳細については、
Endres and Schindelin、確率分布の新しいメトリック、IEEE Trans。情報で。ねえ。、vol。49、いいえ。3、2003年7月、1858-1860ページ。
もちろん、ある意味で、それはあなたがそれを必要とするものに依存します。それを使用しているのが、何らかのペアワイズ測定を評価することだけである場合、JSDの単調変換はすべて機能します。「二乗距離」に最も近いものを探している場合、JSD自体が類似の量です。
ちなみに、この前の質問と関連する回答や議論にも興味があるかもしれません。
J(P,Q) = J(Q,P)
。JSの発散はPとQで対称であると読みました。これはどういう意味JS(P,Q) = JS(Q,P)
ですか?これはKLdiv
、のflexmix
パッケージの関数を使用しているためですR
。私の2つの分布では、KLdivからのマトリックス出力は対称ではありません。JSがこれを修正することを期待していましたが、JSからの出力(KLを使用して計算)は対称ではありません。