ジェンセンシャノンダイバージェンスvsカルバックライブラーダイバージェンス?


14

KLダイバージェンスは対称的ではなく、厳密にメトリックと見なすことはできません。そうである場合、JS Divergenceがメトリックに必要なプロパティを満たすときに使用されるのはなぜですか?

KLダイバージェンスは使用できるが、JSダイバージェンスは使用できない、またはその逆のシナリオはありますか?


どちらも使用されますが、コンテキストに依存します。厳密なメトリックが必要であることが明らかな場合、たとえばクラスタリングが行われる場合は、JSがより好ましい選択です。一方、モデル選択では、KLに基づくAICの使用が広まっています。赤池の重みは、JSが対応するものを提供できないか、まだ普及していないという、優れた解釈を持っています。
ジェームズ

回答:


5

私はQuoraで非常に成熟した答えを見つけ、ここでそれを探している人々のためにここに置きました:

カルバックライブラーダイバージェンスにはいくつかの優れた特性があり、そのうちの1つは種類のな領域で、はnull以外の質量を、はnull質量を持ちます。これはバグのように見えるかもしれませんが、実際には特定の状況での機能です。𝐾𝐿[𝑞;𝑝]𝑞(𝑥)𝑝(𝑥)

(扱いやすい)近似分布による複雑な(扱いにくい)分布近似を見つけようとしている場合は 、もかられることは。KLにこのプロパティがあることは簡単に示されます。被積分関数にはがあります。𝑞(𝑥)が小さいが𝑝(𝑥)が小さい場合は、ありません。しかし、が小さい場合、も小さくなければ、これは非常に急速に大きくなります。したがって、を最小化するためにを選択している場合𝑝(𝑥)𝑞(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑙𝑜𝑔[𝑞(𝑥)/𝑝(𝑥)]𝑝(𝑥)𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝐾𝐿[𝑞;𝑝]、それはすることが非常にありそうだ地域に質量の多くを割り当てますゼロに近いです。𝑞(𝑥)𝑝(𝑥)

ジェンセンシャノン分岐には、この特性はありません。と両方が小さい場合に、適切に動作します。それはできるだけ多くの配布不利ではないだろうというこの手段あなたが不可能である値サンプリングすることができ、そこから。𝑝(𝑥)𝑞(𝑥)𝑞(𝑥)𝑝(𝑥)


1

KLダイバージェンスには明確な情報の理論的解釈があり、よく知られています。しかし、KLダイバージェンスの対称化がJSダイバージェンスと呼ばれると聞いたのは初めてです。JSダイバージェンスがそれほど頻繁に使用されない理由は、あまり知られていないため、必須のプロパティを提供していないためです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.