実際にカルバック・ライブラーの発散を計算しますか？

15

2 間の非類似性の尺度としてKL発散を使用してい $p.m.f.$ $P$ と $Q$ 。

D_{K L} （ P | | Q ） = \sum_{私 = 1}^{N} \ln （ \frac{P_{私}}{Q_{私}} ） P_{私}

$D_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i$

= - \sum P （ {バツ}_{私} ） l n （ Q （ {バツ}_{私} ） ） + \sum P （ {バツ}_{私} ） l n （ P （ {バツ}_{私} ） ）

$=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right)$

もし、我々は簡単に計算することができ、その

P （ {バツ}_{私} ） = 0

$P(X_i)=0$

P （ {バツ}_{私} ） l n （ Q （ {バツ}_{私} ） ） = 0

$P(X_i)ln\left(Q(X_i)\right)=0$

P （ {バツ}_{私} ） l n （ P （ {バツ}_{私} ） ） = 0

$P(X_i)ln\left(P(X_i)\right)=0$

しかし、かつ場合、計算方法

P （ {バツ}_{私} ） \neq 0

$P(X_i)\ne0$

Q （ {バツ}_{私} ） = 0

$Q(X_i)=0$

P （ {バツ}_{私} ） l n （ Q （ {バツ}_{私} ） ）

$P(X_i)ln\left(Q(X_i)\right)$

distributions distance kullback-leibler

— smwikipedia
ソース

P (X_{i})! = 0

$P(X_i)!=0$

P (X_{i}) \neq 0

$P(X_i) \ne 0$

Q (X_{i}) = 0

$Q(X_i) = 0$

X_{i}

$X_i$

Q

$Q$

@マシューありがとう、訂正。コーディングの習慣を誤って守っていました。

— smwikipedia

Q (X_{i}) = 0

$Q(X_i)=0$

X_{i}

$X_i$

P

$P$

Q

$Q$

15

できませんし、しません。確率分布Qのランダム変数があると想像してください。しかし、友人のボブは、結果は確率分布Pに由来すると考えています。彼は最適なエンコーディングを構築し、それを伝えるために必要な予想ビット数を最小限に抑えました結果。しかし、QからではなくPからエンコードを構築したため、彼のコードは必要以上に長くなります。KL-ダイバージェンスは、コードがどれくらい長くなるかを測定します。

今、彼はコインを持っていると言いましょう、そして彼はあなたが彼が得る結果のシーケンスをあなたに伝えたいと思います。頭と尻尾は等しくありそうなので、彼はそれらに両方の1ビットコードを与えます。頭は0、尾は1。彼がテールテールヘッドテールを取得した場合、彼は1 1 0 1を送信できます。彼が送信するコードは機能しません。この時点で、KL発散は崩壊します。

KL発散は故障するため、別のメジャーまたは他の確率分布を使用する必要があります。あなたがすべきことは本当にあなたが望むものに依存します。確率分布を比較しているのはなぜですか？あなたの確率分布はどこから来ますか、データから推定されますか？

確率分布は何らかの方法で自然言語文書から得られたものであり、カテゴリのペアを比較するとします。

まず、対称的な関連性の尺度をお勧めします。このアプリケーションの場合、BはAに似ているため、AはBに似ているように聞こえます。

コサイン類似性の尺度を試しましたか？NLPでは非常に一般的です。

KLに固執したい場合、できることの1つは、両方のドキュメントから確率関数を推定し、いずれかのドキュメントに平均で必要な追加ビット数を確認することです。つまり（P ||（P + Q）/ 2 + Q ||（P + Q）/ 2）/ 2

— user1417648
ソース

素晴らしい説明ですが、少し混乱します。最初の段落を説明する方法は、KL（Q || P）ではありませんか？

— ユルゲン

8

実際には、私もこの問題に遭遇しました。この場合、非常に小さな数を0の値に置き換えると問題が発生する可能性があることがわかりました。使用する値に応じて、KL値に「バイアス」を導入します。仮説検定またはしきい値を含む他の用途にKL値を使用している場合、この小さな値は結果にバイアスをかける可能性があります。これに対処するための最も効果的な方法は、両方のPとQがゼロ以外の一貫した仮説空間X_iでKLを計算することだけを検討することであることがわかりました。基本的に、これはKLのドメインを両方が定義されているドメインに限定し、KLを使用して仮説検定を実行する際のトラブルを防ぎます。

— concipiotech
ソース

ありがとう。興味深い提案です。基本的に、PとQを同じ結果セットに基づいて作成しようとしています。やってみます。

— smwikipedia

PとQの両方がゼロでないデータサブセットでKLを計算する場合、そのサブセットでPとQを再正規化する必要がありますか？または、元の確率値を使用しますか？すべきだと思う。それ以外の場合、PとQはまだ同じベースにありません。

— smwikipedia

私はあなたの提案で試しました。Pは1万件以上の結果を配信し、Qも1万件以上の結果を配信します。しかし、PとQの結果は共通して3Kのみです。一般的な3Kの結果のみを使用してPとQの差を推定する場合、それは合理的ではないと思います。私たちは多くのことを無視しているからです。ところで、このアプローチの結果は、小さな数（または擬似カウント）を追加することで得られる結果とはまったく異なります。

— smwikipedia

コンテキストを追加し、NLP実験に取り組んでいます。ドキュメントにはいくつかのカテゴリがあり、カテゴリの各ペアが互いにどの程度密接に関連しているかを伝えたいと思います。

— smwikipedia

5

$Q_i=0$ $i$ $Q_i$ $Q_i$ $Q$ $P$

解決策は、推定分布で0または1の確率を許可しないことです。これは通常、グッドチューリングスムージング、ディリクレスムージング、ラプラススムージングなどの何らかのスムージングによって実現されます。

— ダニエル・マーラー
ソース