2 p間の非類似性の尺度としてKL発散を使用しています。メートル。F 。 と。
もし 、我々は簡単に計算することができ、その P (X I)L N ( Q (X I)) = 0 P (X I)L N ( P (X I)) = 0
しかし、かつQ (X i)= 0の 場合、P (X i)l n ( Q (X i))の計算方法
2 p間の非類似性の尺度としてKL発散を使用しています。メートル。F 。 と。
もし 、我々は簡単に計算することができ、その P (X I)L N ( Q (X I)) = 0 P (X I)L N ( P (X I)) = 0
しかし、かつQ (X i)= 0の 場合、P (X i)l n ( Q (X i))の計算方法
回答:
できませんし、しません。確率分布Qのランダム変数があると想像してください。しかし、友人のボブは、結果は確率分布Pに由来すると考えています。彼は最適なエンコーディングを構築し、それを伝えるために必要な予想ビット数を最小限に抑えました結果。しかし、QからではなくPからエンコードを構築したため、彼のコードは必要以上に長くなります。KL-ダイバージェンスは、コードがどれくらい長くなるかを測定します。
今、彼はコインを持っていると言いましょう、そして彼はあなたが彼が得る結果のシーケンスをあなたに伝えたいと思います。頭と尻尾は等しくありそうなので、彼はそれらに両方の1ビットコードを与えます。頭は0、尾は1。彼がテールテールヘッドテールを取得した場合、彼は1 1 0 1を送信できます。彼が送信するコードは機能しません。この時点で、KL発散は崩壊します。
KL発散は故障するため、別のメジャーまたは他の確率分布を使用する必要があります。あなたがすべきことは本当にあなたが望むものに依存します。確率分布を比較しているのはなぜですか?あなたの確率分布はどこから来ますか、データから推定されますか?
確率分布は何らかの方法で自然言語文書から得られたものであり、カテゴリのペアを比較するとします。
まず、対称的な関連性の尺度をお勧めします。このアプリケーションの場合、BはAに似ているため、AはBに似ているように聞こえます。
コサイン類似性の尺度を試しましたか?NLPでは非常に一般的です。
KLに固執したい場合、できることの1つは、両方のドキュメントから確率関数を推定し、いずれかのドキュメントに平均で必要な追加ビット数を確認することです。つまり(P ||(P + Q)/ 2 + Q ||(P + Q)/ 2)/ 2
実際には、私もこの問題に遭遇しました。この場合、非常に小さな数を0の値に置き換えると問題が発生する可能性があることがわかりました。使用する値に応じて、KL値に「バイアス」を導入します。仮説検定またはしきい値を含む他の用途にKL値を使用している場合、この小さな値は結果にバイアスをかける可能性があります。これに対処するための最も効果的な方法は、両方のPとQがゼロ以外の一貫した仮説空間X_iでKLを計算することだけを検討することであることがわかりました。基本的に、これはKLのドメインを両方が定義されているドメインに限定し、KLを使用して仮説検定を実行する際のトラブルを防ぎます。