タグ付けされた質問 「kullback-leibler」

確率分布間の距離(または非類似度)の非対称測定。これは、対立仮説のもとでの対数尤度比の期待値として解釈される場合があります。

2
2つの単変量ガウス分布間のKL発散
2つのガウス分布間のKL発散を決定する必要があります。結果をこれらと比較していますが、結果を再現できません。KL(p、p)のKLは0ではないため、私の結果は明らかに間違っています。 私はどこで間違いをしているのだろうか、誰かがそれを見つけられるかどうか尋ねます。 ましょう及び。ビショップのPRMLから、私はそれを知っていますp(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1)q(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = N(\mu_2, \sigma_2) KL(p,q)=−∫p(x)logq(x)dx+∫p(x)logp(x)dxKL(p,q)=−∫p(x)log⁡q(x)dx+∫p(x)log⁡p(x)dxKL(p, q) = - \int p(x) \log q(x) dx + \int p(x) \log p(x) dx すべての実際の回線で統合が行われ、 ∫p(x)logp(x)dx=−12(1+log2πσ21),∫p(x)log⁡p(x)dx=−12(1+log⁡2πσ12),\int p(x) \log p(x) dx = -\frac{1}{2} (1 + \log 2 \pi \sigma_1^2), 私はして自分自身を制限する私として書き出すことができ、∫p(x)logq(x)dx∫p(x)log⁡q(x)dx\int p(x) \log q(x) dx −∫p(x)log1(2πσ22)(1/2)e−(x−μ2)22σ22dx,−∫p(x)log⁡1(2πσ22)(1/2)e−(x−μ2)22σ22dx,-\int p(x) \log \frac{1}{(2 \pi \sigma_2^2)^{(1/2)}} e^{-\frac{(x-\mu_2)^2}{2 …

5
Kullback-Leibler(KL)発散に関する直観
モデル分布関数がデータの理論的/真の分布とどれだけ異なるかということから、KL発散の背後にある直感について学びました。私が読んでいるソースは、これらの2つの分布間の「距離」の直感的な理解が役立つと言い続けていますが、2つの分布PPPとQQQではKL発散はPPPとQQQ対称ではないため、文字通り解釈すべきではありません。 私は最後の声明を理解する方法がわかりません、またはこれは「距離」の直感が壊れるところですか? シンプルだが洞察に満ちた例に感謝します。

1
2つの多変量ガウス分布間のKL発散
2つの多変量正規分布を仮定したKL発散式の導出に問題があります。単変量のケースはかなり簡単にできました。ただし、数学の統計情報を取得してからかなりの時間が経過しているため、多変量のケースに拡張するのに苦労しています。単純なものが欠けているだけだと確信しています。 私が持っているものは... 両方の仮定とqは手段で正規分布の確率密度関数であり、μ 1及びμ 2と分散Σ 1及びΣ 2をそれぞれ、。qからpへのカルバック・ライブラー距離は次のとおりです。pppqqqμ1μ1\mu_1μ2μ2\mu_2Σ1Σ1\Sigma_1Σ2Σ2\Sigma_2qqqppp の2面の多変量法線のためのものです、∫[ ログ(p (x ))− ログ(q(x ))] p (x )d バツ∫[log⁡(p(x))−log⁡(q(x))] p(x) dx\int \left[\log( p(x)) - \log( q(x)) \right]\ p(x)\ dx 12[log|Σ2||Σ1|−d+Tr(Σ−12Σ1)+(μ2−μ1)TΣ−12(μ2−μ1)]12[log⁡|Σ2||Σ1|−d+Tr(Σ2−1Σ1)+(μ2−μ1)TΣ2−1(μ2−μ1)]\frac{1}{2}\left[\log\frac{|\Sigma_2|}{|\Sigma_1|} - d + Tr(\Sigma_2^{-1}\Sigma_1) + (\mu_2 - \mu_1)^T \Sigma_2^{-1}(\mu_2 - \mu_1)\right] この証明と同じロジックに従って、行き詰まる前にここまで到達します。 =∫[d2log|Σ2||Σ1|+12((x−μ2)TΣ−12(x−μ2)−(x−μ1)TΣ−12(x−μ1))]×p(x)dx=∫[d2log⁡|Σ2||Σ1|+12((x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ2−1(x−μ1))]×p(x)dx=\int \left[ \frac{d}{2} \log\frac{|\Sigma_2|}{|\Sigma_1|} + \frac{1}{2} \left((x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_2^{-1}(x-\mu_1) \right) …

1
t-SNE目的関数でクロスエントロピーではなく、Kullback-Leibler発散を使用する理由
私の考えでは、サンプル分布から真の分布へのKLの相違は、単純にクロスエントロピーとエントロピーの違いです。 多くの機械学習モデルでクロスエントロピーをコスト関数として使用するのに、t-sneでKullback-Leibler発散を使用するのはなぜですか?学習速度に違いはありますか?



4
2つの共分散行列間の類似性または距離の測定
2つの対称共分散行列(どちらも同じ次元)の間に類似性または距離の尺度はありますか? ここでは、2つの確率分布のKL発散や、マトリックスに適用されないベクトル間のユークリッド距離の類似物を考えています。かなりの数の類似性測定があると思います。 理想的には、2つの共分散行列が同一であるという帰無仮説もテストしたいと思います。

4
カルバック・ライブラー距離の適応?
この画像見て: 赤の密度からサンプルを描画する場合、一部の値は0.25未満になると予想されますが、青の分布からこのようなサンプルを生成することはできません。結果として、赤の密度から青の密度までのカルバック・ライブラー距離は無限大です。ただし、2つの曲線は「自然な意味」ではそれほど明確ではありません。 ここに私の質問があります:これらの2つの曲線間の有限距離を可能にするカルバック・ライブラー距離の適応が存在しますか?

3
Kullback-Leibler発散と比較したWassersteinメトリックの利点は何ですか?
Wasserstein計量とKullback-Leibler発散の実際の違いは何ですか?Wassersteinメトリックは、Earth Mover's Distanceとも呼ばれます。 ウィキペディアから: Wasserstein(またはVaserstein)メトリックは、所定のメトリック空間Mの確率分布間で定義される距離関数です。 そして Kullback–Leiblerの発散は、1つの確率分布が2番目の予想確率分布からどのように発散するかの尺度です。 機械学習の実装でKLが使用されているのを見てきましたが、最近、Wassersteinメトリックに出会いました。どちらを使用するかについての良いガイドラインはありますか? (Wassersteinまたはで新しいタグを作成するには評判が不十分Earth mover's distanceです。)

2
クロスエントロピーとKLダイバージェンスの違いは何ですか?
クロスエントロピーとKLダイバージェンスはどちらも、2つの確率分布間の距離を測定するためのツールです。違いはなんですか? また、KLの最小化は、クロスエントロピーの最小化と等価です。K L (P | Q )= ∑ x P (x )log P (x )H(P、Q )= − ∑バツP(x )ログQ (x )H(P、Q)=−ΣバツP(バツ)ログ⁡Q(バツ) H(P,Q) = -\sum_x P(x)\log Q(x) KL (P| Q)= ∑バツP(x )ログP(x )Q (x )KL(P|Q)=ΣバツP(バツ)ログ⁡P(バツ)Q(バツ) KL(P | Q) = \sum_{x} P(x)\log {\frac{P(x)}{Q(x)}} 本能的に知りたい。 事前にどうもありがとうございました。

3
情報理論のないカルバック・ライブラーの発散
Cross Validatedを何度も探した後、私はまだ情報理論の領域外でKLの発散を理解することに近づいているとは感じていません。数学のバックグラウンドを持つ人が情報理論の説明をはるかに理解しやすいと感じるのは、かなり奇妙です。 情報理論の背景から私の理解を概説するために:有限数の結果を持つランダム変数がある場合、平均して最短のメッセージで他の誰かと結果を伝えることができる最適なエンコーディングが存在しますビット単位の画像)。結果を伝えるために必要なメッセージの予想される長さは、最適なエンコーディングが使用されている場合、で与えられます。最適以下のエンコーディングを使用する場合、KLダイバージェンスは、平均してメッセージの長さを示します。−∑αpαlog2(pα)−∑αpαlog2⁡(pα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) この説明は、KL発散の非対称性を非常に直感的に扱っているため、気に入っています。2つの異なるシステム、つまり異なる方法でロードされた2つのロードされたコインがある場合、それらは異なる最適なエンコーディングを持ちます。2番目のシステムのエンコーディングを1番目のシステムに使用することは、1番目のシステムのエンコーディングを2番目に使用することと「同等に悪い」とは思わず感じます。どうやって自分を納得させるかという思考プロセスを経ることなく、私はは、のエンコーディングを使用するときに、この「余分なメッセージの長さ」を与えます。∑αpα(log2qα−log2pα)∑αpα(log2⁡qα−log2⁡pα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})qqqppp ただし、ウィキペディアを含むKL発散のほとんどの定義は、2つの離散確率がある場合、(ビットが離散であるため離散用語ではるかにうまく機能する情報理論の解釈と比較できるように、これを離散用語で保持します)分布の場合、KLは「それらの違い」のメトリックを提供します。これらの2つの概念がどのように関連しているのかについての説明はまだありません。私は彼の推論に関する本で覚えているようです、デイブ・マッケイはデータ圧縮と推論が基本的に同じことである点について指摘しており、私の質問はこれに本当に関連していると思います。 それがそうであるかそうでないかにかかわらず、私が念頭に置いているのは、推論の問題に関する質問です。(物事を個別に保つ)、2つの放射性サンプルがあり、そのうちの1つが既知の放射能を持つ特定の物質であることがわかっている場合(これは疑わしい物理学ですが、宇宙がそのように動作するふりをしましょう)、したがって、「真の」分布を知っています測定すべき放射性クリックの既知の持つポアソニアンである必要があります。両方のサンプルの経験的分布を構築し、それらのKL発散を既知の分布と比較し、低い方がその材料である可能性が高いと言いますか?λλ\lambda 疑わしい物理学から離れて、同じ分布から2つのサンプルが取り出されていることを知っているが、それらがランダムに選択されていないことがわかっている場合、KLの発散を既知のグローバル分布と比較すると、サンプルがどのようにバイアスされているかの感覚が得られますとにかく他と比較して? 最後に、前の質問に対する答えが「はい」の場合、なぜですか?これらのことを、情報理論への(おそらくは希薄な)つながりを作らずに、統計的な観点だけから理解することは可能ですか?

2
GINIスコアと対数尤度比の関係は何ですか
私は分類木と回帰木を研究していますが、分割された場所の尺度の1つはGINIスコアです。 今では、2つの分布間の同じデータの尤度比のログがゼロである場合に、最適な分割位置を決定することに慣れています。 私の直感では、何らかの接続が必要であり、GINIは情報の数学的理論(シャノン)に優れた基礎を持たなければならないが、私はGINIを自分で理解するのに十分に理解していないと言います。 質問: 分割の尺度としてのGINI不純物スコアの「第一原理」導出とは何ですか? GINIスコアは、尤度比のログまたは他の情報理論的基礎にどのように関係しますか(シャノンエントロピー、pdf、およびクロスエントロピーはそれらの一部です)? 参照: 加重Gini基準はどのように定義されていますか? 分類および回帰木の背後にある数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (追加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity シャノンのエントロピーは次のように説明されます。 H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) これを多変量のケースに拡張すると、次のようになります。 H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件付きエントロピーは次のように定義されます。 H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(バツ|Y)=Σyp(バツ、y)ログb⁡p(バツ)p(バツ、y)または、H(バツ|Y)=H(バツ、Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

3
フィッシャーメトリックと相対エントロピーの関係
誰かがフィッシャー情報メトリックと相対エントロピー(またはKL発散)の間の次の関係を純粋に数学的な厳密な方法で証明できますか? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) ここでa=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n)、gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) p(x;a) dxg_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log p(x;a))~ p(x;a)~dxgi,jdaidaj:=∑i,jgi,jdaidajgi,jdaidaj:=∑i,jgi,jdaidajg_{i,j} \, da^i \, da^j := \sum_{i,j}g_{i,j} \, da^i \, da^j(x; a)〜dxおよびg_ {i、j} \、da ^ i \、da ^ j:= \ sum_ …

3
カルバック・ライブラーの発散の分析
次の2つの確率分布を考えてみましょう P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 0.4928202580.4928202580.492820258に等しいKullback -Leibler発散を計算しましたが、この数値が何を示しているかを一般的に知りたいですか?一般に、Kullback-Leiblerの発散は、ある確率分布が別の確率分布からどれだけ離れているかを示しています。エントロピーの用語に似ていますが、数字の面ではどういう意味ですか?結果が0.49の場合、およそ1つの分布が別の分布から50%離れていると言えますか?

1
なぜKLの発散が負でないのですか?
なぜKLの発散は非負ですか? 情報理論の観点から、私はそのような直感的な理解を持っています: xでラベル付けされた同じ要素セットで構成される2つの集団とBがあるとします。p (x )およびq (x )は、それぞれ集団AおよびBの異なる確率分布です。AAABBBxxxp(x)p(x)p(x)q(x)q(x)q(x)AAABBB 情報理論の観点から、は、アンサンブルAの要素xを記録するために必要なビットの最小量です。その結果、期待 Σ X ∈ E N S Eのm個のBのL個のE - Plog2(P(x))log2⁡(P(x))\log_{2}(P(x))xxxAAA 我々は要素記録する必要があることをどのように多くのビットを少なくともとして解釈することができる Aを平均。∑x∈ensemble−p(x)ln(p(x))∑x∈ensemble−p(x)ln⁡(p(x))\sum_{x \in ensemble}-p(x)\ln(p(x))AAA この式は平均的に必要なビットに下限を設定するため、異なる確率分布q (x )をもたらす異なるアンサンブルに対して、各要素xに与える境界は確実にビット化されません与えられるP (X )、その期待値をとる手段、Σ X ∈ E N S Eのm個のBのL個のE - P (X )LN (Q (X ))BBBq(x)q(x)q(x)xxxp(x)p(x)p(x) ∑x∈ensemble−p(x)ln(q(x))∑x∈ensemble−p(x)ln⁡(q(x))\sum_{x\in ensemble}-p(x)\ln(q(x)) この平均長さが確実に前者につながるよりも大きくなる p(x)とq(x)が異なるため、ここに は≥を入れません。∑x∈ensemblep(x)ln(p(x))ln(q(x))>0∑x∈ensemblep(x)ln⁡(p(x))ln⁡(q(x))>0\sum_{x\in ensemble }p(x)\frac{\ln(p(x))}{\ln(q(x))} > 0≥≥\gep(x)p(x)p(x)q(x)q(x)q(x) これは私の直感的な理解ですが、KLの発散が非負であることを証明する純粋に数学的な方法はありますか?問題は次のように説明できます。 所与及びQ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.