タグ付けされた質問 「kullback-leibler」

確率分布間の距離(または非類似度)の非対称測定。これは、対立仮説のもとでの対数尤度比の期待値として解釈される場合があります。

2
2つのガンマ分布間のKullback–Leibler発散
pdfによる ガンマ分布パラメーター化の選択と 間の -Leibler発散は、[1]で与えられます。Γ(b,c)Γ(b,c)\Gamma(b,c)g(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c) = \frac{1}{\Gamma(c)}\frac{x^{c-1}}{b^c}e^{-x/b}Γ(bq,cq)Γ(bq,cq)\Gamma(b_q,c_q)Γ(bp,cp)Γ(bp,cp)\Gamma(b_p,c_p) KLGa(bq,cq;bp,cp)=(cq−1)Ψ(cq)−logbq−cq−logΓ(cq)+logΓ(cp)+cplogbp−(cp−1)(Ψ(cq)+logbq)+bqcqbpKLGa(bq,cq;bp,cp)=(cq−1)Ψ(cq)−log⁡bq−cq−log⁡Γ(cq)+log⁡Γ(cp)+cplog⁡bp−(cp−1)(Ψ(cq)+log⁡bq)+bqcqbp\begin{align} KL_{Ga}(b_q,c_q;b_p,c_p) &= (c_q-1)\Psi(c_q) - \log b_q - c_q - \log\Gamma(c_q) + \log\Gamma(c_p)\\ &\qquad+ c_p\log b_p - (c_p-1)(\Psi(c_q) + \log b_q) + \frac{b_qc_q}{b_p} \end{align} Ψ(x):=Γ′(x)/Γ(x)Ψ(x):=Γ′(x)/Γ(x)\Psi(x):= \Gamma'(x)/\Gamma(x)がディガンマ関数であると推測しています。 これは派生なしで与えられます。これを導き出す参考文献は見つかりません。助けがありますか?適切なリファレンスで十分です。難しいのは、をガンマpdfに統合することです。logxlog⁡x\log x [1] WD Penny、KLダイバージェンスのNormal、Gamma、Dirichlet、およびWishart密度、www.fil.ion.ucl.ac.uk /〜wpenny / publications / densities.psで入手可能

3
実際にカルバック・ライブラーの発散を計算しますか?
2 p間の非類似性の尺度としてKL発散を使用しています。メートル。F 。p 。メートル。f。p。m。f。p.m.f. PPPとQQQ。 DKL(P| | Q)= ∑i = 1Nln(P私Q私)P私DKL(P||Q)=∑私=1Nln⁡(P私Q私)P私D_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i = − ∑ P(X私)l n (Q (X私)) + ∑ P(X私)l n (P(X私))=−∑P(バツ私)ln(Q(バツ私))+∑P(バツ私)ln(P(バツ私))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) もし 、我々は簡単に計算することができ、その P (X I)L N ( Q (X I)) = 0 P (X I)L N …

4
KLの相違について質問がありますか?
2つの分布をKL発散と比較していますが、この尺度について読んだことによると、ある仮説を別の仮説に変換するために必要な情報量である非標準化数を返します。2つの質問があります。 a)KLの発散を定量化して、効果の大きさやR ^ 2など、より意味のある解釈を行う方法はありますか?標準化の形式はありますか? b)Rでは、KLdiv(flexmixパッケージ)を使用する場合、数値の安定性を提供するために、espより小さいすべてのポイントを何らかの標準に設定する「esp」値(標準esp = 1e-4)を設定できます。私はさまざまなESP値で遊んでいましたが、私のデータセットでは、数字を小さくするほどKLの発散が大きくなります。何が起こっている?espが小さいほど、より多くの「実際の値」が統計の一部になるため、結果の信頼性が高まると予想されます。番号?それ以外の場合は統計を計算せず、単に結果テーブルにNAとして表示されるため、espを変更する必要があります...

3
Kullback-Leibler(KL)発散の最大値は何ですか
私は私のpythonコードでKL発散を使用するつもりで、このチュートリアルを手に入れました。 そのチュートリアルでは、KLの発散を実装するのは非常に簡単です。 kl = (model * np.log(model/actual)).sum() 私が理解したように、確率分布modelとは、actual<= 1でなければなりません。 私の質問は、kの最大限界/最大可能値は何ですか?私のコードの上限については、kl距離の可能な最大値を知る必要があります。

2
ジェンセンシャノンダイバージェンスvsカルバックライブラーダイバージェンス?
KLダイバージェンスは対称的ではなく、厳密にメトリックと見なすことはできません。そうである場合、JS Divergenceがメトリックに必要なプロパティを満たすときに使用されるのはなぜですか? KLダイバージェンスは使用できるが、JSダイバージェンスは使用できない、またはその逆のシナリオはありますか?

1
特別な確率分布
場合非ゼロ値を有する確率分布が上にあるp(x)p(x)p(x)[0,+∞)[0,+∞)[0,+\infty)、どのような種類の(S)のためのp(x)p(x)p(x)の定数が存在するc>0c>0c\gt 0よう ∫∞0p(x)logp(x)(1+ϵ)p(x(1+ϵ))dx≤cϵ2∫0∞p(x)log⁡p(x)(1+ϵ)p(x(1+ϵ))dx≤cϵ2\int_0^{\infty}p(x)\log{\frac{ p(x)}{(1+\epsilon)p({x}(1+\epsilon))}}dx \leq c \epsilon^2すべてについて0<ϵ<10<ϵ<10\lt\epsilon\lt 1? 上記の不等式は、実際には分布p(x)p(x)p(x)とその圧縮バージョン間のカルバック・ライブラー発散(1+ϵ)p(x(1+ϵ))(1+ϵ)p(x(1+ϵ)){(1+\epsilon)}p({x}{(1+\epsilon)})です。この不等式は指数分布、ガンマ分布、ワイブル分布に当てはまることがわかり、それがより大きなクラスの確率分布に有効かどうかを知りたいと思っています。 その不平等が何を意味するのか考えていますか?

3
離散分布と連続分布の間にKLダイバージェンスを適用することは可能ですか?
私は数学者ではありません。KL Divergenceについてインターネットで検索しました。私が学んだことは、KLダイバージェンスは、入力分布に対してモデルの分布を近似したときに失われた情報を測定することです。これらは、2つの連続または離散分布の間で見られます。連続と離散の間、またはその逆でそれを行うことができますか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
クラスター解を評価するための2つのガウス混合の間の距離
さまざまなクラスタリング手法を比較するためのクイックシミュレーションを実行していますが、現在、クラスタソリューションを評価しようとする障害にぶつかっています。 私はさまざまな検証メトリックスを知っています(Rのcluster.stats()に多くあります)が、クラスターの推定数が実際のクラスターの実際の数と等しい場合、それらが最もよく使用されると思います。元のシミュレーションでクラスターの正しい数が指定されていない場合に、クラスターソリューションのパフォーマンスを測定する機能を維持したい(つまり、4クラスターを持つようにシミュレーションされた3つのクラスターソリューションモデルデータがどれだけうまく機能するか)解決)。参考までに、クラスタは同じ共分散行列を持つようにシミュレーションされます。 ガウス分布の2つの混合物間のKLダイバージェンスは実装に役立つと思いましたが、閉形式のソリューションは存在せず(Hershey and Olson(2007))、モンテカルロシミュレーションの実装は計算コストがかかり始めています。 (たとえ近似であっても)実装が簡単な他の解決策はありますか?

1
確率測度間のラドン-ニコディム微分の解釈?
私はいくつかの点で見た別のに対して一方確率測度のラドンNikodym誘導体の使用、最も顕著には、それはいくつかの任意のパラメータのモデルの確率測度の誘導体であるカルバック・ライブラー情報量、におけると実際のパラメータに関してθ 0:θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} :これらは、パラメータ値を条件とデータポイントのスペースの両方の確率測度である場合。Pθ(D)=P(D|θ)Pθ(D)=P(D|θ)P_\theta(D)=P(D|\theta) カルバックライブラーダイバージェンス、またはより一般的には2つの確率測度の間のそのようなラドンニコディム導関数の解釈は何ですか?

2
2つのサンプルのカルバックライブラーダイバージェンス
2つのサンプルのカルバックライブラーダイバージェンスの数値推定を実装しようとしました。実装をデバッグするには、2つの正規分布およびからサンプルを引き出します。N(0,1)N(0,1)\mathcal N (0,1)N(1,2)N(1,2)\mathcal N (1,2) 簡単な見積もりの​​ために、2つのヒストグラムを生成し、数値的に積分を近似しようとしました。ヒストグラムの1つのビンがゼロであるヒストグラムのこれらの部分を処理することに行き詰まり、最終的にゼロで除算するか、ゼロの対数で終わらせました。この問題をどのように処理しますか? 関連する質問が頭に浮かびました。2つの異なる一様分布間のKLダイバージェンスを正確に計算する方法は?統合を両方のディストリビューションのサポートの結合に制限する必要がありますか?

2
カルバック・ライブラーの発散/距離を計算する方法は?
X、Y、Zの3つのデータセットがあります。各データセットは、発生するイベントの頻度を定義します。例えば: データセットX:E1:4、E2:0、E3:10、E4:5、E5:0、E6:0など。 データセットY:E1:2、E2:3、E3:7、E4: 6、E5:0、E6:0など。 データセットZ:E1:0、E2:4、E3:8、E4:4、E5:1、E6:0など。 XとYの間のKLダイバージェンスを見つける必要があります。XとZの間。いくつかのイベントを見るとわかるように、0とゼロ以外の値があります。一部のイベントでは、3つのデータセットはすべて0です。 誰かがこのためのKL分岐を見つけるのを手伝ってくれるとありがたいです。私は統計学者ではないので、あまり考えていません。私がオンラインで見ていたチュートリアルは、理解するには少し複雑すぎました。

2
仮説検定と総変動距離対カルバック・ライブラー分岐
私の研究では、次の一般的な問題に遭遇しました。同じドメイン上に2つの分布PPPとQQQがあり、それらの分布からのサンプルが多数(ただし有限)あります。サンプル独立して同一これら二つの分布のいずれかから分配される(分布が関係してもよいが:例えば、QQQの混合物であってもよいPPP。およびいくつかの他のディストリビューション)帰無仮説は、試料から来ることであるPPP、代替仮説はことですサンプルはからのものQQQです。 分布PPPと知って、サンプルのテストでタイプIとタイプIIのエラーを特徴づけようとしていQQQます。特に、私はPPPと知識に加えて、もう1つのエラーを制限することに興味がありQQQます。 私が求めている質問の関係についてmath.SE上の全変動距離の間にPPPとQQQ仮説検定には、私は受け入れたことの答えを受けました。その答えは理にかなっていますが、問題に関連するため、総変動距離と仮説検定の関係の背後にあるより深い意味に心を包むことができませんでした。したがって、私はこのフォーラムを利用することにしました。 私の最初の質問は次のとおりです。全体の変動は、タイプIとタイプIIのエラーの確率の合計にバインドされていますか?本質的に、サンプルがいずれかの分布によって生成された可能性があるゼロ以外の確率がある限り、エラーの少なくとも1つの確率はゼロ以外でなければなりません。基本的に、仮説テスターが信号処理をどれほど行っても、間違いを犯す可能性を回避することはできません。そして、総変動はその正確な可能性を制限します。私の理解は正しいですか? タイプIとIIのエラーと基になる確率分布とQの間には、KLダイバージェンスという別の関係もあります。したがって、私の2番目の質問は次のとおりです。KLダイバージェンスバウンドは、特定の仮説検定法(対数尤度比法の周りに多く出てくるように思われる)にのみ適用できますか、それともすべての仮説検定法に一般的に適用できますか?すべての仮説検定法に適用できる場合、なぜそれが合計変動限界と非常に異なるように見えるのですか?動作は異なりますか?PPPQQQ そして私の根底にある質問は、私がどちらかのバウンドを使用する必要がある所定の一連の状況がありますか、それとも純粋に便利な問題ですか?ある拘束を使用して、他の拘束を使用して結果をいつ導出する必要がありますか? これらの質問が些細なものである場合はお詫び申し上げます。私はコンピュータサイエンティストです(つまり、これは私には空想的なパターンマッチングの問題のようです:))。しかし、私はこの仮説テストのすべてを学び始めたばかりです。必要に応じて、質問を明確にするために最善を尽くします。

2
ガウス単位のKL損失
私はVAEを実装しており、単純化された一変量ガウスKL発散の2つの異なる実装がオンラインであることに気付きました。当たり、元発散ここでは、ある 我々は仮定した場合、当社の前単位ガウスすなわちあるμ2=0及びσ2=1、この簡素化まで KLのLO、S、S=-ログ(σ1)+σ 2 1 +μ 2 1KLloss=log(σ2σ1)+σ21+(μ1−μ2)22σ22−12KLloss=log⁡(σ2σ1)+σ12+(μ1−μ2)22σ22−12 KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2} μ2=0μ2=0\mu_2=0σ2=1σ2=1\sigma_2=1 KLloss=−1KLloss=−log(σ1)+σ21+μ212−12KLloss=−log⁡(σ1)+σ12+μ122−12 KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2} ここには、どこの混乱レストです。上記の実装でいくつかのあいまいなgithubリポジトリを見つけましたが、私がより一般的に使用しているのは次のとおりです。KLloss=−12(2log(σ1)−σ21−μ21+1)KLloss=−12(2log⁡(σ1)−σ12−μ12+1) KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1) の公式、例えばKerasのオートエンコーダチュートリアル。私の質問は、これらの2つの間に何が欠けているのですか?主な違いは、対数項に係数2を削除することと、分散を二乗しないことです。分析的に、私は後者を成功に導いてきました。助けてくれてありがとう!=−12(log(σ1)−σ1−μ21+1)=−12(log⁡(σ1)−σ1−μ12+1) =-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.