統計とビッグデータ kullback-leibler

2

pdfによるガンマ分布パラメーター化の選択と間の -Leibler発散は、[1]で与えられます。Γ(b,c)Γ(b,c)\Gamma(b,c)g(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c) = \frac{1}{\Gamma(c)}\frac{x^{c-1}}{b^c}e^{-x/b}Γ(bq,cq)Γ(bq,cq)\Gamma(b_q,c_q)Γ(bp,cp)Γ(bp,cp)\Gamma(b_p,c_p) KLGa(bq,cq;bp,cp)=(cq−1)Ψ(cq)−logbq−cq−logΓ(cq)+logΓ(cp)+cplogbp−(cp−1)(Ψ(cq)+logbq)+bqcqbpKLGa(bq,cq;bp,cp)=(cq−1)Ψ(cq)−log⁡bq−cq−log⁡Γ(cq)+log⁡Γ(cp)+cplog⁡bp−(cp−1)(Ψ(cq)+log⁡bq)+bqcqbp\begin{align} KL_{Ga}(b_q,c_q;b_p,c_p) &= (c_q-1)\Psi(c_q) - \log b_q - c_q - \log\Gamma(c_q) + \log\Gamma(c_p)\\ &\qquad+ c_p\log b_p - (c_p-1)(\Psi(c_q) + \log b_q) + \frac{b_qc_q}{b_p} \end{align} Ψ(x):=Γ′(x)/Γ(x)Ψ(x):=Γ′(x)/Γ(x)\Psi(x):= \Gamma'(x)/\Gamma(x)がディガンマ関数であると推測しています。これは派生なしで与えられます。これを導き出す参考文献は見つかりません。助けがありますか？適切なリファレンスで十分です。難しいのは、をガンマpdfに統合することです。logxlog⁡x\log x [1] WD Penny、KLダイバージェンスのNormal、Gamma、Dirichlet、およびWishart密度、www.fil.ion.ucl.ac.uk /〜wpenny / publications / densities.psで入手可能

15 kullback-leibler gamma-distribution exponential-family

3

実際にカルバック・ライブラーの発散を計算しますか？

2 p間の非類似性の尺度としてKL発散を使用しています。メートル。F 。p 。メートル。f。p。m。f。p.m.f. PPPとQQQ。 DKL（P| | Q）= ∑i = 1Nln（P私Q私）P私DKL（P||Q）=∑私=1Nln⁡（P私Q私）P私D_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i = − ∑ P（X私）l n （Q （X私）） + ∑ P（X私）l n （P（X私））=−∑P（バツ私）ln（Q（バツ私））+∑P（バツ私）ln（P（バツ私））=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) もし、我々は簡単に計算することができ、その P （X I）L N （ Q （X I）） = 0 P （X I）L N …

15 distributions distance kullback-leibler

4

KLの相違について質問がありますか？

2つの分布をKL発散と比較していますが、この尺度について読んだことによると、ある仮説を別の仮説に変換するために必要な情報量である非標準化数を返します。2つの質問があります。 a）KLの発散を定量化して、効果の大きさやR ^ 2など、より意味のある解釈を行う方法はありますか？標準化の形式はありますか？ b）Rでは、KLdiv（flexmixパッケージ）を使用する場合、数値の安定性を提供するために、espより小さいすべてのポイントを何らかの標準に設定する「esp」値（標準esp = 1e-4）を設定できます。私はさまざまなESP値で遊んでいましたが、私のデータセットでは、数字を小さくするほどKLの発散が大きくなります。何が起こっている？espが小さいほど、より多くの「実際の値」が統計の一部になるため、結果の信頼性が高まると予想されます。番号？それ以外の場合は統計を計算せず、単に結果テーブルにNAとして表示されるため、espを変更する必要があります...

14 distributions kullback-leibler information-geometry

3

Kullback-Leibler（KL）発散の最大値は何ですか

私は私のpythonコードでKL発散を使用するつもりで、このチュートリアルを手に入れました。そのチュートリアルでは、KLの発散を実装するのは非常に簡単です。 kl = (model * np.log(model/actual)).sum() 私が理解したように、確率分布modelとは、actual<= 1でなければなりません。私の質問は、kの最大限界/最大可能値は何ですか？私のコードの上限については、kl距離の可能な最大値を知る必要があります。

14 machine-learning distance kullback-leibler

2

ジェンセンシャノンダイバージェンスvsカルバックライブラーダイバージェンス？

KLダイバージェンスは対称的ではなく、厳密にメトリックと見なすことはできません。そうである場合、JS Divergenceがメトリックに必要なプロパティを満たすときに使用されるのはなぜですか？ KLダイバージェンスは使用できるが、JSダイバージェンスは使用できない、またはその逆のシナリオはありますか？

14 probability distributions kullback-leibler metric

1

特別な確率分布

場合非ゼロ値を有する確率分布が上にあるp(x)p(x)p(x)[0,+∞)[0,+∞)[0,+\infty)、どのような種類の（S）のためのp(x)p(x)p(x)の定数が存在するc>0c>0c\gt 0よう ∫∞0p(x)logp(x)(1+ϵ)p(x(1+ϵ))dx≤cϵ2∫0∞p(x)log⁡p(x)(1+ϵ)p(x(1+ϵ))dx≤cϵ2\int_0^{\infty}p(x)\log{\frac{ p(x)}{(1+\epsilon)p({x}(1+\epsilon))}}dx \leq c \epsilon^2すべてについて0<ϵ<10<ϵ<10\lt\epsilon\lt 1？上記の不等式は、実際には分布p(x)p(x)p(x)とその圧縮バージョン間のカルバック・ライブラー発散(1+ϵ)p(x(1+ϵ))(1+ϵ)p(x(1+ϵ)){(1+\epsilon)}p({x}{(1+\epsilon)})です。この不等式は指数分布、ガンマ分布、ワイブル分布に当てはまることがわかり、それがより大きなクラスの確率分布に有効かどうかを知りたいと思っています。その不平等が何を意味するのか考えていますか？

12 probability stochastic-processes kullback-leibler probability-inequalities

3

離散分布と連続分布の間にKLダイバージェンスを適用することは可能ですか？

私は数学者ではありません。KL Divergenceについてインターネットで検索しました。私が学んだことは、KLダイバージェンスは、入力分布に対してモデルの分布を近似したときに失われた情報を測定することです。これらは、2つの連続または離散分布の間で見られます。連続と離散の間、またはその逆でそれを行うことができますか？

12 distributions mathematical-statistics kullback-leibler

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

クラスター解を評価するための2つのガウス混合の間の距離

さまざまなクラスタリング手法を比較するためのクイックシミュレーションを実行していますが、現在、クラスタソリューションを評価しようとする障害にぶつかっています。私はさまざまな検証メトリックスを知っています（Rのcluster.stats（）に多くあります）が、クラスターの推定数が実際のクラスターの実際の数と等しい場合、それらが最もよく使用されると思います。元のシミュレーションでクラスターの正しい数が指定されていない場合に、クラスターソリューションのパフォーマンスを測定する機能を維持したい（つまり、4クラスターを持つようにシミュレーションされた3つのクラスターソリューションモデルデータがどれだけうまく機能するか）解決）。参考までに、クラスタは同じ共分散行列を持つようにシミュレーションされます。ガウス分布の2つの混合物間のKLダイバージェンスは実装に役立つと思いましたが、閉形式のソリューションは存在せず（Hershey and Olson（2007））、モンテカルロシミュレーションの実装は計算コストがかかり始めています。（たとえ近似であっても）実装が簡単な他の解決策はありますか？

11 clustering kullback-leibler gaussian-mixture

1

確率測度間のラドン-ニコディム微分の解釈？

私はいくつかの点で見た別のに対して一方確率測度のラドンNikodym誘導体の使用、最も顕著には、それはいくつかの任意のパラメータのモデルの確率測度の誘導体であるカルバック・ライブラー情報量、におけると実際のパラメータに関してθ 0：θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} ：これらは、パラメータ値を条件とデータポイントのスペースの両方の確率測度である場合。Pθ(D)=P(D|θ)Pθ(D)=P(D|θ)P_\theta(D)=P(D|\theta) カルバックライブラーダイバージェンス、またはより一般的には2つの確率測度の間のそのようなラドンニコディム導関数の解釈は何ですか？

11 mathematical-statistics kullback-leibler derivative measure-theory

2

2つのサンプルのカルバックライブラーダイバージェンス

2つのサンプルのカルバックライブラーダイバージェンスの数値推定を実装しようとしました。実装をデバッグするには、2つの正規分布およびからサンプルを引き出します。N(0,1)N(0,1)\mathcal N (0,1)N(1,2)N(1,2)\mathcal N (1,2) 簡単な見積もりのために、2つのヒストグラムを生成し、数値的に積分を近似しようとしました。ヒストグラムの1つのビンがゼロであるヒストグラムのこれらの部分を処理することに行き詰まり、最終的にゼロで除算するか、ゼロの対数で終わらせました。この問題をどのように処理しますか？関連する質問が頭に浮かびました。2つの異なる一様分布間のKLダイバージェンスを正確に計算する方法は？統合を両方のディストリビューションのサポートの結合に制限する必要がありますか？

10 estimation intuition kullback-leibler numerics

2

カルバック・ライブラーの発散/距離を計算する方法は？

X、Y、Zの3つのデータセットがあります。各データセットは、発生するイベントの頻度を定義します。例えば：データセットX：E1：4、E2：0、E3：10、E4：5、E5：0、E6：0など。データセットY：E1：2、E2：3、E3：7、E4： 6、E5：0、E6：0など。データセットZ：E1：0、E2：4、E3：8、E4：4、E5：1、E6：0など。 XとYの間のKLダイバージェンスを見つける必要があります。XとZの間。いくつかのイベントを見るとわかるように、0とゼロ以外の値があります。一部のイベントでは、3つのデータセットはすべて0です。誰かがこのためのKL分岐を見つけるのを手伝ってくれるとありがたいです。私は統計学者ではないので、あまり考えていません。私がオンラインで見ていたチュートリアルは、理解するには少し複雑すぎました。

10 kullback-leibler

2

仮説検定と総変動距離対カルバック・ライブラー分岐

私の研究では、次の一般的な問題に遭遇しました。同じドメイン上に2つの分布PPPとQQQがあり、それらの分布からのサンプルが多数（ただし有限）あります。サンプル独立して同一これら二つの分布のいずれかから分配される（分布が関係してもよいが：例えば、QQQの混合物であってもよいPPP。およびいくつかの他のディストリビューション）帰無仮説は、試料から来ることであるPPP、代替仮説はことですサンプルはからのものQQQです。分布PPPと知って、サンプルのテストでタイプIとタイプIIのエラーを特徴づけようとしていQQQます。特に、私はPPPと知識に加えて、もう1つのエラーを制限することに興味がありQQQます。私が求めている質問の関係についてmath.SE上の全変動距離の間にPPPとQQQ仮説検定には、私は受け入れたことの答えを受けました。その答えは理にかなっていますが、問題に関連するため、総変動距離と仮説検定の関係の背後にあるより深い意味に心を包むことができませんでした。したがって、私はこのフォーラムを利用することにしました。私の最初の質問は次のとおりです。全体の変動は、タイプIとタイプIIのエラーの確率の合計にバインドされていますか？本質的に、サンプルがいずれかの分布によって生成された可能性があるゼロ以外の確率がある限り、エラーの少なくとも1つの確率はゼロ以外でなければなりません。基本的に、仮説テスターが信号処理をどれほど行っても、間違いを犯す可能性を回避することはできません。そして、総変動はその正確な可能性を制限します。私の理解は正しいですか？タイプIとIIのエラーと基になる確率分布とQの間には、KLダイバージェンスという別の関係もあります。したがって、私の2番目の質問は次のとおりです。KLダイバージェンスバウンドは、特定の仮説検定法（対数尤度比法の周りに多く出てくるように思われる）にのみ適用できますか、それともすべての仮説検定法に一般的に適用できますか？すべての仮説検定法に適用できる場合、なぜそれが合計変動限界と非常に異なるように見えるのですか？動作は異なりますか？PPPQQQ そして私の根底にある質問は、私がどちらかのバウンドを使用する必要がある所定の一連の状況がありますか、それとも純粋に便利な問題ですか？ある拘束を使用して、他の拘束を使用して結果をいつ導出する必要がありますか？これらの質問が些細なものである場合はお詫び申し上げます。私はコンピュータサイエンティストです（つまり、これは私には空想的なパターンマッチングの問題のようです:)）。しかし、私はこの仮説テストのすべてを学び始めたばかりです。必要に応じて、質問を明確にするために最善を尽くします。

10 hypothesis-testing mathematical-statistics kullback-leibler information-theory bounds

2

ガウス単位のKL損失

私はVAEを実装しており、単純化された一変量ガウスKL発散の2つの異なる実装がオンラインであることに気付きました。当たり、元発散ここでは、ある我々は仮定した場合、当社の前単位ガウスすなわちあるμ2=0及びσ2=1、この簡素化まで KLのLO、S、S=-ログ（σ1）+σ 2 1 +μ 2 1KLloss=log(σ2σ1)+σ21+(μ1−μ2)22σ22−12KLloss=log⁡(σ2σ1)+σ12+(μ1−μ2)22σ22−12 KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2} μ2=0μ2=0\mu_2=0σ2=1σ2=1\sigma_2=1 KLloss=−1KLloss=−log(σ1)+σ21+μ212−12KLloss=−log⁡(σ1)+σ12+μ122−12 KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2} ここには、どこの混乱レストです。上記の実装でいくつかのあいまいなgithubリポジトリを見つけましたが、私がより一般的に使用しているのは次のとおりです。KLloss=−12(2log(σ1)−σ21−μ21+1)KLloss=−12(2log⁡(σ1)−σ12−μ12+1) KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1) の公式、例えばKerasのオートエンコーダチュートリアル。私の質問は、これらの2つの間に何が欠けているのですか？主な違いは、対数項に係数2を削除することと、分散を二乗しないことです。分析的に、私は後者を成功に導いてきました。助けてくれてありがとう！=−12(log(σ1)−σ1−μ21+1)=−12(log⁡(σ1)−σ1−μ12+1) =-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)

10 inference kullback-leibler autoencoders variational-bayes

1

R線形回帰のカテゴリ変数「非表示」の値

これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する： a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因（要因x2であること）に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか？たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか？これの例を他の場所（例：ここ）で見ましたが、理解できる説明は見つかりませんでした。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

タグ付けされた質問 「kullback-leibler」

タグ付けされた質問「kullback-leibler」