タグ付けされた質問 「expectation-maximization」

欠落データがある場合の最尤推定によく使用される最適化アルゴリズム。


3
繰り返し観測の数によってサンプリングされる母集団のサイズを推定する
5,000万個のユニークなものの人口があり、1,000万個のサンプル(交換)を取得したとします...最初のグラフは、同じ「もの」をサンプリングする回数を示しています。母集団は私のサンプルよりも大きいです。 ただし、2番目のグラフが示すように、人口が1,000万個で、1,000万個のサンプルを採取する場合、同じものを繰り返しサンプリングする頻度が高くなります。 私の質問は-観測の頻度表(棒グラフのデータ)から、未知の場合に元の人口サイズの推定値を取得することは可能ですか?そして、Rでこれを実行する方法へのポインタを提供できれば素晴らしいと思います。

4
サンプルから2つの母集団を分離する
1つのデータセットから2つのグループの値を分離しようとしています。母集団の1つは正規分布しており、サンプルのサイズの少なくとも半分であると想定できます。2番目の値は、最初の値よりも低いか高いです(分布は不明です)。私がやろうとしているのは、通常の分布人口を他の人口から囲む上限と下限を見つけることです。 私の仮定は出発点を提供します: サンプルの四分位範囲内のすべてのポイントは、正規分布の母集団からのものです。 私は、それらが通常の分布の母集団の3 st.devに収まらないまで、残りのサンプルからそれらを取得する外れ値をテストしようとしています。これは理想的ではありませんが、十分に妥当な結果が得られるようです。 私の仮定は統計的に正しいですか?これについて行くためのより良い方法は何でしょうか? 誰かタグを修正してください。

2
MLEは常に、データの基礎となるPDFを知っていることを意味し、EMは知らないことを意味しますか?
MLE(最大尤度推定)と、EM(期待最大化)とのリンク(ある場合)について明確にしたいいくつかの簡単な概念的な質問があります。 私が理解しているように、誰かが「私たちはMLEを使用しました」と言ったら、それは自動的にデータのPDFの明示的なモデルを持っていることを意味しますか?これに対する答えはイエスであるように思えます。別の言い方をすれば、誰かがいつでも「MLE」と言ったら、どんなPDFを想定しているのかを尋ねるのは公平です。これは正しいでしょうか? 最後に、EMでの私の理解は、EMでは、データの基礎となるPDFを実際に知らない、または知る必要がないということです。これは私の理解です。 ありがとうございました。

2
ウィルクスの定理との有限混合でガウシアンの数を見つけますか?
一連の独立した同一分布の単変量観測と、生成方法に関する2つの仮説があるとします。xxxxxx H0H0H_0: は、平均と分散が不明な単一のガウス分布から描画されます。xxx HAHAH_A: は、平均、分散、混合係数が不明な2つのガウス分布の混合物から描画されます。xxx 私が正しく理解している場合、これらはネストされたモデルです表すモデルは、2つのガウスのパラメーターが同一になるように制約するか、2つのガウスの1つについて混合係数がゼロになるように制約する場合、記述できるためです。 H0H0H_0HAHAH_A したがって、EMアルゴリズムを使用してのパラメーターを推定し、ウィルクスの定理を使用してのデータの可能性がのデータの可能性よりも大幅に高いかどうかを判断できるように思われ。EMアルゴリズムがここで最大の可能性に収束するという仮定には多少の信頼がありますが、それは私が喜んで作成するものです。HAHAH_AHAHAH_AH0H0H_0 モンテカルロシミュレーションでこれを試しましたは(2番目のガウス分布と混合パラメーターの平均と分散)よりも3自由度が高いと仮定しています。からのデータをシミュレートすると、実質的に不均一で小さなP値に富んだP値の分布が得られました。(EMが真の最大尤度に収束していなかった場合、正反対が予想されます。)このバイアスを生み出しているウィルクスの定理の私の適用の何が問題になっていますか?HAHAH_AH0H0H_0H0H0H_0

2
隠れマルコフモデルにおける初期遷移確率の重要性
隠れマルコフモデルで遷移確率に特定の初期値を与えることの利点は何ですか?最終的にシステムがそれらを学習するので、ランダムな値以外の値を指定する意味は何ですか?根底にあるアルゴリズムはBaum–Welchなどの違いをもたらしますか? 初めに遷移確率を非常に正確に知っており、私の主な目的が隠れた状態から観測までの出力確率を予測することである場合、何をアドバイスされますか?

1
EMアルゴリズムを使用して、ゼロ膨張ポアソンモデルの潜在変数定式化のMLEをどのように計算しますか?
ゼロ膨張ポアソン回帰モデルは、サンプルに対してによって 定義され そしてさらに、パラメーターおよび満たすと仮定しますYは、iが = { 0の確率でのp I + (1 - P I)E - λ I kの確率で(1 - P I)E - λ I、λはk個のI / Kを!λ = (λ 1、... 、λ N)P =(y1,…,yn)(y1,…,yn)(y_1,\ldots,y_n)Yi={0kwith probability pi+(1−pi)e−λiwith probability (1−pi)e−λiλki/k!Yi={0with probability pi+(1−pi)e−λikwith probability (1−pi)e−λiλik/k! Y_i = \begin{cases} 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ k & \text{with …

1
行列を正定にする方法は?
次の因子分析モデルにEMアルゴリズムを実装しようとしています。 Wj= μ + B aj+ ejにとってj = 1 、… 、nWj=μ+Baj+ejforj=1,…,nW_j = \mu+B a_j+e_j \quad\text{for}\quad j=1,\ldots,n ここで、はp次元のランダムベクトル、は潜在変数のq次元ベクトル、はパラメーターのpxq行列です。a j BWjWjW_jajaja_jBBB モデルに使用される他の仮定の結果として、私が知っている分散共分散行列誤差項のある、 = DIAG(、、...、)。D E J D σ 2 1 σ 2 2 σ 2 PWj〜N(μ 、B B』+ D )Wj∼N(μ,BB′+D)W_j\sim N(\mu, BB'+D)DDDejeje_jDDDσ21σ12\sigma_1^2σ22σ22\sigma_2^2σ2pσp2\sigma_p^2 EMアルゴリズムが機能するために、および行列の推定を含むドーム反復を行っています。これらの反復中に、および新しい推定を使用して、各反復で逆を計算しています。残念ながら、反復の過程では正定性を失います(ただし、これは分散共分散行列であるため、そうするべきではありません)。この状況は、アルゴリズムの収束を台無しにします。私の質問は:D B B ′ + D B D B B …


1
なぜEMとMLEでの勾配降下法を使用する必要があるのですか
数学的には、期待値最大化(EM)の式とアルゴリズムは混合モデルの方が単純であることがよくありますが、EMで解決できるほとんどすべて(すべてではないにしても)はMLEでも解決できるようです(たとえば、 Newton-Raphson法(閉じていない式の場合)。 しかし、文献では、他の方法よりもEMが好まれているようです(たとえば、勾配降下法によるLLの最小化を含む)。それは、これらのモデルが単純であるためですか?それとも他の理由ですか?

3
HMMフィッティングにおけるMLEとBaum Welchの違い
ではこの人気の質問、高いupvoted答えはMLEとバウムウェルチは、HMMのフィッティングに分けることができます。 トレーニングの問題には、次の3つのアルゴリズムを使用できます。MLE(最尤推定)、ビタビトレーニング(ビタビデコードと混同しないでください)、バウムウェルチ=前方後方アルゴリズム しかし、ウィキペディアでは、それは言います Baum–Welchアルゴリズムは、よく知られたEMアルゴリズムを使用して、パラメーターの最尤推定値を見つけます。 それでは、MLEとBaum–Welchアルゴリズムの関係は何ですか? 私の試み:Baum–Welchアルゴリズムの目的は可能性を最大化することですが、最適化を解決するために特殊なアルゴリズム(EM)を使用します。勾配の適正など、他の方法を使用することで、可能性を最大化できます。これが、答えが2つのアルゴリズムを分離する理由です。 私は正しいですか、誰かが私を明確にするのを手伝ってくれる?

2
紙からの期待の最大化に役立つ:事前配布を含める方法?
質問は、「放射輸送-拡散結合モデルを使用した拡散光トモグラフィーにおける画像再構成」というタイトルの論文に基づいています。 リンクをダウンロード 著者は、未知のベクトルスパース正則化を使用してEMアルゴリズムを適用し、画像のピクセルを推定します。モデルは、l1l1l_1μμ\mu y=Aμ+e(1)(1)y=Aμ+ey=A\mu + e \tag{1} 推定はEq(8)で次のように与えられます μ^=argmaxlnp(y|μ)+γlnp(μ)(2)(2)μ^=arg⁡maxln⁡p(y|μ)+γln⁡p(μ)\hat{\mu} = \arg max {\ln p(y|\mu) + \gamma \ln p(\mu)} \tag{2} 私の場合、私はを長さフィルターと見なし、はフィルターを表すベクトルです。そう、μμ\muLLLμμ\mathbf{\mu}L×1L×1L \times 1 モデルはように書き直すことができますy(n)=μTa(n)+v(n)(3)(3)y(n)=μTa(n)+v(n)y(n) = \mathbf{\mu^T}a(n) + v(n) \tag{3} 質問:問題の定式化:(n by 1)は観測されていない入力であり、は未知の分散付加ノイズを伴うゼロ平均です。MLEソリューションは期待値最大化(EM)に基づいています。μ(n)μ(n){\mu(n)}{e(n)}{e(n)}\{e(n)\}σ2eσe2\sigma^2_e 論文ではEq(19)は関数です-完全な対数尤度ですが、私の場合、完全な対数尤度式に分布を含める方法を理解できません。 AAAA,μA,μA, \mu 以前の分布を含め、 EMを使用した完全な対数尤度はどうなりますか?yyy

1
MCMC / EMの制限?MCMC over EM?
私は現在、RからJAGSを使用して階層ベイジアンモデルを学習しており、Python(「ベイカーのハッカー手法」)を使用してpymcも学習しています。 私はこの投稿から直感を得ることができます。「結局、あなたが知りたいと思った複雑な分布から独立したサンプルをなんとかしてなんとかして管理できたかのように見える数の山になってしまいます。」それは私が条件付き確率を与えることができるようなものであり、それから私は条件付き確率に基づいて無記憶プロセスを生成することができます。プロセスを十分に長く生成すると、同時確率が収束し、生成されたシーケンスの最後に山の数をとることができます。複雑な共同分布から独立したサンプルを取得するのと同じです。たとえば、ヒストグラムを作成して、分布関数を近似することができます。 それから私の問題は、MCMCが特定のモデルに収束するかどうかを証明する必要がありますか?私は以前にGMMとLDA(グラフィカルモデル)のEMアルゴリズムを学んだので、これを知ってやる気があります。収束するかどうかを証明せずにMCMCアルゴリズムのみを使用できる場合、EMよりもはるかに多くの時間を節約できます。予想対数尤度関数を計算する必要があるため(事後確率を計算する必要があります)、次に予想対数尤度を最大化します。これは、MCMCよりも明らかに厄介です(条件付き確率を定式化する必要があるだけです)。 また、尤度関数と事前分布が共役であるかどうかも疑問に思っています。それは、MCMCが収束する必要があることを意味しますか?MCMCとEMの制限について疑問に思っています。

1
EMアルゴリズムはガウス混合モデルのパラメーターを一貫して推定しますか?
私は混合ガウスモデルを研究していて、この質問を自分で考えます。 KKKμk∈Rpμk∈Rp\mu_k\in\mathbb{R}^p1≤k≤K1≤k≤K1\leq k\leq KΣΣ\SigmaΣΣ\Sigma1/K1/K1/K KKKμk∈Rpμk∈Rp\mu_k\in\mathbb{R}^p1≤k≤K1≤k≤K1\leq k\leq KΣΣ\Sigma μkμk\mu_kΣΣ\Sigman→∞n→∞n\rightarrow\inftyμkμk\mu_kΣΣ\Sigma

1
2変量混合分布を使用したEMアルゴリズムからの収束
与えられたデータと部分的に観測されたデータzのセットが与えられた場合の最尤推定量を見つけたい混合モデルがあります。Iは、Eステップ(の期待値計算両方実装しているZ所与のxと現在のパラメータθ kは、予想される所定の負の対数尤度最小にするために)、およびM-工程Zを。xxxzzzzzzxxxθkθk\theta^kzzz 私が理解しているように、最大​​尤度は反復ごとに増加しています。つまり、負の対数尤度は反復ごとに減少する必要がありますか?ただし、繰り返しますが、アルゴリズムは実際に負の対数尤度の値を減らしません。代わりに、減少と増加の両方が考えられます。たとえば、これは収束までの負の対数尤度の値でした。 ここに誤解したことがありますか? また、シミュレートされたデータの場合、真の潜在的な(観測されていない)変数の最尤を実行すると、ほぼ完全に適合し、プログラミングエラーがないことを示します。EMアルゴリズムの場合、特にパラメーターの特定のサブセット(分類変数の比率など)の場合、明らかに次善の解に収束することがよくあります。アルゴリズムが局所的な最小点または定常点に収束する可能性があることはよく知られています。従来の検索ヒューリスティックまたは同様に、グローバルな最小値(または最大値)を見つける可能性を高めるための検索があります。この特定の問題については、2変量の混合のうち2つの分布のいずれかが確率1の値を取るため、多くのミス分類があると思います(真の寿命は、ここで、 zはいずれかの分布に属していることを示します。インディケータ zはもちろんデータセットで打ち切られます。 T=zT0+(1−z)∞T=zT0+(1−z)∞T=z T_0 + (1-z)\inftyzzzzzz 理論的なソリューション(最適に近いはず)から始めるときの2番目の数値を追加しました。ただし、ご覧のとおり、可能性とパラメーターは、このソリューションから明らかに劣っているソリューションに分岐しています。 xi=(ti,δi,Li,τi,zi)xi=(ti,δi,Li,τi,zi)\mathbf{x_i}=(t_i,\delta_i,L_i,\tau_i,z_i)titit_iiiiδiδi\delta_iLiLiL_iτiτi\tau_iziziz_i観測値が属する母集団の指標です(その2変量は0と1を考慮するだけでよいため)。 z=1z=1z=1fz(t)=f(t|z=1)fz(t)=f(t|z=1)f_z(t)=f(t|z=1)Sz(t)=S(t|z=1)Sz(t)=S(t|z=1)S_z(t)=S(t|z=1)z=0z=0z=0tttinfinf\inff(t|z=0)=0f(t|z=0)=0f(t|z=0)=0S(t|z=0)=1S(t|z=0)=1S(t|z=0)=1 f(t)=∑1i=0pif(t|z=i)=pf(t|z=1)f(t)=∑i=01pif(t|z=i)=pf(t|z=1)f(t) = \sum_{i=0}^{1}p_if(t|z=i) = pf(t|z=1)および S(t)=1−p+pSz(t)S(t)=1−p+pSz(t)S(t) = 1 - p + pS_z(t) 可能性の一般的な形式を定義します。 L(θ;xi)=Πif(ti;θ)δiS(ti;θ)1−δiS(Li)τiL(θ;xi)=Πif(ti;θ)δiS(ti;θ)1−δiS(Li)τi L(\theta;\mathbf{x_i}) = \Pi_i \frac{f(t_i;\theta)^{\delta_i}S(t_i;\theta)^{1-\delta_i}}{S(L_i)^{\tau_i}} 現在、は場合に部分的にのみ観測され、それ以外の場合は不明です。完全な可能性はzzzδ=1δ=1\delta=1 L(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1−p)(1−zi)(pSz(ti;θ))zi)1−δi((1−p)(1−zi)(pSz(Li;θ))zi)τiL(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1−p)(1−zi)(pSz(ti;θ))zi)1−δi((1−p)(1−zi)(pSz(Li;θ))zi)τi L(\theta,p;\mathbf{x_i}) = \Pi_i \frac{\big((p f_z(t_i;\theta))^{z_i}\big)^{\delta_i}\big((1-p)^{(1-z_i)}(p S_z(t_i;\theta))^{z_i}\big)^{1-\delta_i}}{\big((1-p)^{(1-z_i)}(p S_z(L_i;\theta))^{z_i}\big)^{\tau_i}} ここで、は対応する分布の重みです(おそらく、いくつかの共変量といくつかのリンク関数によってそれぞれの係数に関連付けられています)。ほとんどの文献では、これは次の対数尤度に簡略化されていますppp ∑(ziln(p)+(1−p)ln(1−p)−τi(ziln(p)+(1−zi)ln(1−p))+δizifz(ti;θ)+(1−δi)ziSz(ti;θ)−τiSz(Li;θ))∑(ziln⁡(p)+(1−p)ln⁡(1−p)−τi(ziln⁡(p)+(1−zi)ln⁡(1−p))+δizifz(ti;θ)+(1−δi)ziSz(ti;θ)−τiSz(Li;θ))\sum \Big( z_i \ln(p) + (1-p) \ln(1-p) - …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.