タグ付けされた質問 「expectation-maximization」

欠落データがある場合の最尤推定によく使用される最適化アルゴリズム。

1
EMアルゴリズムを反復する必要があるのはなぜですか?
あなたが持つ人口があるとし確率変数とそれぞれ、ユニットをX I〜ポアソン(λ )。X i > 0であるすべてのユニットについて、n = N − n 0の値を観察します。λの推定値が必要です。NNNXi∼Poisson(λ)Xi∼Poisson(λ)X_i \sim \text{Poisson}(\lambda)n=N−n0n=N−n0n = N-n_0Xi>0Xi>0X_i > 0λλ\lambda モーメントの方法と条件付き最尤法で答えを得る方法はありますが、EMアルゴリズムを試したかったのです。私は、EMアルゴリズムがあることをもらう -1添字は、アルゴリズムの前の反復からの値を示し、Kはパラメータに対して一定であるが。(私は実際と思いnは括弧内画分には、あるべきN+1;別の時間のための質問を、それは正確でいないようです)。Q(λ−1,λ)=λ(n+nexp(λ−1)−1)+log(λ)∑i=1nxi+K,Q(λ−1,λ)=λ(n+nexp(λ−1)−1)+log⁡(λ)∑i=1nxi+K, Q\left(\lambda_{-1}, \lambda\right) = \lambda \left(n + \frac{n}{\text{exp}(\lambda_{-1}) - 1}\right) + \log(\lambda)\sum_{i=1}^n{x_i} + K, −1−1-1KKKnnnn+1n+1n+1 これを具体的にするために、、∑ x i = 20と仮定します。もちろん、Nとn 0は観測されておらず、λが推定されます。n=10n=10n=10∑xi=20∑xi=20\sum{x_i} = 20NNNn0n0n_0λλ\lambda 次の関数を繰り返して、前の反復の最大値を差し込むと、正しい答えに到達します(CML、MOM、および簡単なシミュレーションによって検証されます)。 EmFunc <- function(lambda, lambda0){ -lambda * (10 + …

2
EMアルゴリズムの練習問題
これは中間試験の練習問題です。問題はEMアルゴリズムの例です。(f)の部分で困っています。(a)から(e)までのパーツをリストアップして、前に間違えた場合に備えて完成させます。 ましょレートを持つ独立した指数確率変数もθ。残念ながら、実際のX値は観測されず、X値が特定の間隔内にあるかどうかのみが観測されます。ましょうG 1 、J = 1 { X J &lt; 1 }、G 2 、J = 1 { 1 &lt; X J &lt; 2 }、及びG 3 、J = 1 {X1,…,XnX1,…,XnX_1,\ldots,X_nθθ\thetaXXXXXXG1j=1{Xj&lt;1}G1j=1{Xj&lt;1}G_{1j} = \mathbb{1}\left\{X_j < 1\right\}G2j=1{1&lt;Xj&lt;2}G2j=1{1&lt;Xj&lt;2}G_{2j} = \mathbb{1}\left\{1< X_j<2\right\} (j=1、…、nの場合)。観測されたデータは( G 1 j、 G 2 j、 G 3 j)で構成されています。G3j=1{Xj&gt;2}G3j=1{Xj&gt;2}G_{3j} = \mathbb{1}\left\{X_j > 2\right\}j=1,…,nj=1,…,nj=1,\ldots,n(G1j,G2j,G3j)(G1j,G2j,G3j)(G_{1j},G_{2j},G_{3j}) …

1
GPSベースのレポートから未知の数の実世界の場所を特定する
いくつかのGPSベースのレポートから実際の位置(feスピードカム)を特定するソフトウェアの開発に取り組んでいます。場所を報告するとき、ユーザーは運転しているので、報告は非常に不正確です。その問題を解決するには、同じ場所に関するレポートをクラスター化し、平均を計算する必要があります。 私の質問は、これらのレポートをクラスター化する方法についてです。期待値最大化アルゴリズムとk平均クラスタリングについて読みましたが、理解したとおり、実際の位置の数を事前に決定する必要があります。 実際の場所の正確な数を必要とせず、代わりにいくつかのエッジ条件を使用する他のアルゴリズムはありますか? レポートには、経度、緯度、および精度(メートル単位)が含まれています。重複を識別するために使用できる名前などはありません。 別の障害は、それが一般的であり、実際の場所のレポートが1つしかないことです。そのため、外れ値と適切なデータを区別するのが難しくなっています。

2
レコードのリンクにEMアルゴリズムを使用する
2つのデータセットのレコードを名、姓、および誕生年でリンクすることに興味があります。これはEMアルゴリズムで実行できますか? 例として、1番目のレコードとして、Carl McCarthy、1967を考えます。2番目のデータセット内のすべてのレコードを検索し、名とカールの間のjaro-winkler距離と姓とマッカーシーの間のjaro-winkler距離を割り当てます。これらの距離は、誕生年の間の距離と同様に確率的です。これら3つの確率(乗算?平均?)を1に結合します。 次に、決定ルールの部分です。すべての確率を最高から最低にランク付けしましょう。まず、P(最初のヒットは一致)&gt; =しきい値が必要です。次に、P(最初のヒットが一致)/ P(2番目のヒットが一致)&gt; = P(2番目のヒットが一致)が存在する場合のしきい値も必要です。3つ目は、この2番目のデータセットの最初のヒットが、1番目のデータセットの19人のカールマッカーシーと1人以下で一致することです。 これらのしきい値はどのように決定されますか? 私はStataやPerlでのアプローチを好みます。 たとえば、次を参照してください。 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf (それでも、理由と方法、および入力と出力が何であるか、および仮定とそれらがどれほど制限的であるかについては、完全には理解していません)。

1
常習者設定のMCMC
私は、MCMCが使用されている頻出主義の設定におけるさまざまな問題を理解しようと努めています。MCMC(またはモンテカルロ)がGLMMのフィッティングや、おそらくモンテカルロEMアルゴリズムで使用されることを知っています。MCMCが使用されている場合、より頻繁な問題はありますか?

2
名前EMアルゴリズムにEがあるのはなぜですか?
Eステップがアルゴリズムのどこで発生するかを理解しています(以下の数学セクションで説明されています)。私の考えでは、アルゴリズムの重要な工夫は、対数尤度の下限を作成するためのジェンセンの不等式の使用です。その意味でExpectationは、対数尤度を再定義してJensenの不等式(つまり、凹関数の場合はに適合するように単純に行われます。E(f(x))&lt;f(E(x))E(f(x))&lt;f(E(x))E(f(x)) < f(E(x)) Eステップがいわゆると呼ばれる理由はありますか?期待していること(意味はありますか?単に予期せずに発生するのではなく、期待が中心的である理由の背後にある直感が欠けているように感じますジェンセンの不等式の使用。p(xi,zi|θ)p(xi,zi|θ)p(x_i, z_i| \theta) 編集:チュートリアルは言う: 「Eステップ」という名前は、通常、完了に対する確率分布を明示的に形成する必要はなく、これらの完了に対して「期待される」十分な統計を計算するだけでよいという事実に由来しています。 「通常、完了に対する確率分布を明示的に形成する必要がない」とはどういう意味ですか?その確率分布はどのようになりますか? 付録:EMアルゴリズムのEステップ l l= ∑私ログp (x私; θ )= ∑私ログΣz私p (x私、z私; θ )= ∑私ログΣz私Q私(z私)p (x私、z私; θ )Q私(z私)= ∑私ログEz私[ p (x私、z私; θ )Q私(z私)]≥ Σ Ez私[ ログp (x私、z私; θ )Q私(z私)]≥ Σ私Σz私Q私(z私)ログp (x私、z私; θ )Q私(z私)対数尤度の定義潜在変数zで補強 Q私zの 分布です 私期待に応える-したがって、EMのE 凹型のログにジェンセンのルールを 使用する最大化するQ関数ll=∑ilog⁡p(xi;θ)definition of log likelihood=∑ilog⁡∑zip(xi,zi;θ)augment with latent variables …

1
EMを使用してこのモデルのパラメーターを推定する方法に関する質問
私はEMを理解し、この手法を使用してこのモデルのパラメーターを推測しようとしていますが、開始方法を理解するのに問題があります。 したがって、観測値と対応する観測値がある次のような重み付き線形回帰モデルがあります。と関係のモデルは加重線形回帰モデルであり、分布の仮定は次のとおりです。Y = (Y 1、Y 2。。。。Y N)X Yバツ= (x私、x2。。。。バツん)X=(xi,x2....xn)X = (x_i, x_2....x_n)Y= (y1、y2。。。。yん)Y=(y1,y2....yn)Y = (y_1, y_2....y_n)バツXXYYY β〜N(0、Σのβ)WI〜G(、B)y私〜N(βTバツ私、σ2w私)yi∼N(βTxi,σ2wi) y_i \sim \mathcal{N}(\beta^Tx_i, \frac{\sigma^2}{w_i}) β〜N(0 、Σβ)β∼N(0,Σβ) \beta \sim \mathcal{N}(0, \Sigma_\beta) w私〜G(a 、b )wi∼G(a,b) w_i \sim \mathcal{G}(a, b) ここでは回帰パラメーターであり、モデルは応答変数に分散に個別の重みを持たせることにより、不均一な分散を可能にします。私の目標は、パラメータによって与えられる最も可能性の高い線形関係を見つけることです。βββ\betaββ\beta したがって、次のようにlog-posteriorを書き込むことができます。 ログP(Y、β、w | バツ)= ∑i = 1ん(ログP( y私|バツ私、β、w私) + ログP( w私)) + l o gP(β)log⁡P(Y,β,w|X)=∑i=1n(log⁡P(yi|xi,β,wi)+log⁡P(wi))+logP(β) …

1
ガウス混合の期待値最大化の限界としてのK平均アルゴリズムの導出
クリストファー・ビショップは、完全なデータ対数尤度関数の期待値を定義します(つまり、観測可能なデータXと潜在的なデータZの両方が与えられていると仮定します)。 EZ[lnp(X,Z∣μ,Σ,π)]=∑n=1N∑k=1Kγ(znk){lnπk+lnN(xn∣ μk,Σk)}(1)(1)EZ[ln⁡p(X,Z∣μ,Σ,π)]=∑n=1N∑k=1Kγ(znk){ln⁡πk+ln⁡N(xn∣ μk,Σk)} \mathbb{E}_\textbf{Z}[\ln p(\textbf{X},\textbf{Z} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\pi})] = \sum_{n=1}^N \sum_{k=1}^K \gamma(z_{nk})\{\ln \pi_k + \ln \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)\} \tag 1 ここで、γ(znk)γ(znk)\gamma(z_{nk})は次のように定義されます: πkN(xn∣ μk,Σk)∑Kj=1πjN(xn∣ μj,Σj)(2)(2)πkN(xn∣ μk,Σk)∑j=1KπjN(xn∣ μj,Σj) \frac{\pi_k \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)}{\sum_{j=1}^K \pi_j \mathcal{N}(\textbf{x}_n \mid \ \boldsymbol{\mu}_j, \boldsymbol{\Sigma}_j)} \tag 2 説明したように、アイデアは、混合成分の共分散行列がϵIϵI\epsilon \textbf{I}によって与えられるガウス混合モデルを考えることです。ここで、ϵϵ\epsilonは、すべての成分によって共有される分散パラメーターです。それ: p(x∣μk,Σk)=1(2πϵ)M2exp{−12ϵ∥x−μk∥2}(3)(3)p(x∣μk,Σk)=1(2πϵ)M2exp⁡{−12ϵ‖x−μk‖2} p(\textbf x \mid …

1
共分散のガウスの混合物のためのEMアルゴリズムの限界ケースとしてK-手段に行く
私の目標は、K平均アルゴリズムが実際にガウス混合の期待値最大化アルゴリズムであり、すべての成分がの範囲の共分散を確認することです。σ2Iσ2I\sigma^2 Ilimσ→0limσ→0\lim_{\sigma \to 0} 確率変数Xの観測のデータセット{x1,…,xN}{x1,…,xN}\{x_1, \dots ,x_N\}があるとします。 M平均の目的関数は、 J = \ sum_ {n = 1} ^ {N} \ sum_ {k = 1} ^ {K} r_ {nk} || x_n-\ mu_k || ^ 2 で与えられます。r_ {nk}は、クラスターkへのx_nのハード割り当てのバイナリインジケーター変数です。 (データポイントx_nがクラスターkに割り当てられている場合、j \ ne kに対してr_ {nk} = 1およびr_ {nj} = 0)。 K平均アルゴリズムは、収束するまで反復によってJを最小化します。これには、2つの連続するステップが含まれます。 (E)最小化XXXJ=∑n=1N∑k=1Krnk||xn−μk||2J=∑n=1N∑k=1Krnk||xn−μk||2J = \sum_{n=1}^{N}\sum_{k=1}^{K} r_{nk} ||x_n …

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

1
複数の代入と期待値の最大化(EM)の相対的な利点
私は問題を抱えています y= a + by=a+by = a + b 私はyを観察しますが、もも観察ません。見積もりたいbaaabbb b = f(x )+ ϵb=f(x)+ϵb = f(x) + \epsilon ある種の回帰モデルを使用し、を推定できます。これは私にを与えます。次に見積もることができましたBaaab^b^\hat b b^= f(x )+ ϵb^=f(x)+ϵ\hat b = f(x) + \epsilon 最初の問題:回帰モデルが予測するにつながる可能性があるは何の意味も持たないだろうという負、。これを回避する方法はわかりません(私がよく扱った種類の問題ではありません)。他の人が日常的に扱っているようなもののようです。なんらかの非ガウスGLM?Baaab^b^\hat b 主な問題は、推定から生じるメインモデルの不確実性をどのように説明するかです。欠けている共変量に対して以前に複数の代入を使用しました。しかし、これは「潜在的なパラメーター」が欠けているものです。代わりに、それは結果データであり、代入するのは問題ないようです。ただし、「潜在的な」パラメーターに使用されるEMについてよく耳にします。なぜかはわかりませんが、EMがこれらのコンテキストで優れているかどうかもわかりません。MIは、理解、実装、およびコミュニケーションの両方で直感的です。EMは直感的に理解できますが、実装するのがより難しいように見えます(私はそれを行っていません)。 b^b^\hat b 私が上で得た種類の問題に対してEMは優れていますか?もしそうなら、なぜですか?次に、線形モデルまたはセミパラメトリック(GAM)モデルのRでそれをどのように実装しますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.