タグ付けされた質問 「expectation-maximization」

欠落データがある場合の最尤推定によく使用される最適化アルゴリズム。

9
期待値最大化を理解するための数値例
EMアルゴリズムを十分に把握して、実装して使用できるようにしています。私は丸1日、理論と、レーダーからの位置情報を使用して航空機を追跡するためにEMが使用される論文を読みました。正直なところ、私は根本的なアイデアを完全に理解しているとは思わない。簡単な問題(ガウス分布や正弦波系列のシーケンスの推定、線のフィッティングなど)のためのEMの数回の反復(3-4)を示す数値例を誰かに教えていただけますか。 誰かが(合成データを使用して)コードの一部を指し示すことができたとしても、そのコードをステップスルーしてみることができます。

3
K-MeansとEMを使用したクラスタリング:それらはどのように関連していますか?
データのクラスタリング(教師なし学習)アルゴリズム、EM、k-meansを研究しました。私は次を読み続けます: k-meansはEMの変形であり、クラスターが球形であるという仮定があります。 誰かが上記の文を説明できますか?1つは確率的割り当てを行い、もう1つは決定論的な方法で行うため、球面が何を意味するのか、およびkmeansとEMがどのように関連するのかがわかりません。 また、どのような状況でk-meansクラスタリングを使用したほうがよいでしょうか?またはEMクラスタリングを使用しますか?


1
変分ベイズとEMの関係
変分ベイズ法はEMアルゴリズムの一般化であるとどこかで読みました。実際、アルゴリズムの反復部分は非常に似ています。EMアルゴリズムが変分ベイズの特別なバージョンであるかどうかをテストするために、次のことを試しました。 YYYはデータ、は潜在変数のコレクション、はパラメーターです。変分ベイズでは、ような近似を作成できます。どこ sが単純で、扱いやすい分布です。Θ P (X 、Θ | Y )≈ Q X(X )Q Θ(Θ )QXXXΘΘ\ThetaP(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)QQQ EMアルゴリズムはMAPポイントの推定値を見つけるため、Q ^ 1_ \ Theta(\ Theta)= \ delta _ {\ Theta ^ 1}(\ Theta)のようなデルタ関数を使用すると、変分ベイズがEMに収束できると考えました。Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)。Θ1Θ1\Theta_1は、EMで通常行われるパラメーターの最初の推定値です。 場合Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)、与えられたQ1バツ(X)QX1(X)Q^1_X(X) KL発散を最小化式によって求められるQ1バツ(X)= exp(EδΘ1[ lnP(X、Y、Θ )] )∫exp(EδΘ1[ lnP(X、Y、Θ )] )dバツQX1(X)=exp⁡(EδΘ1[ln⁡P(X,Y,Θ)])∫exp⁡(EδΘ1[ln⁡P(X,Y,Θ)])dXQ^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX} 上記の式はQ1バツ(X)= P(X| Θ1、Y)QX1(X)=P(X|Θ1,Y)Q^1_X(X)=P(X|\Theta^1,Y)に簡略化され、このステップはExpectationステップと同等であることが判明しました。 EMアルゴリズムの! しかし、これを継続するものとして最大化ステップを導き出すことはできません。次のステップでは、Q ^ 2_ \ Theta(\ …

2
期待値最大化アルゴリズムがローカル最適に収束することが保証されているのはなぜですか?
EMアルゴリズムの説明をいくつか読みました(たとえば、Bishopのパターン認識と機械学習、および機械学習に関するロジャーとジェロラミの最初のコースから)。EMの派生は大丈夫です、私はそれを理解しています。また、アルゴリズムが何かをカバーする理由も理解しています:各ステップで結果を改善し、尤度は1.0で制限されているため、単純な事実(関数が増加し、制限される場合は収束する)を使用することで、アルゴリズムが収束することがわかりますいくつかの解決策。 しかし、それがローカルミニマムであることをどのように知るのでしょうか?各ステップでは、1つの座標(潜在変数またはパラメーター)のみを検討しているため、ローカルミニマムでは両方の座標を同時に移動する必要があるなど、何かを見逃す可能性があります。 これは、EMのインスタンスである一般的なクラスの山登りアルゴリズムと同様の問題だと思います。したがって、一般的な山登りアルゴリズムでは、関数f(x、y)= x * yに対してこの問題があります。(0、0)ポイントから開始する場合、両方の方向を一度に考慮することによってのみ、0の値から上に移動できます。

4
ワイブル分布のEM最尤推定
注: 私は、技術的な理由で自分で投稿できない元学生の質問を投稿しています。 pdfを持つワイブル分布からの iidサンプル与えられた場合、 は有用な欠損変数表現 、したがって、直接的な方法を使用する代わりにのMLEを見つけるために使用できる関連EM(期待値最大化)アルゴリズム数値最適化?バツ1、… 、xnバツ1、…、バツnx_1,\ldots,x_nfk(x )= k xk − 1e− xkx > 0fk(バツ)=kバツk−1e−バツkバツ>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x )= ∫Zgk(x 、z)d zfk(バツ)=∫Zgk(バツ、z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

3
期待値最大化アルゴリズムが使用されるのはなぜですか?
私が知る限り、尤度のパラメーターに関する偏微分をゼロに設定すると、EMアルゴリズムを使用して最尤を見つけることができ、分析的に解くことができない方程式のセットが得られます。しかし、前述の一連の方程式の制約に関する尤度の最大値を見つけるために、何らかの数値手法を使用する代わりに、EMアルゴリズムが必要です。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
手動で実装されたEMアルゴリズム
私は手動でEMアルゴリズムを実装してからの結果と比較したいnormalmixEMのmixtoolsパッケージ。もちろん、両方が同じ結果につながる場合、私は幸せです。主な参考文献は、Geoffrey McLachlan(2000)、Finite Mixture Modelsです。 2つのガウス分布の混合密度があり、一般的な形式では、対数尤度は(McLachlanページ48)で与えられます。 ログLc(Ψ )= ∑i = 1g∑j = 1nz私はj{ ログπ私+ ログf私(y私; θ私)} 。log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. である観察からあった場合は、番目のそうでなければ、コンポーネント密度。正規分布の密度です。ので、混合物の割合である観察最初ガウス分布からのものであることは、確率であり、観察第ガウス分布からのものであることを、確率です。z私はjzijz_{ij}111私ii0000f私fif_iππ\piπ1π1\pi_1π2π2\pi_2 Eのステップは、今条件付き期待値の計算です。 Q (Ψ ; Ψ(0 ))= EΨ (0 ){ ログLc(| Ψ )| y} 。Q(Ψ;Ψ(0))=EΨ(0){log⁡Lc(|Ψ)|y}. Q(\Psi;\Psi^{(0)}) = E_{\Psi(0)}\{\log L_c(|\Psi)|y\}. 結果(49ページ)へのいくつかの派生の後、リードします: τ私(yj; Ψ(k ))= π(k …

5
期待の最大化アルゴリズムの動機
この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 6年前に移行され ました。 EMアルゴリズムアプローチでは、Jensenの不等式を使用して、に到達しlogp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz そして、を定義しますθ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=arg⁡maxθ∫log⁡p(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz 私がEMを読むことはすべてそれを単純に落としますが、EMアルゴリズムが自然に発生する理由の説明がないためにいつも不安を感じています。通常、尤度は乗算ではなく加算を処理するために処理されが、の定義でのの出現は私にはやる気がありません。他の単調関数ではなくを考慮する必要があるのはなぜですか?さまざまな理由から、期待値の最大化の背後にある「意味」または「動機」には、情報理論と十分な統計の観点から何らかの説明があると思われます。そのような説明があれば、単なる抽象的なアルゴリズムよりもはるかに満足のいくものになります。loglog\logloglog\logθ(k+1)θ(k+1)\theta^{(k+1)}loglog\log

2
ガウス混合の最適化が直接計算的に難しいのはなぜですか?
混合ガウス分布の対数尤度を考慮します。 l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} その方程式を直接最大化することが計算上困難なのはなぜだろうか?私は、なぜそれが難しいことを明らかにする必要があるかについての明確で堅実な直観、またはおそらくその難しい理由についてのより厳密な説明を探していました。この問題はNP完全ですか、それとも解決方法がまだわかりませんか?これが、EM(期待値最大化)アルゴリズムを使用することに頼る理由ですか? 表記法: =トレーニングデータ。SnSnS_n =データポイント。x(t)x(t)x^{(t)} =ガウス、それらの平均、標準偏差、および各クラスター/クラス/ガウスからポイントを生成する確率を指定するパラメーターのセット。θθ\theta =クラスター/クラス/ガウスiからポイントを生成する確率。pipip_i

1
画像内のピクセルを分類するための基本的なマルコフ確率場のトレーニング
マルコフ確率場を使用して画像内の領域を分割する方法を学習しようとしています。MRFのパラメーターの一部、または実行した期待値の最大化がソリューションに収束しないことがある理由を理解できません。 ベイズの定理から始めて、。ここで、yはピクセルのグレースケール値、xはクラスラベルです。私はガウス分布を使用することを選択したP (Y | Xを)しながら、P (xは) MRFを使用してモデル化されます。p (x | y)= p (y| x)p(x) / p(y)p(x|y)=p(y|x)p(x)/p(y)p(x|y) = p(y|x) p(x) / p(y)yyyバツxxp (y| x)p(y|バツ)p(y|x)p (x )p(バツ)p(x) ペアワイズクリークポテンシャルと分類されるピクセルのクラスラベルのポテンシャル値の両方を持つMRFのポテンシャル関数を使用します。単一ピクセルのポテンシャル値は、クラスラベルxに依存する定数です。ペアワイズ電位関数は、4連結近傍について評価し、プラスのリターンさβを隣接この画素と同じクラスラベルを持つ場合- βラベルが異なる場合。αα\alphaバツバツxββ\beta- β−β-\beta 対数尤度の期待値を最大化するおよびβの値を見つけなければならない期待値最大化の時点で、数値最適化手法(試行された共役勾配、BFGS、パウエル法)を使用しましたが、値ことが判明βが負になる、α sが劇的に増加し、反復又は二以降の全体像は、一つのラベルのみ(バックグラウンド:MRFパラメータはICMを使用して行われた所定のクラスラベルを割り当てる)に割り当てられます。アルファを削除した場合、つまりペアワイズクリークポテンシャルのみを使用した場合、期待値の最大化はうまく機能します。α (x )α(バツ)\alpha(x)ββ\betaββ\betaαα\alpha 各クラスのアルファの目的は何ですか?それらは画像に存在するそのクラスの量に関係すると思いましたが、そうではないようです。MRFがペアワイズポテンシャルのみで機能するようになったら、単純なガウス混合モデルと比較して、ほぼ同じ結果が得られることを確認しました。ペアワイズの可能性がクラスを少しスムーズにすることを期待していましたが、それは起こりませんでした。私がどこを間違えたか教えてください。

1
EM、直感的な説明はありますか?
EMプロシージャは、多少の黒魔術として、未経験者には現れます。監視されたデータを使用して、HMMのパラメーターを推定します(たとえば)。次に、前後にタグ付けされたデータをデコードし、データが多少ともタグ付けされているかのようにイベントを「カウント」します。なぜこれがモデルを改善するのですか?私は数学について何かを知っていますが、私はそれのある種の精神的な絵を望み続けます。

2
混合モデルで期待値の最大化が重要な理由
混合モデル(ガウス混合モデル、隠れマルコフモデルなど)の期待値最大化法を強調した多くの文献があります。 EMが重要な理由 EMは最適化を行うための単なる方法であり、勾配ベースの方法(勾配ディセントまたはニュートン/準ニュートン法)またはここで説明した他の勾配のない方法として広く使用されていません。さらに、EMにはまだ局所的な最小の問題があります。 それは、プロセスが直感的で、簡単にコードに変換できるからでしょうか?または他にどんな理由がありますか?

2
勾配降下を使用してk-meansが最適化されないのはなぜですか?
私が知っているK-手段が通常使用して最適化された期待値最大化を。ただし、他の最適化と同じ方法で損失関数を最適化できます! 大規模なk-meansに確率的勾配降下法を実際に使用している論文をいくつか見つけましたが、私の質問に答えることができませんでした。 だから、誰がそれがなぜだか知っていますか?期待値の最大化がより速く収束するためでしょうか?特別な保証はありますか?それとも歴史的な理由ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.