名前EMアルゴリズムにEがあるのはなぜですか?


8

Eステップがアルゴリズムのどこで発生するかを理解しています(以下の数学セクションで説明されています)。私の考えでは、アルゴリズムの重要な工夫は、対数尤度の下限を作成するためのジェンセンの不等式の使用です。その意味でExpectationは、対数尤度を再定義してJensenの不等式(つまり、凹関数の場合はに適合するように単純に行われます。E(f(x))<f(E(x))

Eステップがいわゆると呼ばれる理由はありますか?期待していること(意味はありますか?単に予期せずに発生するのではなく、期待が中心的である理由の背後にある直感が欠けているように感じますジェンセンの不等式の使用。p(xi,zi|θ)

編集:チュートリアルは言う:

「Eステップ」という名前は、通常、完了に対する確率分布を明示的に形成する必要はなく、これらの完了に対して「期待される」十分な統計を計算するだけでよいという事実に由来しています。

「通常、完了に対する確率分布を明示的に形成する必要がない」とはどういう意味ですか?その確率分布はどのようになりますか?


付録:EMアルゴリズムのEステップ

ll=ilogp(xi;θ)definition of log likelihood=ilogzip(xi,zi;θ)augment with latent variables z=ilogziQi(zi)p(xi,zi;θ)Qi(zi)Qi is a distribution for zi=ilogEzi[p(xi,zi;θ)Qi(zi)]taking expectations - hence the E in EMEzi[logp(xi,zi;θ)Qi(zi)]Using Jensen's rule for log which is concaveiziQi(zi)logp(xi,zi;θ)Qi(zi)Q function to maximize

2
あなたが何を求めているのかは明確ではありませんが、Eステップに名前を付けることの背後にある関連性は、ある意味で、期待を満たして欠落した「埋める」または「代入する」ことであると常に想定してきました。確かに、を取っているので、これは正確には何が起こっているのかではありません値がありませんが、操作上、多くの場合、そのようなことになります。データ拡張を行っていた場合-多くの点でEMに似ています。E θ [ ログP X Z θ '| X = X ] ZzEθ[logp(x,Z;θ)X=x]Z

はい、これは私がしたい種類の議論です。だから、期待をもってzを代入する」と言います。何の期待ですか?また、ではなくを意味しますか?E θEzEθ
Heisenberg

私の育成は、常に、期待値がとられている確率測度をインデックス化するパラメーターでをインデックス化することでした。CSでは、彼らはあなたが提案しているようにそれを行います。インデックス付けされたメジャーに対してを条件付けして、統合しています。Z X θEZXθ

例として、ガウス混合をフィッティングするとき、Eステップは欠落しているクラスインジケーターを補完しました。しかし、それは各観測の責任を計算することにより、あいまいな方法でそうします。
2015

回答:


11

期待はEMアルゴリズムの中心です。まず、データ関連付けられた尤度は期待値 ここで、期待値は、潜在ベクトルの限界分布。p x 1x n ; θ (x1,,xn)Z1...ZN

p(x1,,xn;θ)=Znp(x1,,xn,z1,,zn;θ)dz=Znp(x1,,xn|z1,,zn,θ)p(z1,,zn;θ)dz=Eθ[p(x1,,xn|z1,,zn,θ)]
(z1,,zn)

EMの背後にある直感も期待に基づいています。ので直接ながら、最適化することができないは、監視されていない依存しますが、依存します。代わりに、予想される完全な対数尤度ただし、この期待値はとして選択された値にも依存するため、Mステップで()最大化する関数: log p x 1x nz 1z n ; θ z i E [ log p x 1x nz 1z n ; θ | バツ θ θ 0 θ Q θ 0θ = Eは、θ 0 [ログPをX 1... xはNZ 1... zlogp(x1,,xn;θ)logp(x1,,xn,z1,,zn;θ)zi

E[logp(x1,,xn,z1,,zn;θ)|x1,,xn]
θθ0θ
Q(θ0,θ)=Eθ0[logp(x1,,xn,z1,,zn;θ)|x1,,xn]
イェンセンの不等式は、各Mステップで観測された尤度の増加を正当化するためにのみ提供されます。

1
説明ありがとう。潜在ベクトルの事後分布はステップごとに変化するため、ステップごとに変化しますか同様に?もしそうなら、この絵は表現する固定赤い曲線があるので、少し混乱でそれに対し、について、当社の現在の信念の上に我々している平均化以来のすべての段階で、「変化」そのステップでの潜在ベクトルEθ[p(x1,,xn,z,,z,θ)]p(x;θ)p(x;θ)z
ハイゼンベルク

申し訳ありません、質問が理解できません。EMステップごとに、変更と増加。これは、尤度関数自体が変化することを意味しません。Eθ[p(x1,,xn|z1,,zn,θ)]
西安

ない?潜伏ベクトルについての後方信念に従ってRHSが変化した場合、LHSも変化しますか?p(x1,,xn;θ)=Eθ[p(x1,,xn|z1,,zn,θ)]
ハイゼンベルク

このアイデンティティは私の答えです。が異なる場合、両側は異なる値をとります。ただし、この方程式では、(a)が固定され、(b)考慮されるため、事後信念の概念はありません。θθzi
西安

1
各反復で、Eステップはを使用して積分を計算ししたがって、各反復変化を最大化するターゲット関数。これは、元のターゲット尤度これは、単一ののみ依存します。P Z | X θ TQ θ TxはN ; θを= E θtp(z|x,θt)
Q(θt,θ)=Eθt[logp(x1,,xn,z1,,zn;θ)|x1,,xn].
tp(x1,,xn;θ)=Eθ[p(x1,,xn|z1,,zn,θ)]θ
西安

1

西安の答えは非常によく、編集に関する拡張だけです。

「Eステップ」という名前は、通常、完了に対する確率分布を明示的に形成する必要はなく、これらの完了に対して「期待される」十分な統計を計算するだけでよいという事実に由来しています。

値は観察されていない、我々は、分布推定、各データポイントのためのとして未観測のデータを。Q関数は、に対する期待される対数尤度の合計ですzqx(z)xcompletionsqx(z)

Q(θ)=xEqx[logp(x,z|θ)]

上記probability distribution over completionsはを参照する必要があります。一部の分布(特に、尤度は対数形式であるため、指数族)では、を計算して最大化するために、(予想される尤度ではなく)予想される値を知るだけで済みます。Q θ p(x,z|θ)sufficient statisticsQ(θ)


確率的グラフィカルモデルのチャプター19.2に非常に良い紹介があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.