2変量混合分布を使用したEMアルゴリズムからの収束


9

与えられたデータと部分的に観測されたデータzのセットが与えられた場合の最尤推定量を見つけたい混合モデルがあります。Iは、Eステップ(の期待値計算両方実装しているZ所与のxと現在のパラメータθ kは、予想される所定の負の対数尤度最小にするために)、およびM-工程Zをxzzxθkz

私が理解しているように、最大​​尤度は反復ごとに増加しています。つまり、負の対数尤度は反復ごとに減少する必要がありますか?ただし、繰り返しますが、アルゴリズムは実際に負の対数尤度の値を減らしません。代わりに、減少と増加の両方が考えられます。たとえば、これは収束までの負の対数尤度の値でした。

ここに画像の説明を入力してください

ここに誤解したことがありますか?

また、シミュレートされたデータの場合、真の潜在的な(観測されていない)変数の最尤を実行すると、ほぼ完全に適合し、プログラミングエラーがないことを示します。EMアルゴリズムの場合、特にパラメーターの特定のサブセット(分類変数の比率など)の場合、明らかに次善の解に収束することがよくあります。アルゴリズムが局所的な最小点または定常点に収束する可能性があることはよく知られています。従来の検索ヒューリスティックまたは同様に、グローバルな最小値(または最大値)を見つける可能性を高めるための検索があります。この特定の問題については、2変量の混合のうち2つの分布のいずれかが確率1の値を取るため、多くのミス分類があると思います(真の寿命は、ここで、 zはいずれかの分布に属していることを示します。インディケータ zはもちろんデータセットで打ち切られます。 T=zT0+(1z)zzここに画像の説明を入力してください

理論的なソリューション(最適に近いはず)から始めるときの2番目の数値を追加しました。ただし、ご覧のとおり、可能性とパラメーターは、このソリューションから明らかに劣っているソリューションに分岐しています。

xi=(ti,δi,Li,τi,zi)tiiδiLiτizi観測値が属する母集団の指標です(その2変量は0と1を考慮するだけでよいため)。

z=1fz(t)=f(t|z=1)Sz(t)=S(t|z=1)z=0tinff(t|z=0)=0S(t|z=0)=1

f(t)=i=01pif(t|z=i)=pf(t|z=1)および S(t)=1p+pSz(t)

可能性の一般的な形式を定義します。

L(θ;xi)=Πif(ti;θ)δiS(ti;θ)1δiS(Li)τi

現在、は場合に部分的にのみ観測され、それ以外の場合は不明です。完全な可能性はzδ=1

L(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1p)(1zi)(pSz(ti;θ))zi)1δi((1p)(1zi)(pSz(Li;θ))zi)τi

ここで、は対応する分布の重みです(おそらく、いくつかの共変量といくつかのリンク関数によってそれぞれの係数に関連付けられています)。ほとんどの文献では、これは次の対数尤度に簡略化されていますp

(ziln(p)+(1p)ln(1p)τi(ziln(p)+(1zi)ln(1p))+δizifz(ti;θ)+(1δi)ziSz(ti;θ)τiSz(Li;θ))

以下のためにM-ステップ、この関数は、ではないが1つの最大化する方法で、その全体が、最大化されます。代わりに、これをパーツ分割できることはわかりません。l(θ,p;)=l1(θ,)+l2(p,)

k:th + 1 E-stepの場合、(部分的に)観測されていない潜在変数の期待値を見つける必要があります。場合はあるという事実を使用します。ziδ=1z=1

E(zi|xi,θ(k),p(k))=δi+(1δi)P(zi=1;θ(k),p(k)|xi)

ここでは、P(zi=1;θ(k),p(k)|xi)=P(xi;θ(k),p(k)|zi=1)P(zi=1;θ(k),p(k))P(xi;θ(k),p(k))

これにより、P(zi=1;θ(k),p(k)|xi)=pSz(ti;θ(k))1p+pSz(ti;θ(k))

(ここでは、観測されたイベントはないので、データの確率はテール分布関数によって与えられます。δi=0xi


問題の変数を最初から書いてもらえますか、そしてEとMの方程式を教えてください。
アルベルト2015年

1
もちろん、EおよびMステップに関する詳細で質問を編集しました
Good Guy Mike

明確にするために、プロットされた値は、不完全なデータの推定値が与えられた完全なMLEです。
グッドガイマイク

とは?「この分布に関連するものはありませんが、我々はそれを無限であると定義しています...」とは理解していません。Sz
wij 2015

1
EMアルゴリズムは予想される完全なデータの可能性を直接最大化しますが、観測されたデータの可能性の増加を保証できます。観測データの可能性の増加を確認していますか?
ランデル2015

回答:


6

EMの目的は、観測されたデータの対数尤度を最大化することです。

l(θ)=iln[zp(xi,z|θ)]

残念ながら、これはに関して最適化するのが難しい傾向があります。代わりに、EMは補助機能を繰り返し形成して最大化しますθ

Q(θ,θt)=Ez|θt(ilnp(xi,zi|θ))

最大化する場合、EMは、θt+1Q(θ,θt)

l(θt+1)Q(θt+1,θt)Q(θt,θt)=l(θt)

なぜこれが当てはまるのかを正確に知りたい場合は、Murphyの機械学習のセクション11.4.7 :確率論的展望が適切な説明を提供します。実装これらの不等式を満たさない場合、どこかで間違いを犯しています。次のように言っています

完全に近いフィット感があり、プログラミングエラーがないことを示しています

危険です。多くの最適化アルゴリズムと学習アルゴリズムにより、間違いを犯しやすく、ほとんどの場合、正しい見た目の答えを得ることができます。私が気に入っている直感は、これらのアルゴリズムは乱雑なデータを処理することを目的としているため、バグも適切に処理することは当然のことです!


質問の残りの半分について、

グローバルな最小値(または最大値)を見つける可能性を高めるために、従来の検索ヒューリスティックまたは同様の方法がありますか

ランダム再起動が最も簡単な方法です。次の最も簡単な方法は、おそらく初期パラメータに対するシミュレーテッドアニーリングです。確定的アニーリングと呼ばれるEMの変種も聞いたことがありますが、私はそれを個人的に使用したことがないので、それについて詳しく説明することはできません。


1
いい答え(+1)。正式な参照(特に、部分的に引用されたソース "機械学習:確率論的視点"への参照)を含めると、さらに良いでしょう。
Aleksandr Blekh 2015

回答ありがとうございます。コードのエラーを修正した後、アルゴリズムが適切に収束することがわかりましたが、切り捨てられたデータを除外した場合のみです。さもなければそれはおかしい。これはいくつかのエラーの結果だと思います。
Good Guy Mike、

実際、問題は私が「異質の切り捨て」を扱うことです。つまり、すべての観測の全会一致の切り捨てしきい値ではなく、観測ごとに個別の切り捨て点があります。私はこれらの設定に遭遇したことがないか、文献で見つけることができないので、私がそれを正しく解決していることを確認できません。たまたまこの設定を見たことがあれば、それらのリファレンスを見てみたいと思います!Li
Good Guy Mike、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.