混合モデルで期待値の最大化が重要な理由


15

混合モデル(ガウス混合モデル、隠れマルコフモデルなど)の期待値最大化法を強調した多くの文献があります。

EMが重要な理由 EMは最適化を行うための単なる方法であり、勾配ベースの方法(勾配ディセントまたはニュートン/準ニュートン法)またはここで説明した他の勾配のない方法として広く使用されていません。さらに、EMにはまだ局所的な最小の問題があります。

それは、プロセスが直感的で、簡単にコードに変換できるからでしょうか?または他にどんな理由がありますか?

回答:


14

原則として、EMと標準の最適化アプローチの両方が混合分布の適合に有効です。EMと同様に、凸最適化ソルバーは局所最適に収束します。しかし、複数の局所的な最適条件の存在下でより良い解決策を探すためのさまざまな最適化アルゴリズムが存在します。私の知る限り、最適な収束速度のアルゴリズムは問題に依存します。

EMの利点の1つは、反復ごとに混合分布の有効なパラメーターを自然に生成することです。対照的に、標準の最適化アルゴリズムでは制約を課す必要があります。たとえば、混合ガウスモデルを近似しているとします。標準的な非線形計画法では、共分散行列を正の半正定値に制限し、混合成分の重みを非負に設定して合計を1にする必要があります。

高次元の問題で良好なパフォーマンスを達成するには、通常、非線形プログラミングソルバーが勾配を活用する必要があります。そのため、勾配を導出するか、自動微分で計算する必要があります。勾配は、標準形式がない場合の制約関数にも必要です。ニュートンの方法と関連するアプローチ(信頼領域の方法など)には、ヘッセ行列も必要です。勾配が利用できない場合は、有限差分法または微分のない方法を使用できますが、パラメータの数が増えるとパフォーマンスが低下する傾向があります。対照的に、EMは勾配を必要としません。

EMは概念的に直感的であり、これは大きな美徳です。多くの場合、これは標準の最適化アプローチにも当てはまります。実装の詳細は多数ありますが、全体的な概念は単純です。これらの詳細を内部で抽象化する標準的な最適化ソルバーを使用することがしばしば可能です。これらの場合、ユーザーは目的関数、制約、勾配を提供し、問題に適したソルバーを選択するのに十分な実用的な知識を持っている必要があります。しかし、ユーザーが最適化アルゴリズムの低レベルの詳細について考えたり、実装したりしなければならないポイントに到達する場合、確かに専門知識が必要です。

EMアルゴリズムのもう1つの利点は、一部のデータ値が欠落している場合に使用できることです。

また興味深い(コメントを含む):


混合モデルの場合の制約は、多くの場合、再パラメーター化によって実施できます。例えば上の最適化を介して行うことができ、Q IRP I = EXP Q Ip=1qRpi=exp(qi)jexp(qj)
バイエルジ

1
はい、それは確かに真実です。これは、ユーザーの視点(制約をコーディングする必要がある)から制約を課す形式ですが、ソルバー(対応する制約を直接受け取らなくなった)の観点からは制約ではありません。別のトリック:共分散行列は、制約のない行列Uを使用して表現できます。ここで、C = U T Uです。ただし、これにより、Cを直接使用して正の半正対称行列になるように制約する場合と比較して、計算とパラメーターの数の両方が増加します。CUC=UTUC
user20160

はい、ソルバーからユーザーに移行するのに良い視点です。三角のみを考慮することもできます。そうすれば、ほとんどのパラメーターがであるため、システムを過剰に指定する必要はありません。U0
バイエルジ

右、右、コレスキー分解。ずっといい。
user20160

1
+1素晴らしい回答!「繰り返しごとに混合分布の有効なパラメータを自然に生成する」について詳しく説明していただけますか?他の方法については、各反復の決定変数値がまだありますよね?
ハイタオデュ

2

私はuser20160の答えが非常に良い説明を提供すると思います、勾配ベースの方法をここで不適切にする最も重要な理由は、共分散行列が正の半正であり、混合係数が非負で合計が1になる制約です。

共分散行列を対角線に制限すると、これらの2つの制約は簡単に表現できることに注意してください。

対角共分散行列は、のように書くことができる 混合係数は以下のようにソフトマックスを介して表すことができる φK=EのPのK/ΣK用のEPiは 、2つの制約が満たされ、かつ勾配が逆伝播によって言う簡単に評価することができます。

Σ=[σ12σN2]
ϕk=epk/Kepi

さらに、これにより、変分下限(ELBO)ではなく真の尤度を直接最適化できるため、潜在変数の必要性がなくなります。

ただし、そのような場合でも、EMはしばしば勾配適切よりも優れたアルゴリズムであることがわかります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.