回答:
原則として、EMと標準の最適化アプローチの両方が混合分布の適合に有効です。EMと同様に、凸最適化ソルバーは局所最適に収束します。しかし、複数の局所的な最適条件の存在下でより良い解決策を探すためのさまざまな最適化アルゴリズムが存在します。私の知る限り、最適な収束速度のアルゴリズムは問題に依存します。
EMの利点の1つは、反復ごとに混合分布の有効なパラメーターを自然に生成することです。対照的に、標準の最適化アルゴリズムでは制約を課す必要があります。たとえば、混合ガウスモデルを近似しているとします。標準的な非線形計画法では、共分散行列を正の半正定値に制限し、混合成分の重みを非負に設定して合計を1にする必要があります。
高次元の問題で良好なパフォーマンスを達成するには、通常、非線形プログラミングソルバーが勾配を活用する必要があります。そのため、勾配を導出するか、自動微分で計算する必要があります。勾配は、標準形式がない場合の制約関数にも必要です。ニュートンの方法と関連するアプローチ(信頼領域の方法など)には、ヘッセ行列も必要です。勾配が利用できない場合は、有限差分法または微分のない方法を使用できますが、パラメータの数が増えるとパフォーマンスが低下する傾向があります。対照的に、EMは勾配を必要としません。
EMは概念的に直感的であり、これは大きな美徳です。多くの場合、これは標準の最適化アプローチにも当てはまります。実装の詳細は多数ありますが、全体的な概念は単純です。これらの詳細を内部で抽象化する標準的な最適化ソルバーを使用することがしばしば可能です。これらの場合、ユーザーは目的関数、制約、勾配を提供し、問題に適したソルバーを選択するのに十分な実用的な知識を持っている必要があります。しかし、ユーザーが最適化アルゴリズムの低レベルの詳細について考えたり、実装したりしなければならないポイントに到達する場合、確かに専門知識が必要です。
EMアルゴリズムのもう1つの利点は、一部のデータ値が欠落している場合に使用できることです。
また興味深い(コメントを含む):
私はuser20160の答えが非常に良い説明を提供すると思います、勾配ベースの方法をここで不適切にする最も重要な理由は、共分散行列が正の半正であり、混合係数が非負で合計が1になる制約です。
共分散行列を対角線に制限すると、これらの2つの制約は簡単に表現できることに注意してください。
対角共分散行列は、のように書くことができる 混合係数は以下のようにソフトマックスを介して表すことができる φK=EのPのK/ΣK用のEPiは 、2つの制約が満たされ、かつ勾配が逆伝播によって言う簡単に評価することができます。
さらに、これにより、変分下限(ELBO)ではなく真の尤度を直接最適化できるため、潜在変数の必要性がなくなります。
ただし、そのような場合でも、EMはしばしば勾配適切よりも優れたアルゴリズムであることがわかります。