ガウス混合の最適化が直接計算的に難しいのはなぜですか?


18

混合ガウス分布の対数尤度を考慮します。

l(Sn;θ)=t=1nlogf(x(t)|θ)=t=1nlog{i=1kpif(x(t)|μ(i),σi2)}

その方程式を直接最大化することが計算上困難なのはなぜだろうか?私は、なぜそれが難しいことを明らかにする必要があるかについての明確で堅実な直観、またはおそらくその難しい理由についてのより厳密な説明を探していました。この問題はNP完全ですか、それとも解決方法がまだわかりませんか?これが、EM(期待値最大化)アルゴリズムを使用することに頼る理由ですか?


表記法:

=トレーニングデータ。Sn

=データポイント。x(t)

=ガウス、それらの平均、標準偏差、および各クラスター/クラス/ガウスからポイントを生成する確率を指定するパラメーターのセット。θ

=クラスター/クラス/ガウスiからポイントを生成する確率。pi

回答:


14

まず、GMMはクラスタリング用の特定のアルゴリズムであり、観測の最適なラベル付けを見つけようとします。持つk個の可能なクラスを、それがあることを意味し、K nは、あなたのトレーニングデータの可能性のラベリング。これは、中程度の値のkおよびnに対してすでに巨大になります。nkknkn

第二に、最小化しようとしている機能は凸面ではなく、問題の大きさとともに非常に困難です。k-means(GMMはkmeansのソフトバージョンと見なすことができる)がNP困難であることを知っています。しかし、GMMでも同様に証明されたかどうかは知りません。

問題は凸ではないことを確認するために、一次元の場合考える: 、あなたがそれを保証することはできませんことを確認 D 2 Lを

L=log(e(x/σ1)2+e(x/σ2)2)
すべてのxに対して d x 2 >0d2Ldx2>0

非凸面の問題があるということは、局所的な最小値で動けなくなることを意味します。一般に、コンベックス最適化の強力な保証はありません。また、ソリューションの検索も非常に困難です。


3
2番目の点に関して:k-meansは、GMMの特殊なケース(より正確には、分散がゼロになる限界ケース)と見なすことができます。k-meansをGMMの近似に還元できる場合、後者もNP困難な問題でなければなりません。
ルーカス14

1
@Lucas:これは 発言への相互検証リンクがあります。
西安

7

ジュアンパのポイントに加えて、これらの困難を知らせてください:

  • 関数真の最大値であるので、無限であり+ とに対応するμI = X 1(例えば)及びσ iは = 0。したがって、真のマキシマイザーはこのソリューションになりますが、推定には役立ちません。l(θ|Sn)+μ^(i)=x1σ^i=0
  • 合計の積の分解における項をlの積の合計θ | S nとして考慮しなくても、θで最大化される関数は高度にマルチモーダルです(非凸であることに加えて)したがって、数値的手法の課題です。EMは、ローカルモードまたはサドルポイントに収束し、複数の実行を必要とすることにより、困難を認識します。に示すようにknl(θ|Sn)θ下の画像

私の本から取られた。

追加の注釈:EMアルゴリズムを呼び出さずに、標準の最適化アルゴリズム(ニュートンラプソンなど)を一度に1つのパラメーターで使用できます。つまり、繰り返します。

  • 見つけθ1=argmaxθ1l(θ|Sn)
  • θ2=argmaxθ2l(θ1,θ1|Sn)
  • ...
  • θv=argmaxθvl(θv,θv|Sn)

vl(θ|Sn)


OK、分散が0の場合、Lは無制限です。ただし、可能なパラメーターからそれらを除外する場合(したがって、すべての分散> 0と仮定します)、Lは、他の点のために、選択された無限小の分散の場合はそれほど高くありません。私は正しいですか?次に、この可能なパラメータのセットに対して、Lが制限されます。これは、EMアルゴリズムが収束することを意味します(制限されたシーケンスを増やす)。
ahstat

@ahstat:分散が厳密に正であると仮定しても、EMが十分近くで開始された場合、EMが縮退解に収束するのを防ぐことはできません。
西安
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.