なぜEMとMLEでの勾配降下法を使用する必要があるのですか


10

数学的には、期待値最大化(EM)の式とアルゴリズムは混合モデルの方が単純であることがよくありますが、EMで解決できるほとんどすべて(すべてではないにしても)はMLEでも解決できるようです(たとえば、 Newton-Raphson法(閉じていない式の場合)。

しかし、文献では、他の方法よりもEMが好まれているようです(たとえば、勾配降下法によるLLの最小化を含む)。それは、これらのモデルが単純であるためですか?それとも他の理由ですか?

回答:


15

ここに交差線がいくつかあると思います。統計文献で言及されているMLEは最尤推定値です。これは推定です。EMアルゴリズムは、その名前が示すように、MLEの計算によく使用されるアルゴリズムです。これらはリンゴとオレンジです。

MLEが閉じた形式でない場合、これを見つけるために一般的に使用されるアルゴリズムはNewton-Raphsonアルゴリズムです。これは、「MLEでも解決できる」と述べたときに参照しているものとなる場合があります。多くの問題で、このアルゴリズムはうまく機能します。「バニラ」問題の場合、通常、打ち負かすことは困難です。

ただし、混合モデルなど、失敗する問題はたくさんあります。EMアルゴリズムが常に最速の選択であるとは限りませんが、さまざまな理由から、多くの場合最も簡単な方法であることが、さまざまな計算上の問題に関する私の経験です。多くの場合、新しいモデルでは、MLEを見つけるために使用される最初のアルゴリズムはEMアルゴリズムになります。その後、数年後、研究者は、はるかに複雑なアルゴリズムが大幅に高速になることに気付くでしょう。しかし、これらのアルゴリズムは重要ではありません。

さらに、EMアルゴリズムの人気の多くは統計アルゴリズムのフレーバーであり、統計学者が数値アナリストと区別されていると感じられるようにするのに役立つと思います。


3
「...統計学者が数値アナリストと区別されていると感じるのを助ける」---この行を後で使用するために確実に保存します。
ギジェルモアンジェリス

さらに(これを含めることは私の本来の意図であったため、質問を更新しました)、しかし、勾配降下法のようなアルゴリズムの代わりにEMを使用する必要があるのはなぜですか?どちらを優先するのですか?収束速度、たぶん?
ギジェルモアンジェリス

1
私が行った作業では、EMアルゴリズムの最大の利点は、提案されたパラメーター値が常に有効であるという事実です。勾配降下。別の利点は、すべてのステップで確実に増加する可能性を計算する必要がないことです。更新をすばやく計算できる場合、これは重要ですが、可能性は計算できません。
Cliff AB

3
EMアルゴリズムのもう1つの非常に優れた側面:勾配ベースの方法よりも数値的にはるかに安定する傾向があります。私の研究はEMアルゴリズムから始まり、数値の不安定さがいかに煩わしいか(つまり、非EMアルゴリズムを使い始めたとき)を理解するのに4年かかりました。
Cliff AB

面白い。私はこの質問が再び出てきたと思いますが、基本的に勾配降下法を実行し、次に実行可能なセットに射影する凸最適化(サブ勾配に対して)と同様のことを行うとどうでしょうか。つまり、EMよりもはるかに難しいように聞こえますが、他の欠点は何でしょうか。
ギジェルモアンジェリス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.