勾配降下を使用してk-meansが最適化されないのはなぜですか?


14

私が知っているK-手段が通常使用して最適化された期待値最大化を。ただし、他の最適化と同じ方法で損失関数を最適化できます!

大規模なk-meansに確率的勾配降下法を実際に使用している論文をいくつか見つけましたが、私の質問に答えることができませんでした。

だから、誰がそれがなぜだか知っていますか?期待値の最大化がより速く収束するためでしょうか?特別な保証はありますか?それとも歴史的な理由ですか?


最大化ステップはすでに尤度勾配を登ります(期待値ステップで選択された値を条件とする)?
デビッドJ.ハリス

@ DavidJ.Harris OPがEMの動作に異議を唱えているとは思わないが、なぜあるメソッドが広く使用されているように見え、別のメソッドがあまり使用されていないのを尋ねる。あなたのコメントは、EMが好まれる理由を直接扱っているようには見えません。
Glen_b-モニカの復活2013

1
こんにちは@ DavidJ.Harris、Glen_bのように、両方のアルゴリズムが尤度(EM)または対数尤度(勾配降下)を最適化することを理解しています。グーグルや友人を掘り下げた後、この質問に対処するかどうかについて、このペーパーリンクにアクセスしました。理解し損ねなかった場合、EMは勾配降下法よりも優れたソリューションになります。
elsonidoq

k-meansが最適化する目的関数は何ですか?微分可能ですか?
ヴラディスラフドブガレス

3
パラメーター(クラスター平均)は滑らかに微分可能ですが、クラスター割り当て(多項インジケーター変数)は確実に微分できませんか?
ルーベンファンベルゲン

回答:


7

OPが言及しているように、勾配降下を使用してk-meansを解くことができ、これは大規模な問題の場合に役立つかもしれません。

確かに、k-means(すなわち、ロイドのアルゴリズム)を解くためのEMスタイルのアルゴリズムの普及には歴史的な理由があります。ロイドのアルゴリズムは非常に人気があり、人々はそれを「k-meansアルゴリズム」と呼ぶこともあり、他のアプローチが存在することに気付かないことさえあります。しかし、この人気は当然のことです。

Bottou and Bengio(1995)は、ロイドのアルゴリズムがニュートン法を使用してk-meansコスト関数を最適化することと同等であることを示しました。一般的な最適化問題では、目的関数の曲率に関する情報を活用するため、ニュートン法などの2次法は勾配降下法などの1次法より速く収束できます(1次法は収束しません)。有名なアイリスデータセットの実験で、彼らは、ロイドのアルゴリズムが実際に勾配降下よりも速く収束したことを示しました。さまざまなデータセットでこの比較を見るのは興味深いでしょう。

参照:

ぼとうとベンジオ(1995)。k-meansアルゴリズムの収束特性。


2

K平均クラスタリングは教師なしであり、EMを使用する最も近い教師なし手法はモデルベースのクラスタリング(混合ガウスモデル、GMM)です。GMMモデルベースのクラスタリングでは、多くの特徴が相関しているときに厄介な問題が発生します。これにより、特徴ベースの共分散(相関)行列の特異点に近づきます。この状況では、尤度関数が不安定になり、条件インデックスが無限に達し、GMMが完全に破壊されます。

したがって、EMとkNNの概念は捨ててください。これは、教師なし分析の共分散(相関)マトリックスに基づいているためです。最適化に関するお問い合わせは、Sammonマッピング、および従来のメトリックおよび非メトリック多次元スケーリング(MDS)によく似ています。Sammonマッピングは微分反復ベースですが、MDSのさ​​まざまな形式は一般に反復または1ステップの固有分解であり、1ステップのマトリックス操作中に最適化できます。

リクエストを振り返ってみると、答えは次のとおりです。すでにサモンマッピングで行われています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.