私が知っているK-手段が通常使用して最適化された期待値最大化を。ただし、他の最適化と同じ方法で損失関数を最適化できます!
大規模なk-meansに確率的勾配降下法を実際に使用している論文をいくつか見つけましたが、私の質問に答えることができませんでした。
だから、誰がそれがなぜだか知っていますか?期待値の最大化がより速く収束するためでしょうか?特別な保証はありますか?それとも歴史的な理由ですか?
私が知っているK-手段が通常使用して最適化された期待値最大化を。ただし、他の最適化と同じ方法で損失関数を最適化できます!
大規模なk-meansに確率的勾配降下法を実際に使用している論文をいくつか見つけましたが、私の質問に答えることができませんでした。
だから、誰がそれがなぜだか知っていますか?期待値の最大化がより速く収束するためでしょうか?特別な保証はありますか?それとも歴史的な理由ですか?
回答:
OPが言及しているように、勾配降下を使用してk-meansを解くことができ、これは大規模な問題の場合に役立つかもしれません。
確かに、k-means(すなわち、ロイドのアルゴリズム)を解くためのEMスタイルのアルゴリズムの普及には歴史的な理由があります。ロイドのアルゴリズムは非常に人気があり、人々はそれを「k-meansアルゴリズム」と呼ぶこともあり、他のアプローチが存在することに気付かないことさえあります。しかし、この人気は当然のことです。
Bottou and Bengio(1995)は、ロイドのアルゴリズムがニュートン法を使用してk-meansコスト関数を最適化することと同等であることを示しました。一般的な最適化問題では、目的関数の曲率に関する情報を活用するため、ニュートン法などの2次法は勾配降下法などの1次法より速く収束できます(1次法は収束しません)。有名なアイリスデータセットの実験で、彼らは、ロイドのアルゴリズムが実際に勾配降下よりも速く収束したことを示しました。さまざまなデータセットでこの比較を見るのは興味深いでしょう。
参照:
ぼとうとベンジオ(1995)。k-meansアルゴリズムの収束特性。
K平均クラスタリングは教師なしであり、EMを使用する最も近い教師なし手法はモデルベースのクラスタリング(混合ガウスモデル、GMM)です。GMMモデルベースのクラスタリングでは、多くの特徴が相関しているときに厄介な問題が発生します。これにより、特徴ベースの共分散(相関)行列の特異点に近づきます。この状況では、尤度関数が不安定になり、条件インデックスが無限に達し、GMMが完全に破壊されます。
したがって、EMとkNNの概念は捨ててください。これは、教師なし分析の共分散(相関)マトリックスに基づいているためです。最適化に関するお問い合わせは、Sammonマッピング、および従来のメトリックおよび非メトリック多次元スケーリング(MDS)によく似ています。Sammonマッピングは微分反復ベースですが、MDSのさまざまな形式は一般に反復または1ステップの固有分解であり、1ステップのマトリックス操作中に最適化できます。
リクエストを振り返ってみると、答えは次のとおりです。すでにサモンマッピングで行われています。