K-meansの欠点を理解する方法


365

K-meansは、クラスター分析で広く使用されている方法です。私の理解では、この方法はいかなる仮定も必要とせず、すなわち、データセットと事前に指定されたクラスター数kを与え、二乗誤差の合計(SSE)を最小化するこのアルゴリズムを適用します。エラー。

したがって、k-meansは本質的に最適化の問題です。

k-meansの欠点に関する資料を読みました。それらのほとんどはそれを言う:

  • k-meansは、各属性(変数)の分布の分散が球形であると仮定します。
  • すべての変数の分散は同じです。
  • すべてのkクラスターの事前確率は同じです。つまり、各クラスターの観測数はほぼ同じです。

これら3つの仮定のいずれかに違反した場合、k-meansは失敗します。

この声明の背後にある論理を理解できませんでした。k-means法は本質的に仮定をしておらず、SSEを最小化するだけなので、SSEの最小化とこれらの3つの「仮定」の間のリンクはわかりません。


49
クラスターの数は既にかなりの仮定であると思います。
njzk2

30
K-手段の主要な仮定は以下のとおりです。1.そこにある k個のクラスタが。2. SSEは最小化する正しい目標です。3.すべてのクラスターに同じ SSEがあります。4.すべての変数は、すべてのクラスターで同じ重要度を持ちます。これらはかなり強い仮定している...
Anony-ムース

2
2番目の質問(答えとして投稿され、その後削除されます):線形回帰に似た最適化問題としてk-meansを理解したい場合は、量子化として理解してください。インスタンスを使用して、データの最小二乗近似を見つけようとします。つまり、実際すべてのポイントを最も近い重心に置き換えた場合です。k
アノニムース

2
@ Anony-ムース、私はいくつかの材料を読み、後に次の考えを思い付く:(むしろ最適化法よりも)統計モデルのような手段の基礎となるk個のクラスタがあることを前提としたデータの分散は、正常に純粋です分散が等しいランダムノイズ。これは、単純な線形回帰モデルの仮定に類似しています。そして、ガウス・マルコフの定理のいくつかのバージョンで(私は信じて、私は紙を見つけていない)、K -手段はあなたに私たちは私たちのデータのために仮定基礎となるk個のクラスタの平均値の一貫性の推定量が得られます。kk
ケビンキム

1
以下のデータセットの説明にイラストを追加しました。k-meansは非常にうまく機能すると仮定する場合があります(同じ形状のすべてのクラスター)。1000回の反復でさえ、最適な結果を見つけられませんでした。
アノニムース

回答:


273

ここではデビッド・ロビンソンの答えがとても気に入っていますが、k-meansの追加の批評があります。

非クラスター化データのクラスタリング

一様なデータでk-meansを実行して、クラスター得られます!データがクラスター化されない場合はわかりませんが、この方法で研究を行き詰まりにすることができます。

均一データのK平均

スケールに敏感

d

これはおそらく「すべての変数が同じ分散を持っている」と言っているものです。理想的な場合を除き、必要に応じて非線形スケーリングも検討します。

また、単位分散を持つようにすべての軸をスケーリングするのはヒューリスティックであることに注意してください。これは、k-meansが機能することを保証しません。スケーリングは、データセットの意味に依存します。また、複数のクラスターがある場合は、すべてのクラスターでも(独立して)すべての変数で同じ分散が必要です。

以下は、k-means クラスター化できないデータセットの古典的な反例です。両方の軸は各クラスターでiidであるため、1次元でこれを行うことで十分です。しかし、クラスターにはさまざまな分散があるため、k-meansはそれらを誤って分割します。

K-meansはこのデータセットをクラスター化できません

k-meansのこの反例はあなたのポイントでカバーされているとは思いません:

  • すべてのクラスターは球形(iid Gaussian)です。
  • すべての軸の分布は同じであるため、分散があります。
  • 両方のクラスターには、それぞれ500個の要素があります。

しかし、k-meansは依然としてひどく失敗します(そして、より大きなクラスターの分散を0.5より大きくすると悪化します)しかし、失敗したのはアルゴリズムではありません。それは仮定であり、成り立たない。K-meansは完璧に機能しており、間違った基準を最適化するだけです。

完璧なデータセットであっても、ローカルの最小値にとどまることがあります

以下は、従来のA3データセットでのk-meansの10回の実行のベストです。これは、k-means用設計された合成データセットです。50個のクラスター、それぞれがガウス型で、かなりよく分離されています。しかし、k-means ++と100回の反復でのみ、期待どおりの結果が得られました...(以下の説明では、通常のk-meansの10回の反復です)。

A3データセットのk-means

このデータセットには、k-meansが正しい構造を見つけられなかった多くのクラスターがすぐに見つかります。たとえば、右下のクラスターは3つの部分に分割されています。しかし、方法はありません。k-meansはこれらの重心の1つをデータセットのまったく異なる場所に移動します-それは局所的な最小値に閉じ込められています(そしてこれはすでに10回の実行のベストでした!)

そして、このデータセットにはそのような極小値の多くがあります。同じクラスターから2つのサンプルを取得する場合、非常に頻繁に、このクラスターが分割されたままの状態で最小のままになり、代わりに他の2つのクラスターがマージされます。常にではありませんが、非常に頻繁に。そのため、ラッキーな選択をするには多くの反復が必要です。k-meansの100回の繰り返しでは、まだ6個のエラーがカウントされ、1000回の繰り返しではこれが4個のエラーになりました。K-means ++は、ランダムサンプルに重み付けする方法により、このデータセットでより適切に動作します。

手段は連続的です

バイナリデータ(またはワンホットエンコードされたカテゴリデータ)でk-meansを実行できますが、結果はバイナリではなくなります。そのため、結果は得られますが、元のデータとは異なるデータ型であるため、最終的に解釈できない場合があります。

隠れた仮定:SSEは最小化する価値ある

これは本質的に上記の回答にすでに存在しており、線形回帰でうまく実証されています。k-meansが完全に理にかなっているユースケースがいくつかあります。ロイドはPCM信号をデコードする必要があったときに、さまざまなトーンの数を知っていたため、最小二乗誤差はデコードエラーの可能性を最小限に抑えます。また、画像の色の量子化では、パレットを減らすときの色誤差も最小限に抑えます。しかし、データ上では、偏差の二乗和は最小化する意味のある基準ですか?

上記の反例では、分散はクラスターに依存するため、最小化する価値はありません。代わりに、次の図のように、ガウス混合モデルをデータに適合させる必要があります。

ガウス混合モデリング

(しかし、これも究極の方法ではありません。たとえば、多くのバックグラウンドノイズを追加することにより、「k Gaussian分布の混合」の仮定を満たさないデータを構築するのは簡単です)

ひどく使いやすい

全体として、データにk-meansをスローするのは簡単すぎますが、それでも結果が得られます(ほとんどランダムですが、気づかないでしょう)。データを理解していないと失敗する可能性のあるメソッドを用意した方が良いと思います...

量子化としてのK平均

k-meansの機能の理論モデルが必要な場合は、クラスタリングアルゴリズムではなく、量子化アプローチを検討してください。

k-meansの目的(二乗誤差を最小化すること)は、すべてのオブジェクトを最も近い重心で置き換える場合の合理的な選択です。(グループの元のデータを私見した場合、それはあまり意味がありません。)

k

この量子化は、おそらく線形回帰の例と非常によく似ています。線形回帰は、最良の線形モデルを見つけます。また、k-meansは(場合によっては)多次元データセットのk値へ最適な縮小を見つけます。ここで、「best」は最小二乗誤差です。

私見、k-meansは優れた量子化アルゴリズムです(この投稿の最初の画像をご覧ください-データセットを2点に近似したい場合、これは妥当な選択です!)。構造の検出のようにクラスター分析を行いたい場合、k-meansは最善の選択ではありません。クラスターがない場合はクラスター化する傾向があり、データに多く見られるさまざまな構造を認識できません。


細かい印刷:すべての画像はELKIで生成されました。データは.xmlデータ生成形式を使用して生成されましたが、非常に基本的なため、共有する価値はありません。


17
(注意してください-読者が見る回答順序は可変である可能性があるため、「上記の回答」について話すことはおそらく良い考えではありません。例えば、表示順序を「アクティブ」に設定すると、あなたの答えは実際には上記のもの!)
Silverfish

1
@ Anony-Mousseこの答えは本当に素晴らしいです。しかし、これまで、「k-meansはある条件下では機能し、他の条件下では機能しなくなる」と言うことで私たちが通常意味することを忘れてしまいました。この文脈で「仕事」または「失敗」という言葉はどういう意味ですか?「仕事」とは、k-meansによって生成された解が視覚的に「合理的に見える」ことを意味しますか?これはちょっと曖昧です。または、「作業」は、k-meansが「標準解」と同じ解を提供する場合、つまり、データセットを事前生成してk-meansを使用する場合を意味します。このコンテキストでは「作業」は理にかなっていますが、実際には、データは何らかの配布によって事前に生成されていません。
ケビンキム

通常、人々は何らかのグランドトゥルース、つまりデータの生成方法、またはアルゴリズムから隠されたラベルを参照します。生成されたデータと比較すると、生成に使用されたモデルを最適化するアルゴリズムが優先されます(たとえば、ガウス分布のGMMやk-means)。実際のラベル付きデータでも、この評価は既知の結果を再現することに関するものです。あなたが何か新しいことを学びたい探検/知識発見の側面を考えるとき。しかし、それは私たちが持っているすべてです。
アノニムース

k

@TMOTTMこれは、事前知識によって選択されたkを使用しています。「正しい」kをアプリオリに選択した10回の実行のベスト。
アノニムース

450

なんて素晴らしい質問です。統計手法の欠点と仮定をどのように検証するかを示すチャンスです。すなわち、いくつかのデータを作成し、そのアルゴリズムを試してください!

2つの仮定を考慮し、それらの仮定が破られるとk-meansアルゴリズムがどうなるかを見ていきます。視覚化が簡単なので、2次元データに固執します。(次元の呪いのおかげで、次元を追加するとこれらの問題がより深刻になる可能性があります。統計プログラミング言語Rを使用します。完全なコードはこちら(およびブログフォームの投稿はこちら)にあります。

転用:アンスコムのカルテット

まず、類推。誰かが次のように主張したと想像してください:

線形回帰の欠点についての資料を読みました。線形回帰を期待していること、残差が正規分布していること、および異常値がないことです。しかし、線形回帰はすべて、予測された線からの二乗誤差の合計(SSE)を最小化しています。これは、曲線の形状や残差の分布に関係なく解決できる最適化問題です。したがって、線形回帰は機能するための仮定を必要としません。

はい、はい、線形回帰は残差の二乗和を最小化することで機能します。しかし、それ自体は回帰の目標ではありません。私たちがやろうとしているのは、xに基づいてyの信頼できる公平な予測子として機能する線を引くことです。ガウス・マルコフの定理は、 SSEを最小限に抑えることgoal-ことを達成していることを教えてくれるが、その定理は、いくつかの非常に特定の仮定にかかっています。これらの仮定が破られた場合でも、SSEを最小化できますが、そうでない場合があります何でも。「ペダルを踏んで車を運転します。運転は基本的に「ペダルを踏むプロセス」です。タンク内のガスの量に関係なく、ペダルを押すことができます。したがって、タンクが空の場合でも、ペダルを押して車を運転することができます。」

しかし、話は安いです。寒くて硬いデータを見てみましょう。または実際には、作成されたデータ。

ここに画像の説明を入力してください

R2

「これらの場合、残差の二乗和を最小化するため、線形回帰はまだ機能している」と言えます。しかし、なんとピュロスの勝利でしょう!線形回帰は常に線を引きますが、それが無意味な線である場合、誰が気にしますか?

最適化を実行できるからといって、目標を達成しているわけではないことがわかりました。そして、データを作成して視覚化することは、モデルの仮定を調べる良い方法であることがわかります。その直観に固執して、私たちはすぐにそれを必要とするつもりです。

壊れた仮定:非球面データ

あなたは、k-meansアルゴリズムが非球形クラスターでうまく機能すると主張します。これらのような非球形クラスター?

ここに画像の説明を入力してください

たぶんこれはあなたが期待していたものではありませんが、クラスターを構築するための完全に合理的な方法です。この画像を見ると、人間は2つの自然なポイントグループをすぐに認識します。それらを間違えることはありません。それでは、k-meansがどのように機能するかを見てみましょう。割り当てはカラーで表示され、帰属中心はXとして表示されます。

ここに画像の説明を入力してください

まあ、それは正しくありません。K-meansは、丸い穴に四角い釘をはめようとしました-きれいな球体が周りにある素敵なセンターを見つけようとしましたが、失敗しました。はい、それはまだクラスタ内の平方和を最小化していますが、上のAnscombeのカルテットのように、それはピュロスの勝利です!

あなたは「それは公正な例ではありません...と言うかもしれない何のクラスタリング法が正しく変なことをしているクラスタを見つけることができませんでした。」違います!単一リンケージ 階層クラスタリングを試してください:

ここに画像の説明を入力してください

ばっちり成功!これは、単一リンケージ階層クラスタリングがこのデータセットに対して正しい仮定を行うためです。(失敗する状況はにもあります)。

「これは、単一の極端な病理学的症例だ」と言うかもしれません。しかし、そうではありません!たとえば、外側のグループを円ではなく半円にすると、k-meansが依然としてひどく機能することがわかります(そして、階層的クラスタリングは依然として機能します)。私は他の問題のある状況を簡単に思いつくことができました。16次元データをクラスタリングする場合、発生する可能性のあるあらゆる種類の病理があります。

最後に、k-meansはまだ救済可能であることに注意してください!データを極座標に変換することから始めると、クラスタリングが機能するようになりました。

ここに画像の説明を入力してください

そのため、メソッドの基礎となる仮定を理解することが不可欠です。メソッドに欠点があるときだけでなく、それらを修正する方法も教えてくれます。

壊れた仮定:不均一なサイズのクラスター

クラスターのポイント数が不均一な場合、それはk-meansクラスタリングも破壊しますか?さて、サイズ20、100、500のクラスターのこのセットを考えてみましょう。多変量ガウスからそれぞれ生成しました。

ここに画像の説明を入力してください

これは、おそらくk-meansがそれらのクラスターを見つけることができるように見えますよね?すべてがきちんと整理されたグループに生成されるようです。それでは、k-meansを試してみましょう。

ここに画像の説明を入力してください

痛い。ここで起こったことは少し微妙です。k-meansアルゴリズムは、クラスター内の平方和を最小化するために、より大きなクラスターにより多くの「重み」を与えます。実際には、それはその小さなクラスターがどのセンターからも遠く離れてしまい、それらのセンターを使用してより大きなクラスターを「分割」することを意味します。

これらの例を少し試してみると(Rコードはここにあります!)、k-meansが恥ずかしく間違っているはるかに多くのシナリオを構築できることがわかります。

結論:無料昼食なし

WolpertとMacreadyによって公式化された数学の民間伝承には、「No Free Lunch Theorem」と呼ばれる魅力的な構造があります。これはおそらく、機械学習の哲学の私のお気に入りの定理だ、と私はそれを持ち出すためにあらゆる機会を楽しむ(私はこの質問を愛する言及したのか?)基本的な考え方は、このよう(非厳密)記載されている:「すべての可能な状況にわたって平均すると、すべてのアルゴリズムのパフォーマンスは同等です。」

直感に反する音?アルゴリズムが機能するすべてのケースで、ひどく失敗する状況を構築できると考えてください。線形回帰は、データが直線に沿っていることを前提としていますが、正弦波に従うとどうなりますか?t検定では、各サンプルが正規分布からのものであると想定しています。外れ値を投入するとどうなりますか?勾配上昇アルゴリズムは局所的最大値に閉じ込められる可能性があり、教師付き分類はだまされて過適合になる可能性があります。

これは何を意味するのでしょうか?それは、仮定があなたの力の源であるということを意味します!Netflixがあなたに映画を推薦するとき、それはあなたが1つの映画が好きなら、あなたは似たようなものが好きになると仮定している(逆も同様)。それが真実ではなかった世界を想像してみてください。あなたの好みは、ジャ​​ンル、俳優、監督の間で無秩序に完全にランダムに散らばっています。推奨アルゴリズムはひどく失敗します。「まあ、まだ予想される二乗誤差を最小限に抑えているので、アルゴリズムはまだ機能しています」と言っても意味がありますか?ユーザーの好みについていくつかの仮定をせずに推奨アルゴリズムを作成することはできません-それらのクラスターの性質についていくつかの仮定を作成せずにクラスタリングアルゴリズムを作成することはできません。

したがって、これらの欠点をただ受け入れないでください。それらを知っているので、アルゴリズムの選択を知らせることができます。それらを理解して、アルゴリズムを調整し、データを変換してそれらを解決できるようにします。そして、あなたのモデルが決して間違っていないなら、それは決して正しくないことを意味するので、彼らを愛してください。



50
この情熱的な答えに+1。私は極座標変換の例を特に楽しみました。これらの巧妙なトリックは、数学的に無知な脳を驚かせるのに止まりません。
ムゲン

20
+ 1、これは分析の詳細に行き詰まることなく仮定がどのように崩壊するかを示す素晴らしい仕事をする絶対に美しい答えです。
ルイチャルデッラ

15
+1人々が私に不満を抱いていることの1つは、理論的なことは実際には機能しないということです。しかし、「データはモデルの仮定に適合していますか?」私は単に彼らの顔から空白の外観を取得します。あなたの答え、特に最後のセクションは本当に嬉しかったです。
テナリラマン

9
+1うわー、私はしばらくの間いましたが、私は1日で50以上の賛成票を得るための答えを見たことがないと思います。これは本当に印象的な成果です。
アメーバ

7
私が見るように、極座標変換は、カーネルクラスタリングテクニックに対する最初の専門用語のない例としてここで主に役立ちます。この種の事前変換は、線形学習法を機能させる方法です。
ミカエルヴェイデモヨハンソン

7

@DavidRobinsonの答えに追加したいのは、最小総クラスター分散へのクラスタリングは実際には組み合わせ最適化問題であり、k-Meansはその1つの手法であり、後者の「ワンショット」、ローカル「最急降下」の性質を考慮すると、かなり悪いあまりに1。また、クラスターシードの場所を特定することにより、「裸の骨」のk-Meansを大幅に改善しようとすることは、最初から運命づけられています。シードは最終的なクラスターに(劇的に!)衝突するため、最適なものを「知る」こと... 実際に計算するに。

ただし、ほとんどの最適化問題と同様に、それでもそれはいくつかの深刻な最適化手法を受け入れやすい場合があります。それらの1つは問題の構造に非常に密接に適合し(NFLが要求しているように!)、結果に確実に現れます。私はここで広告を作りたくありません(エチケットに対して-当然そうです-)、興味があるなら、ここでそれを読んで、あなた自身の判断をしてください。

そうは言っても、k-Meansは確かにガウス混合を識別しないという@ttnphnsに同意します。2 つの問題のコスト関数は完全に異なります。(データが与えられたモデルの確率に関して)ガウス混合は最適組み合わせを見つけることも組み合わせ最適化問題であり、深刻な最適化手法も存在することがわかります。繰り返しになりますが、ここで独自の結論に達することができます-そこで議論されたアルゴリズムは、実際、@DavidRobinsonの投稿の最後の画像のようなクラスターを正しく識別することができると言います。それは(数学的に明確に定義された方法で)さらに正確に外れ値の不断の問題を解決します、つまり、完全にランダムであるため、どのクラスターにも属さないデータポイントです(悪名高く、たとえばk-Means完全に脱線させます)。これは、追加の均一分布をガウス分布と競合させることによって行われます...素晴らしい結果は、均一に分散されたデータでは、実際にはそこに何もないことを報告します(私は他のどこにも見たことがない)。

明らかに、NFLによれば、そしてあなたが正しく指摘したように、外れ値の識別を伴うグローバルに最適なガウス混合物でさえ、事前の仮定に依存しています。つまり、データは実際に正規分布しています。幸いなことに、多数の法則のおかげで、多くの自然現象その仮定を順守しています。

免責事項:深くおwithび申し上げて、私は上記の論文と彼らが議論するアルゴリズムの両方を書きました。

PS私は会議で一度Macreadyに会いました-非常に明るくてナイスガイ!


これは、質問に対する答えになると思われます。
マイケルチャーニック

3
それは実際に答えです、マイケル:k-Meansは実際には組み合わせ最適化問題であるものを解決しようとしますが、それは間違いなく(真剣ではありません)!また、k-Meansは(設計上)球形の分布を想定しているため、泣きそうになります(次元の1つに2を掛けると、「スマート」な種が何であれ、まったく異なるものになります!)。そして、外れ値の問題(私が見た実世界のデータに存在します!)は、k-Meansが「深刻な」クラスタリングについて持つ可能性のあるプレテンションを完全に破壊したとしても、単にk-Meansで対処されません。
エマニュエルファルケナウアー

1
@EmanuelFalkenauer、サイトへようこそ。私はあなたの答えに投票(+1)していますが、それはほんの少し誇張されています。K-mean は、人間ではなく、どうして何かのふりをすることができますか?シンプルで高速な方法のために、それが行うことを行い、悪くはしません。
ttnphns

@ttnphns:歓迎してくれてありがとう。まあもちろんのこと、K-手段は(!それはコードの単なる一部だ-私の悪い)何もふりをしませんが、人々はそれを促進行う- OPが出たとして。これは「単純/高速」な方法であるという指摘に同意しますが、大きな問題は、最も単純なデータ以外の出力に依存することが自殺に近いことです。当時の、しかし、たとえそうであっても、それはひどい仕事をします。最急降下の組み合わせ問題を解決するだけではありません。;-)
エマニュエルファルケナウアー

6

論理的に言えば、K-meansの欠点は次のとおりです。

  • クラスタの線形分離可能性が必要
  • クラスターを指定する必要があります
  • アルゴリズム:Loydsプロシージャは、多くのポイントまたはディメンションがある場合に適切な初期化を行っても、真のグローバル最大値に収束しません

しかし、K-meansは私たちが通常考えるよりも優れています。他のクラスタリング手法(スペクトル、密度...)および100万のテキストの実際のテキスト分類でLDAに対してテストした後、私はそれについて非常に熱心になりました:K-meansはLDAよりもはるかに優れた精度を示しました(88%対59%)。他のいくつかのクラスタリング手法は優れていましたが、K-meansはトップに近く、複雑さの点でより手頃な価格でした。

広範囲の問題で普遍的に優れているクラスタリング手法について読んだことがありません。私が知っている限りでは、K-meansが普遍的に優れていると言っても、普遍的なクラスタリングのスーパーヒーローはいないというだけです。多くの記事、多くの方法、真の革命ではありません(私の個人的な限られたテストの中で)。

K-meansの論理的な欠点がしばしば明らかになる主な理由は、2D平面でのポイントのクラスタリングは機械学習ではめったに行わないことです。2D、3Dに当てはまる幾何学的な直感からの多くのことは、かなり高次元または抽象的なベクトル空間(単語の袋、変数のベクトルなど)では無関係です。

線形分離可能性: 実際のデータで循環クラスターを扱う必要はほとんどありません。これらの場合、それらが存在しないと仮定することはさらに良いです。アルゴリズムでそれらを検索できるようにすると、ノイズ内の奇数の円形クラスターを見つけることができます。K-meansの線形仮定により、多くの場合より堅牢になります。

クラスターの数: 多くの場合、実際に見たい理想的なクラスターの数はありません。たとえば、テキストの分類には、105、110など100のカテゴリがありますが、すべて主観的なものです。クラスターの数を指定することは、グローバルな粒度を指定することと同等になります。とにかく、すべてのクラスタリング方法には粒度の指定が必要です。

10a lot

ただし、すべてのクラスタリングアルゴリズムにはこのような制限があります。たとえば、スペクトルクラスタリングでは、真の固有ベクトルを見つけることができず、近似のみが見つかります。

同じ計算時間に対して、非常に最適化されたLDAライブラリは、自家製の(完全に最適化されていない)K-meansよりも性能が劣りました。それ以来、私は少し違った考え方をしています。


1

K-meansの欠点を理解するために、その背後にあるモデルが何であるかを考えるのが好きです。

KK

Kσ2Iσ2Kσ20

それでは、これはK-meansの欠点について何を教えてくれるのでしょうか?

  1. K-meansは、多変量ガウス分布に見えるクラスターを導きます。
  2. 変数間の分散は同じであるため、K-meansは球状に見えるクラスターを導きます。
  3. K
  4. K-meansは、同じサイズのグループに向かう傾向があります。

K-meansは実際には非常に制限的なアルゴリズムです。上記の仮定を使用すると、アルゴリズムを非常に迅速に実行できるという利点があります。ただし、クラスタリングのパフォーマンスが最大の関心事である場合、K-meansは通常、実際の状況では制限が強すぎます。


2
完全に同意することはできません。ガウス混合の特定のケースであると主張するK-meansは遠いストレッチです。K-meansは、正規分布などの特定のタイプの分布を想定していません(したがって、確率論的根拠ではありません)。オーバーラップしないクラスター(つまり、「ミックス」なし)を想定しています。球形クラスターを想定していますが、より正確には、ボロノイセルの凸多角形を想定しています。たぶん、K-meansは何も「モデル化」せず、データ生成プロセスへの直接の参照を持たないと言うのは正しいでしょう。K-meansは「同じサイズの[ポイント数]グループに向かう傾向がある」-必ずしもではありません。
ttnphns 16

4
@ttnphns k-meansは確かにGMMの特殊なケースであることを示すことができます:en.wikipedia.org/wiki/K-means_clustering#Gaussian_Mixture_Model
TrynnaDoStat

It can be shown that。十分に伸ばすことにより、理由を超えて、何でも血縁関係として「示す」ことができます。
ttnphns 16

2
@ttnphnsいいえ、すべてを数学的に表示することはできません。
TrynnaDoStat
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.