分離可能なデータのK平均以外の形式化のクラスタリング


11

実世界のデータには、自然数のクラスターがある場合があります(一部のマジックkより少ない数のクラスターにクラスター化しようとすると、クラスター化コストが劇的に増加します)。今日、私はアダム・マイヤーソン博士による講義に出席し、彼はそのタイプのデータを「分離可能なデータ」と呼びました。

データの自然な分離性を活用するクラスタリングアルゴリズム(近似またはヒューリスティック)に適している、K-means以外のクラスタリングの形式化とは何ですか?

回答:


11

このような概念を捉えようとしている最近のモデルの 1つに、Balcan、Blum、およびGupta '09があります。データが特定の仮定を満たす場合、さまざまなクラスタリング目的のアルゴリズムを提供します。つまり、データが、クラスタリング目的の近似が epsilon-最適なクラスタリングに近いようなものである場合、それらを見つけるための効率的なアルゴリズムを提供できます近似を見つけることがNP-Hard である値でも、ほぼ最適なクラスタリング。これは、データが何らかの形で「適切」または「分離可能」であるという仮定です。リプトンにはこれに関する素晴らしいブログ投稿があります。cϵcc

Bilu and Linial '10による論文で与えられたデータに関する別の同様のタイプの条件は、摂動安定性です。基本的に、十分な大きさの値に対してデータが摂動しても(パラメーターによって)最適なクラスタリングが変化しないようなデータであれば、元のデータの最適なクラスタリングを効率的に見つけることができることを示しています。問題が一般的にNPハードである場合でも。これは、データの安定性または分離性の別の概念です。αα

以前の研究と以前の関連概念があると確信していますが、これらはあなたの質問に関連する最近の理論的な結果です。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.