実世界のデータには、自然数のクラスターがある場合があります(一部のマジックkより少ない数のクラスターにクラスター化しようとすると、クラスター化コストが劇的に増加します)。今日、私はアダム・マイヤーソン博士による講義に出席し、彼はそのタイプのデータを「分離可能なデータ」と呼びました。
データの自然な分離性を活用するクラスタリングアルゴリズム(近似またはヒューリスティック)に適している、K-means以外のクラスタリングの形式化とは何ですか?
実世界のデータには、自然数のクラスターがある場合があります(一部のマジックkより少ない数のクラスターにクラスター化しようとすると、クラスター化コストが劇的に増加します)。今日、私はアダム・マイヤーソン博士による講義に出席し、彼はそのタイプのデータを「分離可能なデータ」と呼びました。
データの自然な分離性を活用するクラスタリングアルゴリズム(近似またはヒューリスティック)に適している、K-means以外のクラスタリングの形式化とは何ですか?
回答:
このような概念を捉えようとしている最近のモデルの 1つに、Balcan、Blum、およびGupta '09があります。データが特定の仮定を満たす場合、さまざまなクラスタリング目的のアルゴリズムを提供します。つまり、データが、クラスタリング目的の近似が epsilon-最適なクラスタリングに近いようなものである場合、それらを見つけるための効率的なアルゴリズムを提供できます近似を見つけることがNP-Hard である値でも、ほぼ最適なクラスタリング。これは、データが何らかの形で「適切」または「分離可能」であるという仮定です。リプトンにはこれに関する素晴らしいブログ投稿があります。
Bilu and Linial '10による論文で与えられたデータに関する別の同様のタイプの条件は、摂動安定性です。基本的に、十分な大きさの値に対してデータが摂動しても(パラメーターによって)最適なクラスタリングが変化しないようなデータであれば、元のデータの最適なクラスタリングを効率的に見つけることができることを示しています。問題が一般的にNPハードである場合でも。これは、データの安定性または分離性の別の概念です。
以前の研究と以前の関連概念があると確信していますが、これらはあなたの質問に関連する最近の理論的な結果です。
Ostrovsky et alによる研究、およびk-meansの振る舞いに関するArthurとVassilvitskiiによる研究とは別に、ユークリッドのk-medianおよびk-meansに関する理論的研究があります。これらの製剤。後者の作業で興味深いのは、分析のツールとして分離可能性を使用しているが、データでは分離可能性を必要としないことです。