クラスタリング—クラインバーグの不可能性定理の裏にある直観


17

Kleinberg(2002)によるクラスタリングの難しさを探るこの興味深い分析に関するブログ投稿を書くことを考えています。クラインバーグは、クラスタリング関数の3つの一見直感的な設計を概説し、そのような関数が存在しないことを証明しています。3つの基準のうち2つを満足させる多くのクラスタリングアルゴリズムがあります。ただし、3つすべてを同時に満たす機能はありません。

簡潔かつ非公式に、彼が概説する3つの要求事項は次のとおりです。

  • Scale-Invariance:すべての方向にすべてが均等に引き伸ばされるようにデータを変換する場合、クラスタリング結果は変わらないはずです。
  • 一貫性:クラスター間の距離が増加するように、および/またはクラスター内の距離が減少するようにデータをストレッチする場合、クラスタリングの結果は変わらないはずです。
  • 豊富さ:クラスタリング機能は、理論的には、データポイントの任意のパーティション/クラスタリングを生成できる必要があります(2つのポイント間のペアワイズ距離がわからない場合)

質問:

(1)これらの3つの基準間の矛盾を示すことができる、直感的で幾何学的な絵はありますか?

(2)これは、論文の技術的な詳細を指します。質問のこの部分を理解するには、上記のリンクを読む必要があります。

論文では、定理3.1の証明は、私がいくつかの点で従うのが少し難しいです。私は、こだわっている:「してみましょう。クラスタリング機能も満たす一貫性私たちはどんなパーティションのためと主張しているΓ レンジF 、正の実数が存在する< bのペアようbがですΓ -強制する。」fΓRange(f)a<b(a,b)Γ

私はこれがどうなるかわかりません... 反例の下のパーティションではありませんか(つまり、クラスター間の最小距離はクラスター内の最大距離よりも大きい)?a>b

反例?

編集:これは明らかに反例ではなく、私は自分自身を混乱させていました(回答を参照)。


その他の論文:


「一貫性」に関して:この特性は、クラスターがすでに十分に分離されている場合にのみ直感的に望まれます。そうでない場合、データ内のクラスターの数に問題があります-分析については、監視されていないため、問題です。次に、クラスター間の距離を徐々に追加すると(クラスターが生成されたように)、分析によってクラスター化プロセス中に行われる割り当てが変更されることが予想されます。
ttnphns

「豊かさ」に関して:申し訳ありませんが、それが何を意味するのか理解できませんでした(少なくともあなたが言ったように)。クラスタリングアルゴリズムは多数ありますが、それらすべてが特定の派手な要件に従うとどのように期待できますか?
ttnphns

あなたの写真に関して:そのようなパターンを認識するためには、特別なクラスタリング方法が必要です。伝統的/オリジナルのクラスタリング手法は、クラスターが環礁ではなく、多かれ少なかれスフェロイドの密集した「島」である生物学および社会学に由来します。これらの方法は、画像上のデータに対処することを要求できません。
ttnphns

また興味があるかもしれません:Estivill-Castro、ウラジミール。「なぜ非常に多くのクラスタリングアルゴリズム:ポジションペーパー。」ACM SIGKDD explorations newsletter 4.1(2002):65-75。
アノニムース-復元モニカ

私は論文を読んでいません。しかし、多くのクラスタリングアルゴリズムでは、ある程度の距離のしきい値があります(DBSCAN、階層的クラスタリングなど)。距離をスケーリングする場合は、それに応じてしきい値もスケーリングする必要があります。したがって、彼のスケール不変性の要件には同意しません。私も豊かさに反対します。すべてのパーティションがすべてのアルゴリズムの有効なソリューションである必要はありません。数百万のランダムパーティションがあります。
アノニムース-復元モニカ

回答:


11

いずれにせよ、すべてのクラスタリングアルゴリズムは、ポイントの「近接」という概念に依存しています。相対(スケール不変)概念または絶対(一貫性)近接の概念のいずれかを使用できますが、両方は使用できないこと直感的に明らかです

最初に例を使ってこれを説明し、次にこの直観がクラインバーグの定理にどのように適合するかを説明します。

実例

S1S2270

270ポイントの2セット

270

ズームで1を設定

S2

ズーム付きセット2

S2S1S2S233×3=9

アイソメ不変性の場合

上記の直観をクラインバーグの定理と比較すると、それらはわずかに対立していることがわかります。確かに、クラインバーグの定理は、豊かさと呼ばれる3番目の性質を気にしない限り、スケールの不変性と一貫性を同時に達成できると言っているようです。ただし、スケールの不変性と一貫性を同時に主張する場合、失うことは豊かさだけではありません。また、別のより基本的なプロパティであるアイソメ不変性も失います。これは私が犠牲にしたくないプロパティです。Kleinbergの論文には載っていないので、しばらくそれについて詳しく説明します。

k2-クラスターの停止条件は、3つのポイントに「猫」、「犬」、「マウス」(c <d <m)、または「トム」、「スパイク」、「ジェリー」(J <S <T):

{猫、犬、マウス}と{トム、スパイク、ジェリー}のクラスタリング

k(k) kk

SSS

Γ:{metrics on S}{partitions of S}dΓ(d)
iddSi:SSd(i(x),i(y))=d(x,y)xyS

定義:クラスタリングアルゴリズムは、次の条件を満たす場合、アイソメ不変です。メトリックと、およびそれらの間のアイソメについて、点とは元の点とが同じクラスターにある場合にのみ。Γddii(x)i(y)Γ(d)xyΓ(d)

私たちはアルゴリズムをクラスタリングについて考えるとき、私たちはしばしば抽象的集合識別平面内で、または他のいくつかの周囲の空間の点の具体的なセットとし、そして上のメトリックを変える想像のポイント移動としてまわり。確かに、これは上記の例で見た視点です。このコンテキストでは、アイソメ不変性とは、クラスタリングアルゴリズムが回転、反射、および平行移動に対して鈍感であることを意味します。SSS

平面内の点のセット、およびその2つの回転

クラインバーグの定理の変形

上記の直観は、クラインバーグの定理の次の変種によって捉えられます。

定理:一貫性とスケール不変を同時に満たす非自明な等尺性不変クラスタリングアルゴリズムはありません。

ここで、単純なクラスタリングアルゴリズムとは、次の2つのアルゴリズムのいずれかを意味します。

  1. 上のすべてのメトリックに離散パーティションを割り当てるアルゴリズム。すべてのクラスターは単一のポイントで構成され、S

  2. 上のすべてのメトリックに、単一クラスターで構成される一括パーティションを割り当てるアルゴリズム。S

請求項は、これらの愚かなアルゴリズムがあることであるのみ一貫したスケール不変の両方二つ等長不変アルゴリズム。

証明: レッツ、当社のアルゴリズムれている有限集合すること動作することになっています。ましょう上のメトリックである(すなわち、別個の点の任意の対が単位距離を有する、のすべてのため中)。等長不変であり、そこのために2つだけの可能性であるのいずれか:、離散パーティションされ、または塊状パーティションです。まず、が離散パーティションである場合を見てみましょう。上のメトリック与えられた場合SΓdSd(x,y)=1xySΓΓ(d)Γ(d)Γ(d)Γ(d)dS、下ですべてのポイントのペアの距離なるように再スケーリングできます。次に、一貫性により、であることがわかります。したがって、この場合、は、各パーティションに個別のパーティションを割り当てる簡単なアルゴリズムです。次に、が一括パーティションである場合を考えてみましょう。上の任意のメトリックを再スケーリングして、すべてのポイントのペアの距離がになるようにすることができます。そのため、一貫性は意味します。したがって、この場合もは簡単です。∎1dΓ(d)=Γ(d)ΓΓ(d)d1 ΓD = ΓD ΓS1Γ(d)=Γ(d)Γ

もちろん、この証明は、アレックス・ウィリアムズの答えで議論された、クラインバーグの元の定理のマルガレータ・アッカーマンの証明に非常に近い精神です。


7

これは私が思いついた直感です(ブログ投稿のスニペット)。

ここに画像の説明を入力してください

d1d2d3d2d3d1d1d3d2d3


d2の左下を意味しますか?ダイアグラムの優れた点の1つは、一貫性が一般的に望ましいプロパティではないことを示していること(またはあまりにも緩やかに定式化されていること)です。
xan

はい、左下、それに応じて回答を編集しました。ありがとう!
アレックスウィリアムズ

あなたの答えを完全に理解する前に、私はあなたの双対であることが判明したロジックを思いつきました。すべてのポイントが同じクラスターにあるクラスタリングから始めてください。他のアレンジメントのミニチュアバージョンに縮小し、他のアレンジメントのフルサイズバージョンに拡大することにより、他のアレンジメントに変換します。
xan
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.