クラスターの形状を測定する方法は?


14

この質問は明確に定義されていないことを知っていますが、一部のクラスターは楕円形であるか、低次元空間にあり、他のクラスターは非線形の形状をしています(2Dまたは3Dの例)。

クラスターの非線形性(または「形状」)の尺度はありますか?

2Dおよび3D空間では、クラスターの形状を見るのは問題ではありませんが、より高次元の空間では形状について何かを言うことは問題です。特に、凸クラスターがどの程度であるかの尺度はありますか?

私はこの質問に対して、人々がクラスターについて話すが、それらを見ることができない他の多くのクラスター化の質問に触発されました(高次元の空間で)。さらに、2D曲線には非線形性の尺度がいくつかあることを知っています。


1
ただし、en.wikipedia.org / wiki / Topological_data_analysisが役立つ場合があります。ただし、形状は意図したとおりに正確ではありません。
-ziyuang

1
おそらく、目的に合わせてコンパクトさの概念を適応させることができます。
user12719

回答:


4

ガウス混合モデル(GMM)が好きです。

その機能の1つは、 プロビットドメインで、区分的補間のように動作することです。これの1つの含意は、それらが置換ベース、普遍的な近似器のように動作できることです。これは、対数正規分布、ワイブル分布、またはクレイジーな非分析分布などの非ガウス分布では、いくつかの基準が満たされている限り、GMMが分布を近似できることを意味します。

したがって、GMMを使用してAICcまたはBICの最適な近似のパラメーターがわかっている場合は、それをより小さな次元に投影できます。これを回転して、近似GMMのコンポーネントの主軸を確認できます。

その結果、3Dビューの視覚を使用して、高次元データの最も重要な部分を見るための、有益で視覚的にアクセス可能な方法になります。

編集:(確かなこと、whuber)

形状を見る方法はいくつかあります。

  • 平均の傾向を見ることができます。対数正規分布は、次第に近づき、その重みが進行に伴って小さくなる一連のガウス分布によって近似されます。合計は、より重い尾に近似します。n次元では、このようなコンポーネントのシーケンスがローブを作成します。平均間の距離(高次元への変換)と方向間の余弦も追跡できます。これにより、よりアクセスしやすいディメンションに変換されます。
  • 軸が重み、平均の大きさ、分散/共分散の大きさである3Dシステムを作成できます。クラスター数が非常に多い場合、これはそれらを互いに比較して表示する方法です。これは、2k単位の5万個の部品を3D空間のいくつかの雲に変換するための貴重な方法です。必要に応じて、そのスペースでプロセス制御を実行できます。部品パラメータに適合したガウス混合モデルのコンポーネントに対するガウス混合モデルベースの制御を使用する再帰が好きです。
  • 整頓については、ごくわずかな重量、共分散ごとの重量などで捨てることができます。
  • R2
  • 交差する泡のように見ることができます。GMMクラスターの各ペアの間には、等確率(Kullback-Leibler発散がゼロ)の場所が存在します。その位置を追跡する場合、その場所でのメンバーシップの確率でフィルタリングできます。分類境界のポイントが表示されます。これは、「loners」を分離するのに役立ちます。メンバーごとにしきい値を超えるこのような境界の数をカウントし、コンポーネントごとに「接続性」のリストを取得できます。また、場所間の角度と距離を調べることもできます。
  • ガウスPDFが与えられた乱数を使用して空間をリサンプリングし、主成分分析を実行して、固有形状とそれに関連付けられた固有値を確認できます。

編集:

shapeはどういう意味ですか? 彼らは特異性がすべての良いコミュニケーションの魂だと言います。 「測定」とはどういう意味ですか?

意味についてのアイデア:

  • 眼球の標準感覚/一般的な形の感覚。(非常に質的で視覚的なアクセシビリティ)
  • GD&T形状の尺度(共面性、同心性など)(極めて定量的)
  • 数値(固有値、共分散など)
  • 有用な縮小次元座標(GMMパラメーターが次元になるなど)
  • ノイズが低減されたシステム(何らかの方法で平滑化されてから提示されます)

「いくつかの方法」のほとんどは、これらのいくつかのバリエーションです。


3

これはかなり単純化されているかもしれませんが、各クラスターで固有値分析を行うことにより、ある程度の洞察を得ることができます。

私がしようとしているのは、クラスターに割り当てられたすべてのポイントを取得し、それらを多変量ガウスに適合させることです。次に、近似共分散行列の固有値を計算してプロットできます。これを行うには多くの方法があります。おそらく最もよく知られ、広く使用されているものは、主成分分析またはPCAと呼ばれます

固有値(スペクトルとも呼ばれる)を取得したら、それらの相対サイズを調べて、特定の次元でクラスターがどのように「引き伸ばされている」かを判断できます。スペクトルの均一性が低いほど、クラスターは「葉巻型」になり、スペクトルの均一性が高いほど、クラスターはより球状になります。固有値がどの程度不均一であるか(スペクトルエントロピー?)を示すために、何らかのメトリックを定義することもできます。http://en.wikipedia.org/wiki/Spectral_flatnessを参照してください

副次的な利点として、主成分(大きな固有値に関連付けられた固有ベクトル)を調べて、「葉巻型」クラスターがデータ空間のどこを指しているかを確認できます。

当然、これは任意のクラスターの粗い近似です。クラスター内のポイントを単一の楕円体としてモデル化するだけです。しかし、私が言ったように、それはあなたにいくらかの洞察を与えるかもしれません。


+1 Simplistic、多分。しかし、これは効果的かつ実用的です。多変量ガウスフィッティングには利点はないようです。中心にあるクラスター内データのSVDを使用するだけです(これは本質的にクラスター上のPCAです)。
whuber

@whuberはい、同じことをしていると思います!理論は、PCAがそのプロセスの具体的な実装であるのに対し、フィッティングは舞台裏で起こっていると言っています。これをより明確にするために回答を編集します。
lmjohns3

2

4C、ERiC、LMCLUSなどの相関クラスタリングアルゴリズムは通常、クラスターを線形多様体と見なします。すなわち、d次元空間のk次元超平面。まあ、4CとERiCの場合、局所的にのみ線形であるため、実際には非凸状になります。しかし、彼らはまだ局所次元が減少したクラスターを検出しようとしています。

高次元データで任意の形状のクラスターを見つけることは非常に難しい問題です。特に、検索空間を爆発させる次元の呪いのため、同時に重要な結果が必要場合は、はるかに大きな入力データが必要になります。アルゴリズムが多すぎると、見つけたものがまだ重要であるか、ランダムである可能性があるかどうかに注意を払っていません。

実際、高次元空間での複雑なクラスターの非凸性の凸性について考える前に、解決すべき他の問題があると信じています。

また、高次元での凸包の計算の複雑さもご覧ください...

また、好奇心を超えた真のユースケースはありますか?


2

次元が2または3より大きくない場合は、対象のクラスターを2D空間に複数回投影して結果を視覚化するか、非線形性の2D測定を使用することができます。これは、Random Projections http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdfという方法のためだと思いました。

インデックスを作成するために、ランダム投影を使用して次元を減らすことができます。理論は、2つの点がD次元で近接しており、dを使用してd次元にランダムに投影すると、

具体的には、地球を平らな面に投影することを考えることができます。どのように投影しても、ニューヨークとニュージャージーは一緒になりますが、ニューヨークとロンドンを一緒に押すことはめったにありません。

これが厳密に役立つかどうかはわかりませんが、クラスターを視覚化する簡単な方法かもしれません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.