クラスタリング品質測定


17

入力パラメーター(クラスターの数)を使用したクラスタリングアルゴリズム(k-meansではない)があります。クラスタリングを実行した後、このクラスタリングの品質を定量的に測定したいと思います。クラスタリングアルゴリズムには、1つの重要な特性があります。以下のために Iフィード場合結果として、このアルゴリズムにそれらの間の任意の有意な区別なしにデータ点を私が含む一つのクラスタ取得するのデータ点とを有するものクラスタのデータポイントを。明らかにこれは私が望むものではありません。そこで、この品質尺度を計算して、このクラスタリングの合理性を推定したいと思います。理想的には、異なるについてこの測定値を比較することができます。したがって、の範囲でクラスタリングを実行しますk = 2 N N 1 1 k kkk=2NN11kk最高の品質のものを選択してください。このような品質尺度を計算するにはどうすればよいですか?

更新:

が不適切なクラスタリングである場合の例を次に示します。平面上に正三角形を形成する3点があるとしましょう。これらのポイントを2つのクラスターに分割することは、1つまたは3つのクラスターに分割することより明らかに悪いです。(N1,1)


私にはこれは明らかではありません。私は実際には常に異なるサイズのクラスターを見ています
...-アノニムース

回答:


12

メトリックの選択は、むしろクラスタリングの目的と考えるものに依存します。個人的には、クラスタリングは、それぞれ異なるデータ生成プロセスによって生成された観測の異なるグループを識別することに関するものだと思います。そのため、既知のデータ生成プロセスからデータを生成することによりクラスタリングの品質をテストし、クラスタリングによってパターンが誤分類される頻度を計算します。もちろん、これには各生成プロセスからのパターンの分布についての仮定が含まれますが、教師付き分類用に設計されたデータセットを使用できます。

他の人は、クラスタリングを、類似した属性値を持つポイントをグループ化しようとするものと見なします。その場合、SSEなどの測定が適用可能です。ただし、このクラスタリングの定義は、基礎となる分布について一般化できるものではなく、データの特定のサンプルについてのみ伝えるため、かなり不十分であると思います。メソッドが重複するクラスターを処理する方法は、このビューの特定の問題です(「データ生成プロセス」ビューの場合、実際の問題は発生せず、クラスターメンバーシップの確率が得られるだけです)。


3
モデルベースのクラスタリング純粋な距離ベースの教師なしクラスタリングの違いを強調するために+1 。
-chl

1
両方の目的は、異なる設定でフェアに使用されると思います。手元のデータのみを見るために実際に行う多くのコンテキストがあります(例:外れ値の定義)。また、異なるデータ生成プロセスに取得できるようになる前に、あなたは...最良のあなたの2番目の定義で行われる探査を必要とする
エティエンヌ低Décarie

どちらの方法にも用途があることをエティエンヌに同意します。ただし、観測値が外れ値であるかどうかは、データ生成プロセスについて暗黙的に仮定しているため、2番目の形式のクラスタリングは、適切に方向付けようとするときのデータを理解するための最初のステップにすぎません。
ディクラン有袋類

4

クラスタリングは監視されていないため、最適なクラスタリングが何であるかを先験的に知ることは困難です。これは研究トピックです。有名な定量的社会科学者であるゲイリー・キングは、このトピックに関する次の記事を持っています。


+!うん; @Maxこの「明白な」クラスタリングとはどういうことですか?

@mbq:実際のところ、これに適したクラスタリングは何なのかわかりません。「自明」なことで、(N-1、1)は間違いなくこれに適したクラスタリングではないことを述べています。優れたクラスタリングは、クラスターが1つしかないため、クラスタリングはまったく行われません。または、クラスター数が2を超えるいくつかのクラスター化
最大値

リンクが壊れているようです。
エティエンヌローデカリー

記事への更新されたリンク:gking.harvard.edu/files/abs/discov-abs.shtml
Dolan

4

ここにはいくつかの対策がありますが、さらに多くの対策があります。

SSE:各クラスターのアイテムからの二乗誤差の合計。

クラスター間距離:各クラスター重心間の平方距離の合計。

各クラスターのクラスター内距離:各クラスターのアイテムからその重心までの平方距離の合計。

最大半径:インスタンスからそのクラスター重心までの最大距離。

平均半径:インスタンスからクラスター重心までの最大距離をクラスター数で割った合計。


クラスター間距離でイントラを使用しようとしましたが、1つのポイントを持つクラスターに役立つものは考えられませんでした。また、中心点もありません。ポイント間の距離しかありません。
マックス

クラスター間距離が大きいほど、クラスターの中心間の距離を計算して測定できます。
マリアナ・ソファー

4

クラスタリング検証領域に遭遇しました。私の学生は、以下で説明されている手法を使用して検証を行いました

A.バネルジーとRNデイブ。ホプキンス統計を使用したクラスターの検証。2004ファジィシステムに関するIEEE国際会議IEEE Cat No04CH37542、1:p。149–153、2004。

クラスターが有効な場合、データポイントはクラスター内に均一に分散されるという原則に基づいています。

ただし、その前に、データにいわゆるクラスタリング傾向があるかどうか、つまりクラスタリングの価値と最適なクラスター数があるかどうかを判断する必要があります。

S.サイッタ、B。ラファエル、IFCスミス。クラスタリングの包括的な妥当性指標。Intell。データ分析、12(6):p。529–548、2008。


3

他の人が指摘したように、「品質」をクラスタリングする多くの尺度があります。ほとんどのプログラムはSSEを最小化します。データ内のノイズ、メソッド内のノイズ、または平坦な最小値、つまりサスカチュワン州の低い点について、単一の数字で多くを伝えることはできません。

そのため、「41」に減らす前に、まず、与えられたクラスタリングを視覚化して、感じてみてください。次に、3回実行します。SSE41、39、43または41、28、107を取得しますか?クラスターのサイズと半径は?

(追加:)シルエットプロットとシルエットスコアを見てください。たとえば、Izenmanの本、 Modern Multivariate Statistical Techniques (2008、731p、isbn 0387781889)を参照してください。


3

シルエットは、クラスタリング結果を評価するために使用することができます。これは、クラスター内の平均距離を、最も近いクラスター内のポイントまでの平均距離と比較することにより行われます。


2

監視なしランダムフォレストで使用されるような方法を使用できます。

ランダムフォレストアルゴリズムは、教師なし分類を2つのクラスの問題として扱います。これは、データ内の依存関係構造を削除することで、最初のデータセットからまったく異なる人工およびランダムデータセットが作成された場合です(ランダム化)。

次に、このような人工的でランダムなデータセットを作成し、クラスタリングモデルを適用して、真のデータとランダムデータの選択基準(SSEなど)を比較します。

ランダム化、順列、ブートストラップ、バギング、および/またはジャッキニフィングを混合すると、特定のクラスタリングモデルが、真のデータの値をランダムデータよりも小さい値にする回数を測定することにより、P値に類似した測定値を得ることができます。選択(例:SSE、またはout of bagエラー予測)。

したがって、メトリックは、真のデータとランダムデータの間で選択するメトリックの差(確率、サイズの差など)です。

多くのモデルでこれを繰り返すと、モデルを区別できます。

これはRで実装できます。

randomforestはRで利用可能です


+1、私はこのアイデアが好きです。ただし、データのランダム化/並べ替えは、変数b / tの関係のみを壊します。これは、単一の変数を持つクラスタリングがある場合は機能しません。
GUNG -復活モニカ

1

クラスタリングアルゴリズムが決定論的でない場合は、クラスタリングの「安定性」を測定してみてください-各2つの観測値が同じクラスターに属する頻度を調べてください。これは一般的に興味深い方法で、kmeansアルゴリズムでkを選択するのに役立ちます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.