クラスタリング方法を選択する方法は?クラスターソリューションを検証する方法(メソッドの選択を保証するため)


35

クラスター分析の最大の問題の1つは、使用するさまざまなクラスタリング手法(階層的クラスタリングのさまざまなリンケージ手法を含む)に基づいて異なる結論を導き出さなければならない場合があることです。

これについてのあなたの意見を知りたい- どの方法を選択し、どのようにするか。「クラスタリングの最良の方法は、正しい答えを与えることです」と言う人もいるかもしれません。しかし、クラスター分析は教師なしの手法であると考えられているのではないかと疑問に思うかもしれません。どのメソッドまたはリンケージが正しい答えであるかをどのように知ることができますか?

一般的に:クラスタリングだけで十分に堅牢であるか?または、2つ目のメソッドが必要で、両方に基づいて共有結果を取得しますか?

私の質問は、クラスタリングのパフォーマンスを検証/評価する方法についてだけでなく、より広範なものです- ある基準に基づいて、あるクラスタリング方法/アルゴリズムを選択/優先しますか?また、データをクラスター化する方法を選択する際に注意すべき一般的な警告はありますか?

私はそれが非常に一般的な質問であり、答えるのが非常に難しいことを知っています。これについての詳細を知るためのコメント、アドバイス、提案があれば教えてください。


また、チェックこれと同様の質問を。
ttnphns

そしてこれ
ttnphns

2
内部および外部検証に関する具体的なリンク:this。そしてこれ。そしてそれ。そしてそれ。そしてそれ。そしてこれ。そしてさらに。さらに検索してください。
ttnphns

回答:


50

多くの場合、クラスター分析のように、「種をまくように刈る」ほど強力な分析手法は他にないと言います。

私はこれまたはそのクラスタリング方法の「正しさ」のいくつかの次元または側面を想像することができます:

  1. クラスターのメタファー「この方法は、特定のプロジェクトでのクラスターの概念に合ったクラスター(またはそのような方法)を構成するため、好ましい方法です」。各クラスタリングアルゴリズムまたはサブアルゴリズム/メソッドは、クラスターの対応する構造/構築/形状を意味します。階層的な方法に関しては、私はポイントの一つでこれを観察してきたここも、そしてここに。すなわち、いくつかのメソッドは、プロトタイプの「タイプ」であるクラスターを提供し、他のメソッドは「円による」関心、さらに他の「政治的なプラットフォーム」、「クラス」、「チェーン」などを提供します。たとえば、顧客セグメントをタイプとして見た場合-中間に圧縮された多かれ少なかれ球形で、Wardのリンケージ方式またはK-meansを選択しますが、単一のリンケージ方式は明確に選択しません。焦点の代表点が必要な場合は、medoidメソッドを使用できます。コアおよびペリフェラルの代表であるためにポイントをスクリーニングする必要がある場合、DBSCANアプローチを使用できます。

  2. データ/メソッドの仮定「データの性質やフォーマットがその傾向があるため、この方法を好みました」。この重要かつ広大なポイントは、上記のリンクでも言及されています。アルゴリズム/メソッドが異なれば、異なる種類のデータが必要になったり、データに適用される近接測定が異なる場合があります。定量的方法と定性的データの方法があります。混合物の定量的+定性的機能により、メソッド間の選択範囲が劇的に狭まります。ワードまたはK-means明示的または暗黙的に-任意の尺度ではなく、(平方)ユークリッド距離近接度尺度のみに基づいています。バイナリデータには、特別な類似性の尺度が必要になる場合があります。この尺度は、いくつかの方法(たとえば、ウォードやK-means)を使用して強く疑問を呈します。ビッグデータには、特別なアルゴリズムまたは特別な実装が必要になる場合があります。

  3. 1約)、そのため、高い有効性は、特定のデータセットのランダムな特性に一部起因する可能性があります。テストデータセットを持つことは常に有益です。]

  4. 外部有効性「この方法が好まれたのは、バックグラウンドが異なるクラスターや、私が知っている本当のクラスターと一致するクラスターが得られたからです」。クラスタリングパーティションが、重要なバックグラウンド(クラスター分析に参加していない)の特性で明らかに異なるクラスターを提示する場合、それはパーティションを作成したそのメソッドの資産です。差異の確認に適用される分析を使用します。多数の便利な外部クラスタリング基準も存在します(ランド、Fメジャーなど)。外部検証ケースのもう1つのバリアントは、自分でクラスターを生成したときなど、データ内の真のクラスターを何らかの方法で知っている(「グラウンドトゥルース」を知っている)場合です。次に、クラスタリング方法が実際のクラスターをどれだけ正確に発見できるかが、外部妥当性の尺度です。

  5. 交差検証「この方法は、データの同等のサンプル上で非常に類似したクラスターを提供したり、そのようなサンプルにうまく外挿したりするため、好まれました」。さまざまなアプローチとそれらのハイブリッドがあり、一部のクラスタリング手法ではより実行可能なものもあれば、他の手法で実行可能なものもあります。2つの主なアプローチは、安定性チェックと一般化可能性です。チェック。クラスタリング方法の安定性をチェックし、部分的に交差するセットまたは完全に分離したセットのデータをランダムに分割またはリサンプリングし、それぞれに対してクラスタリングを行います。次に、いくつかの緊急クラスター特性(クラスターの中心傾向の位置など)がセット全体で安定しているかどうかで、ソリューションを一致および比較します。一般化可能性の確認とは、トレインセットでクラスタリングを実行し、その緊急クラスタ特性またはルールを使用してテストセットのオブジェクトを割り当てること、さらにテストセットでクラスタリングを実行することを意味します。次に、テストセットオブジェクトの割り当て結果とクラスタリング結果のクラスターメンバーシップが比較されます。

  6. 解釈「この方法は、世界に意味があると説得力のあるクラスターを与えてくれたため、私はこの方法を好んだ」。それは統計的ではありません-それはあなたの心理的検証です。あなた、ドメイン、そしておそらくオーディエンス/クライアントにとって、結果はどれほど意味がありますか。最も解釈しやすいスパイシーな結果が得られる方法を選択してください。

  7. グレガリネス。一部の研究は定期的に行われ、すべての研究では「この方法が好ましかったのは、調査したすべての方法の中で他の多くの方法と同様の結果が得られたためです」と言うでしょう。これは、非常に普遍的なデータまたは非常に普遍的な方法が存在することを前提とする、ヒューリスティックではあるが疑わしい戦略です。

ポイント1と2は理論的なものであり、結果の取得に先行します。これらのポイントに排他的に依存しているのは、高慢で自信のある探索戦略です。ポイント3、4、および5は経験的であり、結果に従います。これらのポイントに排他的に依存しているのは、試行錯誤の試行錯誤的な戦略です。ポイント6は創造的であり、再正当化を試みるために結果を拒否することを意味します。ポイント7は忠実なモーヴェイズフォイです。

ポイント3から7は、クラスターの「最適な」数を選択する際の審査員になることもできます。


1


1
K平均とウォード階層クラスタリングのクラスター内分散の合計、ダンインデックスなど、内部有効性の尺度が本当に好きです。これらはデータに依存せず、特定のアルゴリズムでのみ意味をなすものであっても、クラスタリングアルゴリズムに依存しないことさえあります。
ダグラスデリッツォメネゲッティ

2
@DouglasDeRizzoMeneghetti私は同意しません。それらは、データに依存しない(属性の線形性や等価性など、データに対して非常に強い仮定を行う)ことも、クラスタリングアルゴリズムから独立していることもありません。実際、すべての内部測定値はそれ自体のクラスタリングアルゴリズムです(この機能に対して最適化できます-通常は高すぎて実行できません)。
アノニムース

1
クラスター内の分散の合計など、いくつかの内部有効性の尺度は、クラスター内の分散の合計を最小化する傾向があるクラスタリング手法を通じてクラスターメンバーシップを取得した場合により良い結果が得られること、およびDunnインデックスは、優れたクラスターがコンパクトで遠く離れていると仮定しています(「コンパクト」と「遠く離れた」の解釈は解釈に任されたままですが)が、これらのメジャーを特徴値とクラスターメンバーシップのみで計算できるという事実要素はそれらを非常に多目的にします。
ダグラスデリッツォメネゲッティ

9

主に危険信号の基準があります。特定のアプローチが確実に失敗することを示すデータのプロパティ。

  1. データの意味がわからない場合は、分析停止します。あなたはただ雲の中の動物を推測しています。

  2. 属性のスケールが異なり、非線形または歪んでいる場合。適切な正規化について非常に良い考えがない限り、これは分析を台無しにする可能性があります。停止して機能を理解することを学んでください。クラスタ化するには時期尚早です。

  3. すべての属性が同等(同じスケール)で線形であり、データセットを量子化する場合(および最小二乗誤差がデータに意味を持つ場合)、k-meansは試してみる価値があります。属性の種類とスケールが異なる場合、結果は明確に定義されていません。反例:年齢と収入。収入は非常に歪んでおり、x years = y dollarナンセンスです。

  4. 類似性または距離を定量化する方法について非常に明確なアイデアがある場合(意味のある方法で、ある数を計算する能力では不十分です)、階層クラスタリングとDBSCANが適切な選択です。類似性を定量化する方法がわからない場合は、まずその問題を解決してください。

最も一般的な問題は、人々が生データを最初に理解して正規化し、類似性を把握する必要があるときに、生データをクラスタリングにダンプしようとすることです。

例:

  1. RGB空間の画像のピクセル。最小二乗はある程度理にかなっており、すべての属性は同等です-k-meansは良い選択です。

  2. 地理データ:最小二乗法はあまり適切ではありません。外れ値があります。しかし、距離は非常に重要です。ノイズが多い場合はDBSCANを使用し、非常にクリーンなデータがある場合はHAC(階層型凝集クラスタリング)を使用します。

  3. 異なる生息地で観察された種。最小二乗は疑わしいですが、たとえばJaccardの類似性は意味があります。おそらく、観察結果はほとんどなく、「誤った」生息地はありません。HACを使用してください。


+1。の代わりに別の表現を見つけてほしいとお願いしますstop criteria。ご存じのように、「停止ルール」または「停止基準」は、階層クラスタリングのドメインにおける「内部クラスタリング基準」の同義語です。だから、それは没頭用語です。しかし、あなたは答えでこれらの言葉を異なる意味で意味し、これは読者を混乱させるかもしれません。
ttnphns

1
「レッドフラッグ基準」はどうですか?HACの停止しきい値、あなたのポイントがわかります。
アノニムース

私にとっては素晴らしい選択です。
ttnphns

PTS 2,3であなたは言う(non)linear attributes。どういう意味ですか?どのように「線形」属性ですか?それとも、線形関係、つまりクラスターの楕円形(曲線ではない)の形を言っていますか?
ttnphns

たとえば指数分布のデータ。
アノニムース

3

これを行うための良い正式な方法はないと思います。良い解決策は、実質的に意味のあるものだと思います。

もちろん、データを分割してクラスタリングを複数回試行することもできますが、どれが便利かという疑問が残ります。


2
理にかなっているという用語十分に強調できないと思います。それが私の答えの中心でもあります。まず、データを理解する必要があります。
アノニムース

@ Anony-Mousse、あなたの側からの行き過ぎ。データの「意味を理解する」方法を知らない、または忘れてしまう人はほとんどこのサイトにアクセスせず、ここで尋ねられたような良い質問をしないでしょう。
ttnphns

@ttnphnsこのような人々がこのサイトを訪れる頻度はわかりませんし、確かにそのような質問もしません。しかし、多くの人はクラスター分析がExcel関数のように機能することを期待しています。データを選択して「クラスター」をクリックすると、魔法の顧客セグメントが表示されます。これは、ランダムよりもはるかにうまく機能することはないようです。たとえば、このユーザーは自分のデータを理解できませんでした:stats.stackexchange.com/q/195521/7828
Anony-Mousse
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.