異なる距離と方法で得られた階層的クラスタリング樹状図の比較


28

[最初のタイトル「階層的クラスタリングツリーの類似性の測定」は、トピックをよりよく反映するために@ttnphnsによって後に変更されました]

私は患者記録のデータフレームでいくつかの階層的クラスター分析を実行しています(例:http ://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=yに類似)

私は、さまざまな距離測定、さまざまなパラメーターの重み、さまざまな階層的手法を試し、最終的なクラスター/構造/ビューのツリー(樹形図)への影響を理解しています。異なる階層ツリー間の差を計算する標準的な計算/尺度があるかどうか、およびRでこれを実装する方法(たとえば、一部のツリーがほぼ同一で、一部が大幅に異なることを定量化する)

回答:


44

2つの階層(ツリーのような)構造の類似性を比較するために、コフェネティック相関の考えに基づく測定が使用されます。しかし、階層的クラスタリングで「正しい」方法または距離測定を選択するために、樹状図の比較を実行するのは正しいですか?

階層クラスター分析に関して、非常に重要ないくつかのポイント-隠れた障害-があります。

  • 異なる凝集方法で得られた樹状図を視覚的に比較しないでください(より強いパーティションを提供する方法選択するため)。どのメソッドが「より良い」かはわかりません。各メソッドに、独自の「プロトタイプ」ツリーの外観があります。データにクラスター構造がない場合やランダムなクラスター構造がある場合でも、ツリーは一貫して異なります。(そして、これらの本質的な違いを取り除く標準化や手段が存在するとは思いません。)ただし、同じ方法で異なるデータで生成された結果の樹状図の外観を比較できます。マキシム:さまざまな方法の後の樹状図の直接的な外観比較は受け入れられません
  • Ward法の系統樹を見てクラスターの数(つまり、ツリーをカットする場所)を決定しないでください。ワードでは、ツリーは平均化された衝突係数ではなく、総和の成長を示します。その結果、後のクラスターはポイントの数だけ大きくなるため、後のクラスターはツリー上で誤解を招くほど「良く」見えるようになります。ワードの系統樹を適切に標準化するには、各ステップでの係数成長を、結合される2つのクラスター内のポイントの総数で除算します(ただし、標準化されたワード系統図は、グラフィカルに実装するのが難しい場合があります)。1 マキシム:樹形図の外観を考慮してカットレベルを選択することは、可能な限りパーティションを選択する最良の方法ではなく、一部の方法では誤解を招く可能性があります。代わりに、いくつかの正式な内部クラスタリング基準に依存することをお勧めします。
  • 距離測定や凝集法で「実験」を禁止する人は誰もいませんが、盲目的な試行ではなく、距離と方法を意識的に選択することをお勧めします。距離は、あなたが興味のある違いの側面を反映する必要があり、方法-知っている必要があります-は、クラスターの特定の原型を意味します(たとえば、ウォードクラスターのメタファーは、タイプです;完全なリンケージ後のクラスターはこと [趣味やプロットによって];単結合後のクラスタは以下のようになり、スペクトル [チェーン];重心法の後にクラスタがあろうプラットフォームの近接 [政治];平均連結クラスターは、概念的に最も未分化され、あろう一般一体化クラス)。
  • 一部のメソッドは、適切な距離測定および/または適切なタイプのデータを呼び出します。たとえば、ウォードと重心は、ユークリッド空間での重心の計算に関与するため、論理的に(平方)ユークリッド距離が必要です。また、幾何学的重心の計算は、たとえばバイナリデータとは一致しません。データはスケール/連続である必要があります。マキシム:データ/距離/方法の仮定と対応は非常に重要であり、それほど簡単な質問ではありません。
  • 距離行列の事前計算とクラスタリングを行う前処理(センタリング、スケーリング、その他の形式の変数/機能の変換など)も非常に重要な問題です。結果に劇的な影響を与えます。どのような前処理があなたを助け、解釈の観点から理にかなっているかを考えてください。また、クラスター分析を試みる前に、データをグラフィカルに注意深く検査することを恥ずかしがらないでください。
  • 凝集的クラスタリングのすべての方法が、哲学的根拠に基づいて階層的な分類を提供しているとみなせるわけではありません。たとえば、重心法は、ある意味で階層を与えます。クラスター中心は、クラスター全体として出現し、定義する機能であり、クラスターのマージはその機能によって駆動されるためです。一方、完全なリンケージは、2つのサブクラスターをマージするときに両方のサブクラスターを「破棄」します。これは、2つの個々のオブジェクト間の距離が離れているためです。したがって、完全なリンケージ樹状図は単なる収集の履歴であり、親子の分類法ではありません。マキシム:階層型凝集クラスター分析では、一般に、結果を階層型分類法として見るのではなく、その結果に基づいてパーティションを作成することを想定しています。
  • 階層的クラスタリングは、最終的に最適なソリューションに近づくことを期待して、各ステップに表示される選択肢の中から最良の選択をする典型的な貪欲なアルゴリズムです。ただし、高レベルのステップに表示される「最良の」選択は、そのステップで理論的に可能なグローバル最適よりも劣る可能性があります。通常、ステップが大きいほど、準最適性は大きくなります。通常、最後のステップが重要なクラスターはほとんどありません。そして、先ほど述べたように、ステップの数が多い場合(1000番目のステップなど)は、比較的貧弱であると予想されます。そのため、プログラムがそのような大きな距離の行列を処理できたとしても、オブジェクトの大きなサンプル(数千のオブジェクトの数)に対して階層的クラスタリングは一般的に推奨されません

上記の予防措置を講じた後、階層分類間の類似性の尺度が必要だと考え続ける場合は、「樹状図の比較」および「階層分類の比較」をグーグル検索することができます。両者の同じデータセットの系統樹を有する:ほとんどのアイデアはコーフェン相関に基づくことができる自分自身を示唆一つNせ、オブジェクトを colligation(または多分そのランク、ステップ数)の係数であるオブジェクトのすべての対の間IJで一方の樹状図とは、もう一方の樹状図でも同様です。相関またはコサインを計算します。バツjYj


1 ワードの方法の樹状図の問題に関する後の更新。異なるクラスタリングプログラムは、Wardの方法に対して異なる変換された凝集係数を出力する場合があります。したがって、クラスタリングの履歴と結果が同じであるにもかかわらず、それらの樹状図は多少異なって見えます。たとえば、SPSSはウルトラメトリック係数からルートを取得せず、出力にそれらを累積します。別の伝統(たとえば、いくつかのRパッケージに見られる)は、ルート(いわゆる「Ward-2」実装)と累積しない。繰り返しますが、このような違いは、樹状図の一般的な形状/外観にのみ影響し、クラスタリング結果には影響しません。ただし、樹状図の外観は、クラスターの数に関する決定に影響する可能性があります。あなたのプログラムからこれらの係数が何であるか、そしてそれらを正しく解釈する方法を正確に知らない限り、Wardの方法の樹状図にまったく頼らないのが道徳です。


5
私はこれのほとんどすべてを二番目にできます。私が追加したい2つのポイント:A)あなたがしているように見えることは、ある種の過剰適合です。メジャー、重み、および方法を体系的に評価することにより、最終的には現在のデータに固有のパラメーターが非常に固有になり、他のデータやさらに後のデータでは役に立たなくなる可能性が高くなります。B)樹状図の類似性を知るのは良いことです。後でそれらをどうするかを検討し、最終結果で評価してみてください。中間結果の評価は誤解を招く可能性があります。
アノニムース

1
それでもトピックに興味がある場合は、DS SEに関する私の最近の答えが役立つと思いました。特に、階層的なトピックモデルへの頻度の高いアプローチとベイジアンアプローチの両方のカバレッジを提供しています(埋め込まれたクラス情報を含む)そして、類似性測度を選択します。
アレクサンドルブレフ

@ttnphns、「コリジョン係数」を使用して2つの階層分類を比較する方法について詳しく説明してください。
バシール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.