階層クラスター分析の樹状図の解釈方法


25

以下のRの例を考えてください。

plot( hclust(dist(USArrests), "ave") )
  1. y軸の「高さ」とは正確に何を意味しますか?

  2. ノースカロライナ州とカリフォルニア州を見る(むしろ左側)。カリフォルニアはアリゾナよりもノースカロライナに「近い」のでしょうか?この解釈をすることはできますか?

  3. ハワイ(右)はかなり遅れてクラスターに参加します。これは他の州よりも「高い」ため、見ることができます。一般に、樹状図のラベルが「高い」または「低い」という事実をどのように解釈できますか?

ここに画像の説明を入力してください


1
の回答?hclust
Scortchi -復活モニカ

3
ラベルの位置には意味がありません。y軸を理解していない場合、階層的クラスタリングをよく理解している印象を与えられているのは奇妙です。
ステファンローラン14年

1
また、階層的クラスタリングは、一般的にないことに注意してくださいないあなたを与える階層(ツリー)の分類を。特に、使用した平均法はそうではありません。ここで最後のポイントを参照してください。
ttnphns 14年

1
ただし、ラベルの位置には少し意味があります。位置が高ければ高いほど、オブジェクトは他の人と後でリンクし、したがって、それは外れ値または迷子のようになります。
ttnphns 14年

3
@StéphaneLaurentあなたはこの音が矛盾のように聞こえるのは正しいです。一方で、私は、私がよく知っているデータの系統樹をインターペットできるとまだ思っています。さらに、ttnphnsとPeter Flomが指摘しているように、ラベルの位置には少しの意味があります。最後に、あなたのコメントは私にとって建設的ではありませんでした。
リック14年

回答:


17

1)y軸は、個々のデータポイントまたはクラスターの近さの尺度です。

2)カリフォルニア州とアリゾナ州はフロリダ州から等しく離れています。なぜなら、カリフォルニア州とアリゾナ州はどちらかがフロリダ州に加わる前にクラスター内にあるからです。

3)ハワイはかなり遅く参加します。これは、HIが参加する前に、それが参加するクラスターがより近くなることを意味します。しかし、それほど近くはありません。結合するクラスター(右側のクラスター)は約45でしか形成されないことに注意してください。HIが他の状態よりも後にクラスターに結合するという事実は、単に(選択したメトリックを使用して)HIがそれほど近くないことを意味します特定の状態。


したがって、「高さ」はリンク基準の値(ここに示すように)のアイデアを与えてくれます -私の場合、クラスター間の相互距離の平均です。これは正解?ありがとう!
リック14年

y軸はクラスターとポイント間のdis類似性の尺度ではありませんか?すなわち、物事が最も類似していないときに最大であり、@ PeterFlomの逆ではないため、近接性が否定的です
フェリペアルメイダ

21

階層的クラスタリングの学習を試みたときに同じ質問があり、次のpdfが非常に役立つことがわかりました。

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

リチャードがすでに手順について明確になっているとしても、質問を閲覧する他の人はおそらく十分な数学の背景を持っていない人のための非常にシンプルで明確なESPを使用することができます。


3
リンクされたpdfが非常に優れていることを繰り返し申し上げます。
ハイゼンベルク

参照:Klimberg、Ronald K.、およびBD McCullough。2013. JMPによる予測分析の基礎の「第7章:階層クラスター分析」ノースカロライナ州キャリー:SAS Institute。
jay.sf

1

水平軸はクラスターを表します。樹状図の垂直スケールは、距離または非類似度を表します。2つのクラスターの各結合(融合)は、図では垂直線を2本の垂直線に分割することで表されます。短いバーで示されるスプリットの垂直位置は、2つのクラスター間の距離(非類似度)を示します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.