多次元クラスターデータを視覚的にプロットする


17

16個の変数を含むデータセットがあり、kmeansでクラスタリングした後、2つのグループをプロットしたいと思います。

2つのクラスターを視覚的に表すには、どのプロットをお勧めしますか?

回答:


22

単一の正しい視覚化はありません。クラスターのどの側面を表示または強調するかによって異なります。

各変数がどのように寄与するかを知りたいですか?平行座標プロットを検討してください。

2つのクラスターとクラスター平均の平行座標

クラスターが主成分に沿ってどのように分布しているかを確認しますか?バイプロット(2Dまたは3D)を検討します。

クラスターバイプロット

すべての次元でクラスターの外れ値を探しますか?クラスターの中心2からの距離に対するクラスター1の中心からの距離の散布図を考えてみてください(Kの定義により、各クラスターは対角線の片側になります)。

ここに画像の説明を入力してください

クラスタリングと比較したペアワイズ関係を見たいですか?クラスターで色分けされた散布図行列を考えてみましょう。

ここに画像の説明を入力してください

クラスター距離の要約ビューを表示しますか?ヒストグラム、バイオリンプロット、ボックスプロットなど、分布の視覚化の比較を検討してください。

ここに画像の説明を入力してください


2

多変数表示は、特にその数の変数の場合、注意が必要です。2つの提案があります。

クラスタリングにとって特に重要な、または実質的に興味深い特定の変数がある場合、散布図行列を使用して、興味深い変数間の二変量関係を表示できます。拡張された散布図(たとえば、3番目の変数に比例したサイズの図形を使用)を使用して、さらに次元を追加することもできます。

または、クラスタリングを示す高次元データを表示するために開発されたスプリングプロットを使用できます。これは、私がよく知っている文献では見たことがないのですが、多変量データを表示する非常に興味深い方法だと思います。次の引用は、プロットが最初に提案された場所です。

ホフマン、PEら。(1997)DNAビジュアルおよび分析データマイニング。IEEE可視化の議事録。アリゾナ州フェニックス、pp。437-441。

そして、私が最初に言及したのはここです。

さて、公正な警告として、私はオレンジ以外のスプリングプロットの実装を見つけることができませんでした。それから、私はそんなに一生懸命検索していません!

私はあなたのデータが実数値で連続的であると仮定しています、もしそれが離散的または非区間的であるなら、などなど、どちらのプロットも役に立たないと思います。


1
R用Radvizの実装があります:cran.r-project.org/web/packages/Radviz/vignettes/...
pmav99

1

Rのfactoextraパッケージのfviz_cluster関数を使用できます。データの散布図が表示され、ポイントの異なる色がクラスターになります。

私の理解する限りでは、この関数はPCAを実行してから、上位2つのpcを選択し、それらを2Dにプロットします。

私の答えの提案/改善は大歓迎です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.