PCAはk-meansクラスタリング分析でどのように役立ちますか?


32

背景:住宅のユニット密度、人口密度、緑地面積、住宅価格、学校/保健センター/デイケアセンターの数など、社会経済的特性に基づいて都市の住宅地をグループに分類したい住宅地をいくつのグループに分けることができるか、そしてそれらのユニークな特性は何かを理解したいと思います。この情報は、都市計画を促進する可能性があります。

いくつかの例に基づいて(このブログの投稿:Delta AircraftのPCAとK-meansクラスタリングを参照)、分析を行う方法は次のとおりです。

  1. 最初にPCA分析を行います。

  2. PCAの結果に基づいて一意のグループ(クラスター)の数を決定します(たとえば、「エルボ」法、または全分散の80〜90%を説明するコンポーネントの数を使用)。

  3. クラスターの数を決定したら、k-meansクラスタリングを適用して分類を行います。

私の質問: PCAコンポーネントの数はクラスター分析に関係しているようです。たとえば、5つのPCAコンポーネントがすべての機能のバリエーションの90%以上を説明している場合、k-meansクラスタリングを適用して5つのクラスターを取得します。それでは、PCA分析の5つのコンポーネントに正確に対応する5つのグループでしょうか?

別の言葉で言えば、私の質問は、PCA分析とk-meansクラスタリングの関係は何ですか?

更新: Emre、xeon、およびKirillの入力に感謝します。したがって、現在の答え:

  1. クラスタリング分析の前にPCAを実行することは、特徴抽出機能としての次元削減とクラスターの視覚化/表示にも役立ちます。

  2. クラスタリング後にPCAを実行すると、クラスタリングアルゴリズムを検証できます(参照:カーネル主成分分析)。

  3. PCAは、クラスタリングの前にデータセットの次元を減らすために時々適用されます。ただし、Yeung&Ruzzo(2000)は、元の変数の代わりにPCを使用してクラスタリングしても、クラスターの品質が必ずしも向上しないことを示しました。特に、最初の数台のPC(データの変動の大部分を含む)は、必ずしもクラスター構造の大部分をキャプチャーするわけではありません。

    • Yeung、Ka Yee、およびWalter L. Ruzzo。遺伝子発現データをクラスタリングするための主成分分析に関する実証的研究。技術レポート、ワシントン大学、2000年コンピューター科学工学科(pdf
  4. 2段階のクラスタリング分析の前に、PCAが必要と思われました。Ibes(2015)に基づき、PCAで特定された要因を使用してクラスター分析が実行されました。


1
PCAを使用して、特徴抽出機能として次元削減を行い、クラスターを視覚化できます。
エムレ

3
簡単に始めましょう:持っているデータに対して直接分類器を実行し、パフォーマンスに注意してください。パフォーマンスに満足できない場合は、PCA(並べ替えられた固有値プロットの「膝」で成分の数を選択)とk-meansを実行してみてください。優れたクラスターが表示されている場合、PCA +クラシファイアが適切に機能する可能性が高くなります。
ヴラディスラフドブガレス

1
クラスタリングもPCAを実行して、クラスタリングアルゴリズムを検証できます。各ポイントをクラスターラベルで色分けします。カーネルPCAを調べることもお勧めします
エムレ

次元削減とクラスタリングを同時に実行する方法があります。これらの方法は、クラスターの識別を容易にするために、最適に選択された低次元表現を探します。たとえば、Rのclustrdパッケージと関連参照を参照してください。
ナット

回答:


16

PCAはクラスタリング手法ではありません。ただし、クラスターを明らかにすることが役立つ場合があります。

010

1102101010

0


ご意見ありがとうございます。平均が0の10次元正規分布とは何ですか?10個の入力フィーチャ変数を意味し、各変数は正規分布に従いますか?
enaJ

申し訳ありませんが、10次元のベクトルと10x10の対称行列である共分散行列になる平均を持つ多変量正規分布に従うランダム変数についてお話ししています。
キリル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.