背景:住宅のユニット密度、人口密度、緑地面積、住宅価格、学校/保健センター/デイケアセンターの数など、社会経済的特性に基づいて都市の住宅地をグループに分類したい住宅地をいくつのグループに分けることができるか、そしてそれらのユニークな特性は何かを理解したいと思います。この情報は、都市計画を促進する可能性があります。
いくつかの例に基づいて(このブログの投稿:Delta AircraftのPCAとK-meansクラスタリングを参照)、分析を行う方法は次のとおりです。
最初にPCA分析を行います。
PCAの結果に基づいて一意のグループ(クラスター)の数を決定します(たとえば、「エルボ」法、または全分散の80〜90%を説明するコンポーネントの数を使用)。
クラスターの数を決定したら、k-meansクラスタリングを適用して分類を行います。
私の質問: PCAコンポーネントの数はクラスター分析に関係しているようです。たとえば、5つのPCAコンポーネントがすべての機能のバリエーションの90%以上を説明している場合、k-meansクラスタリングを適用して5つのクラスターを取得します。それでは、PCA分析の5つのコンポーネントに正確に対応する5つのグループでしょうか?
別の言葉で言えば、私の質問は、PCA分析とk-meansクラスタリングの関係は何ですか?
更新: Emre、xeon、およびKirillの入力に感謝します。したがって、現在の答え:
クラスタリング分析の前にPCAを実行することは、特徴抽出機能としての次元削減とクラスターの視覚化/表示にも役立ちます。
クラスタリング後にPCAを実行すると、クラスタリングアルゴリズムを検証できます(参照:カーネル主成分分析)。
PCAは、クラスタリングの前にデータセットの次元を減らすために時々適用されます。ただし、Yeung&Ruzzo(2000)は、元の変数の代わりにPCを使用してクラスタリングしても、クラスターの品質が必ずしも向上しないことを示しました。特に、最初の数台のPC(データの変動の大部分を含む)は、必ずしもクラスター構造の大部分をキャプチャーするわけではありません。
- Yeung、Ka Yee、およびWalter L. Ruzzo。遺伝子発現データをクラスタリングするための主成分分析に関する実証的研究。技術レポート、ワシントン大学、2000年コンピューター科学工学科(pdf)
2段階のクラスタリング分析の前に、PCAが必要と思われました。Ibes(2015)に基づき、PCAで特定された要因を使用してクラスター分析が実行されました。
- Ibes、Dorothy C. 都市公園システムの多次元分類と公平性分析:新しい方法論とケーススタディアプリケーション。 景観と都市計画、第137巻、2015年5月、122〜137ページ。