50サンプルのデータセットがあります。各サンプルは、11個の(相関している可能性がある)ブール機能で構成されています。これらのサンプルを2Dプロットで視覚化し、50個のサンプルの間にクラスター/グループがあるかどうかを調べたいと思います。
私は次の2つの方法を試しました。
(a)50x11マトリックスでPCAを実行し、最初の2つの主成分を選択します。データを2Dプロットに投影し、簡単なK平均法を実行してクラスターを特定します。
(b)50x50(コサイン)類似性行列を作成します。次元削減のためにスペクトルクラスタリングを実行し、その後再びK-meansを実行します。
直接PCAを実行することと、類似度行列の固有値を使用することの概念的な違いは何ですか?一方が他方よりも優れていますか?
また、そのようなデータを2Dで視覚化するより良い方法はありますか?私のサンプルサイズは常に50に制限されており、機能セットは常に10から15の範囲にあるため、複数のアプローチをその場で試し、最適なアプローチを選択します。