クラスター分析を行うには、変数の数を減らす必要があります。私の変数は強く相関しているので、因子分析 PCA(主成分分析)を行うことを考えました。ただし、結果のスコアを使用する場合、クラスターはあまり正確ではありません(文献の以前の分類と比較して)。
質問:
回転行列を使用して、各コンポーネント/ファクターの負荷が最も大きい変数を選択し、これらの変数のみをクラスタリングに使用できますか?
書誌参照も参考になります。
更新:
いくつかの明確化:
私の目標: SPSSによる2ステップアルゴリズムを使用してクラスター分析を実行する必要がありますが、変数は独立していないため、それらの一部を破棄することを考えました。
私のデータセット: 100,000ケースの15個のスカラーパラメータ(変数)に取り組んでいます。一部の変数は強く相関しています( Pearson)
疑い: 独立変数のみが必要なので、主成分分析を実行し(申し訳ありませんが、元の質問で間違って因子分析について話しました、私の間違い)、各成分の負荷が最も大きい変数のみを選択します。PCAプロセスにはいくつかの任意のステップがあることは知っていますが、この選択は、変数を選択するためにITジョリフ(1972および2002)によって提案され、1999年にJRキングおよびDAジャクソンによって提案された「メソッドB4。
そのため、この方法で独立変数のサブグループを選択することを考えていました。次に、グループを使用してさまざまなクラスター分析を実行し、結果を比較します。