PCAを使用してクラスター分析の変数を選択できますか?


12

クラスター分析を行うには、変数の数を減らす必要があります。私の変数は強く相関しているので、因子分析 PCA(主成分分析)を行うことを考えました。ただし、結果のスコアを使用する場合、クラスターはあまり正確ではありません(文献の以前の分類と比較して)。

質問:

回転行列を使用して、各コンポーネント/ファクターの負荷が最も大きい変数を選択し、これらの変数のみをクラスタリングに使用できますか?

書誌参照も参考になります。

更新:

いくつかの明確化:

  • 私の目標: SPSSによる2ステップアルゴリズムを使用してクラスター分析を実行する必要がありますが、変数は独立していないため、それらの一部を破棄することを考えました。

  • 私のデータセット: 100,000ケースの15個のスカラーパラメータ(変数)に取り組んでいます。一部の変数は強く相関しています( Pearson)>0.9

  • 疑い: 独立変数のみが必要なので、主成分分析を実行し(申し訳ありませんが、元の質問で間違って因子分析について話しました、私の間違い)、各成分の負荷が最も大きい変数のみを選択します。PCAプロセスにはいくつかの任意のステップがあることは知っていますが、この選択は、変数を選択するためにITジョリフ(1972および2002)によって提案され、1999年にJRキングおよびDAジャクソンによって提案された「メソッドB4

    そのため、この方法で独立変数のサブグループを選択することを考えていました。次に、グループを使用してさまざまなクラスター分析を実行し、結果を比較します。


1
正しい答えがわかっている場合、なぜ分析を行うのですか?
StasK

1
別の注意として、なぜクラスター分析のために変数の数を減らす必要があると思いますか?クラスタ分析の最新のツールには、入力変数の数に関して制限がないと思います。もちろん、120項目のテストがある場合、事態は複雑になります。
StasK


このQのクラスター分析の側面を追加することで、オープンのままにしておくのに十分明確になるように思えます。
GUNG -復活モニカ

あなたは私よりも厳しい基準を複製に適用しているようです、@ gung。おそらくあなたは正しいです(そして、投票もこれにうまくいきません)。しかし、この特定のケースでは、OPは、私が提案したスレッドでカバーされている最も単純なPCAベースの機能選択(彼の更新で明らかにされた)について尋ねていました。一方、StasKは...ここで、具体的クラスタリングについてです面白い答えを掲載
アメーバが復活モニカ言う

回答:


7

私の習慣と同様に、一歩後退して、あなたが何をしようとしているのかを正確に尋ねます。因子分析は、潜在変数を見つけるように設計されています。潜在変数を見つけてクラスター化する場合、あなたがしていることは正しいです。しかし、あなたは単に変数の数を減らしたいと言う-それは代わりに主成分分析を示唆している。

ただし、これらのいずれかを使用すると、新しい変数のクラスター分析を解釈する必要があり、これらの新しい変数は単に古い変数の加重合計です。

変数はいくつありますか?それらはどの程度相関していますか?あまりにも多く、それらが非常に強く相関している場合は、非常に高い数ですべての相関を探し、各ペアから1つの変数をランダムに削除できます。これにより、変数の数が減り、変数はそのままになります。

また、これを行う必要性について@StasKを、そして以前に見つかったものとは異なる何かを見つけることの有用性について@ rolando2をエコーさせてください。大学院の私の好きな教授がかつて「驚かない限り、何も学んでいない」と言っていたように。


1
まず、ごめんなさい。私は実際には、因子分析ではなく、主成分分析について言及しています。私の間違いです。さらに、私が保持する必要がある魔女相関変数をarbitrarily意的に選択しない方法を見つけることを探していました。私は再びあなたに感謝...上記の問題についての詳細情報を追加
アン。

5

因子分析とクラスター分析を同時に実行する方法は、構造方程式混合モデルを使用することです。これらのモデルでは、各クラスターに個別のモデル(この場合は因子モデル)があると仮定します。共分散分析とともに平均分析を行う必要があり、単純なバニラ因子分析の場合よりも大幅に同定に関心を持つ必要があります。SEM側からアプローチされたアイデアは、Jedidi et。al。(1997)、およびクラスタリング側から、Adrian Rafteryによるモデルベースのクラスタリングで。このタイプの分析は、明らかにMplusで利用可能です。


1
入力、特に参照に感謝しますが、因子分析に誤って言及しました:独立変数のサブグループに設定された変数を減らすために、私は実際に主成分について考えていました。私の間違い
en。

2

私はそれが純粋で単純な「正確さ」の問題ではなく、むしろあなたがやろうとしていることを達成するかどうかだとは思いません。説明するアプローチは、各因子を表すために1つのインジケーターのみを使用するため、特定の因子に応じて、骨抜きの方法でクラスタリングが行われます。そのような各指標は、潜在的な潜在的要因の不完全な代役であると考えられます。それが一つの問題です。

もう1つの問題は、私(および他の多くの人々)が詳細に説明しているように、因子分析自体が、欠落データ、抽出する因子の数、抽出する方法、抽出するかどうか、回転する方法などに関する主観的な決定に満ちていることですオン。あなたが迅速に抽出している可能性のある要因、ソフトウェアのデフォルトの方法は、(私はとしてそこまで明確からかもしれそれはそうだと思いますが暗示している)あらゆる意味で「最高」です。

全体として、データの基になっているテーマを特徴付けるための最良の方法としてそれ自体が議論の余地のある要素の簡略版を使用した可能性があります。そのような入力変数から生じるクラスターが最も有益であるか、最も明確になるとは思わないでしょう。

別の注意として、他の研究者が見つけたものと一致しないクラスターのメンバーシップ/プロファイルを持つことを問題と考えることは興味深いようです。時々、不確かな発見は非常に健康的です!


どうもありがとうございます

0

あなたの場合に起こりうることは、因子分析で抽出された因子が元の変数から正と負の負荷を補正していることです。これにより、クラスタリングの目的である微分可能性が低下します。

抽出された各因子を2つに分割できます。1つは正の負荷のみ、もう1つは負の負荷のみです。

各要因の各ケースの要因スコアを正のスコアと負のスコアで置き換え、この新しいスコアセットでクラスタリングを試みます。

これがあなたのために働くならば、行にドロップしてください。


0

高い値と低い値の両方をスキャンし、すべての変数を因子に残すことができます。この方法では、要因をカットする必要はありません。ファクター1(たとえば)を積荷の兆候に基づいて特定の方法で分割すると、ファクター2では兆候がまったく異なる場合があります。次に、ファクター2をファクター1とは異なる方法で切り分けますか?これは紛らわしいようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.