19変数の1000以上のサンプルデータセットがあります。私の目的は、他の18の変数(バイナリおよび連続)に基づいてバイナリ変数を予測することです。6つの予測変数がバイナリ応答に関連付けられていると確信していますが、データセットをさらに分析し、欠落している可能性のある他の関連付けまたは構造を探します。これを行うために、PCAとクラスタリングを使用することにしました。
正規化されたデータでPCAを実行すると、分散の85%を保持するために11のコンポーネントを保持する必要があることがわかります。 ペアプロットをプロットすると、次のようになります。
次は何なのかわかりません... pcaに重要なパターンがありません。これが何を意味するのか、変数の一部がバイナリであることが原因であるのではないかと思います。6つのクラスターでクラスター化アルゴリズムを実行すると、次の結果が得られますが、いくつかのblobが目立っているように見えますが(黄色のもの)、これは必ずしも改善にはなりません。
おそらくおわかりのように、私はPCAの専門家ではありませんが、いくつかのチュートリアルを見て、高次元空間で構造を垣間見ることがどのように強力であるかを確認しました。有名なMNISTディジット(またはIRIS)データセットを使用すると、うまく機能します。私の質問は、PCAをより理解するために、私は今何をすべきかです。クラスタリングが有用なものを取得していないようですが、PCAにパターンがないこと、またはPCAデータのパターンを見つけるために次に何を試すべきかをどのようにして確認できますか?