高次システムの次元数を減らし、できれば2次元または1次元のフィールドで共分散の大部分をキャプチャしたいと思います。これは主成分分析で行えることを理解しており、多くのシナリオでPCAを使用しています。ただし、ブールデータ型で使用したことがないため、このセットを使用してPCAを実行するのが意味があるかどうか疑問に思っていました。たとえば、定性的または記述的なメトリックを持っているふりをし、そのディメンションに対してそのメトリックが有効な場合は「1」を割り当て、そうでない場合は「0」を割り当てます(バイナリデータ)。たとえば、白雪姫の七人の小人を比較しようとしているふりをします。我々は持っています:
Doc、Dopey、Bashful、Grumpy、Sneezy、Sleepy、Happy、そしてあなたはそれらを品質に基づいて整理したいのです。
たとえば、Bashfulは乳糖不耐症であり、A優等生ではありません。これは純粋に仮想的な行列であり、実際の行列にはさらに多くの説明的な列があります。私の質問は、個人間の類似性を見つける手段として、このマトリックスでPCAを実行することはまだ適切でしょうか?
a means of finding the similarity between individuals
。ただし、このタスクはクラスター分析用であり、PCA用ではありません。