PCAについて簡単な質問がいくつかあります。
- PCA は、データセットがガウスであると想定していますか?
- 本質的に非線形データにPCAを適用するとどうなりますか?
データセットが与えられた場合、プロセスはまず平均正規化を行い、分散を1に設定し、SVDを取得し、ランクを下げ、最後にデータセットを新しいランクを下げた新しいスペースにマッピングします。新しい空間では、各次元は最大分散の「方向」に対応します。
- しかし、新しい空間でのそのデータセットの相関は常にゼロですか、それとも本質的にガウスのデータにのみ当てはまりますか?
「A」と「B」の2つのデータセットがあり、「A」がガウス分布からランダムにサンプリングされたポイントに対応し、「B」が別の分布(ポアソンなど)からランダムにサンプリングされたポイントに対応するとします。
- PCA(A)とPCA(B)はどのように比較されますか?
- 新しい空間内の点を調べることにより、PCA(A)がガウスからサンプリングされた点に対応し、PCA(B)がポアソンからサンプリングされた点に対応することをどのように判断できますか?
- 「A」のポイントの相関は0ですか?
- 「B」の点の相関も0ですか?
- さらに重要なことは、私は「正しい」質問をしているのですか?
- 相関関係を調べる必要がありますか、それとも考慮すべき別のメトリックがありますか?