私は行列、遺伝子の数であり、患者の数です。このようなデータを扱った人なら誰でも、は常によりも大きいことを知っています。特徴選択を使用して、をより妥当な数に下げましたが、はまだより大きいです。p n p n p p n
遺伝子プロファイルに基づいて患者の類似性を計算したいと思います。ユークリッド距離を使用することもできますが、マハラノビスは変数間の相関を考慮に入れるので、より適切に見えます。(この投稿で述べたように)問題は、マハラノビス距離、特に共分散行列が場合に機能しないことです。Rでマハラノビス距離を実行すると、次のエラーが発生します。
Error in solve.default(cov, ...) : system is computationally
singular: reciprocal condition number = 2.81408e-21
これまでにこれを解決するために、PCAを使用しました。遺伝子を使用する代わりに、コンポーネントを使用しました。これにより、マハラノビス距離を計算できるようです。5つの成分は分散の約80%を表すため、ます。
私の質問は次のとおりです。PCAを使用して患者間のマハラノビス距離を有意義に取得できますか、それとも不適切ですか?ときに機能する代替距離メトリックスはありますか?また、変数間に多くの相関関係がありますか?n
PCA
、出力で距離メトリックを使用できるかどうかについて知りたいです。
PCA
、斜め回転などを使用しない限り、変数の相関関係を壊す可能性があります。また、分散の配分が、PCA
類似した患者間のマハラノビス距離にどのように影響するかわかりません。