3
場合、PCAを介したマハラノビス距離
私は行列、遺伝子の数であり、患者の数です。このようなデータを扱った人なら誰でも、は常によりも大きいことを知っています。特徴選択を使用して、をより妥当な数に下げましたが、はまだより大きいです。p n p n p p nn × pn×pn\times ppppんnnpppんnnppppppんnn 遺伝子プロファイルに基づいて患者の類似性を計算したいと思います。ユークリッド距離を使用することもできますが、マハラノビスは変数間の相関を考慮に入れるので、より適切に見えます。(この投稿で述べたように)問題は、マハラノビス距離、特に共分散行列が場合に機能しないことです。Rでマハラノビス距離を実行すると、次のエラーが発生します。n < pn<pn < p Error in solve.default(cov, ...) : system is computationally singular: reciprocal condition number = 2.81408e-21 これまでにこれを解決するために、PCAを使用しました。遺伝子を使用する代わりに、コンポーネントを使用しました。これにより、マハラノビス距離を計算できるようです。5つの成分は分散の約80%を表すため、ます。n > pn>pn > p 私の質問は次のとおりです。PCAを使用して患者間のマハラノビス距離を有意義に取得できますか、それとも不適切ですか?ときに機能する代替距離メトリックスはありますか?また、変数間に多くの相関関係がありますか?nn < pn<pn < pんnn