場合、PCAを介したマハラノビス距離


10

私は行列、遺伝子の数であり、患者の数です。このようなデータを扱った人なら誰でも、は常によりも大きいことを知っています。特徴選択を使用して、をより妥当な数に下げましたが、はまだより大きいです。p n p n p p nn×ppnpnppn

遺伝子プロファイルに基づいて患者の類似性を計算したいと思います。ユークリッド距離を使用することもできますが、マハラノビスは変数間の相関を考慮に入れるので、より適切に見えます。(この投稿で述べたように)問題は、マハラノビス距離、特に共分散行列が場合に機能しないことです。Rでマハラノビス距離を実行すると、次のエラーが発生します。n<p

 Error in solve.default(cov, ...) :    system is computationally
 singular: reciprocal condition number = 2.81408e-21

これまでにこれを解決するために、PCAを使用しました。遺伝子を使用する代わりに、コンポーネントを使用しました。これにより、マハラノビス距離を計算できるようです。5つの成分は分散の約80%を表すため、ます。n>p

私の質問は次のとおりです。PCAを使用して患者間のマハラノビス距離を有意義に取得できますか、それとも不適切ですか?ときに機能する代替距離メトリックスはありますか?また、変数間に多くの相関関係がありますか?nn<pn


PCA、斜め回転などを使用しない限り、変数の相関関係を壊す可能性があります。また、分散の配分が、PCA類似した患者間のマハラノビス距離にどのように影響するかわかりません。
ミシェル

PCAが変数の相関を壊した場合、マハラノビス距離の代わりに他の距離メトリック(ピアソン距離など)を使用できますか?
user4673 2012年

さらにお勧めするのに十分な知識がありません。誰かが会話に飛び込むことを望んでいた。:)どのように変数削減手法が機能するかを考えるとPCA、出力で距離メトリックを使用できるかどうかについて知りたいです。
ミシェル

私はその分野の専門家ではありません。共有したいのは、あなたと同じような問題があり、corpcorパッケージの「cov.shrink」を使用したことです。
Bruno Sousa

回答:


8

PCAのすべての成分を保持する場合、新しいPCA空間での患者間のユークリッド距離は、観測された変数空間でのマハラノビス距離に等しくなります。一部のコンポーネントをスキップする場合、それは少し変わりますが、とにかく変更されます。ここでは、分散が固有値に等しい種類ではなく、単位分散PCAコンポーネントを参照します(PCAの実装についてはわかりません)。

つまり、患者間のマハラノビス距離を評価する場合は、PCAを適用してユークリッド距離を評価できます。PCAを適用した後でマハラノビス距離を評価することは、私にとって意味のないことのようです。


ここに関係を論じている短い記事があります:ブレトン、RGマハラノビス距離と主成分スコアとの関係Journal of Chemometrics、Wiley-Blackwell、2015、29、143–145。dx.doi.org/10.1002/cem.2692。ケモメトリックスのPCAは、デフォルトではデータの純粋な回転であるため、Dmitryが参照する単位分散バージョンではないことに注意してください。
cbeleitesはSXに不満2016

2

次の論文をご覧ください。

Zuber、V.、Silva、APD、&Strimmer、K.(2012)。高次元ゲノムワイド関連研究における同時SNP選択のための新しいアルゴリズムBMCバイオインフォマティクス13(1)、284。

それはあなたの問題を正確に扱います。著者は、問題に適合する説明変数の相関行列のペナルティ付き推定法を以前に導入したことに加えて、新しい変数重要度測定の使用を想定しています。また、非相関にマハラノビス距離を使用します。

これらの方法は、CRAN利用可能な Rパッケージ「ケア」に含まれています


0

PCAスコア(またはPCA結果)は、サンプルとサンプルの分布の間のマハラノビス距離を計算するために文献で使用されます。例については、こちらの記事をご覧ください。「分析方法」セクションの下で、著者は述べています。

蛍光スペクトルのデータセット(681)は、相関行列(681×681)の主成分(PC)を評価することにより、より低い次元(11)に削減されます。PCスコアは、PCに沿って元のデータを投影することによって推定されます。データセット間の分類は、PCスコアのマハラノビス距離を計算することにより、マハラノビス距離モデルを使用して行われました。

PCA /マハラノビス距離に基づく判別分析の他の例を、文献やGRAMS IQケモメトリックスソフトウェアのヘルプメニューで見ました。変数の数が使用可能なサンプルの数よりも多い場合、マハラノビス距離はうまく機能せず、PCAは変数の数を減らすため、この組み合わせは意味があります。

1クラス分類機械学習アルゴリズム(つまり、Isolation Forest、One-ClassSVMなど)は、PCA /マハラノビス距離ベースの判別分析の可能な代替手段です。私たちの研究室では、データの前処理と分離フォレストを組み合わせることで、近赤外スペクトルの分類に優れた結果が得られました。

わずかに関連する注意点として、PCA /マハラノビス距離を使用した異常値または新規性の検出では、高次元のデータの場合、マハラノビス距離カットオフの計算が必要になることがよくあります。この記事は、データが正規分布していると仮定して、カットオフがカイ2乗分布の臨界値の平方根として計算できることを示唆しています。この臨界値には、自由度の数とデータに関連付けられた確率値が必要です。記事では、保持された主成分の数は、臨界値を計算するために必要な自由度の数に等しいと示唆しているようです。これは、著者が計算にデータセットの特徴の数を使用したためです。


<p

n <pの場合、pを削減するためにPCAが使用されます。PCA分析から保持されるコンポーネントの数(nc)は、通常pよりもはるかに少なく、nのサイズによってはnよりも小さい場合もあります。したがって、PCAは「n by p」問題を「n by nc」問題に変更します。NIRスペクトルを分析する私たちの研究室では、pは波長の数を表し、通常は2000を超えます。nはトレーニングサンプルの数(〜20〜150)を表します。ncは通常3〜11です。n> ncの場合、PCA /マハラノビス分析で良好な結果が得られます。
Cherif Diallo、

1
問題はPCAが行うことではありません。これは、このサイトの他のスレッドで十分にカバーされています。問題は、共分散行列の特異性のために、この場合マハラノビス距離が通常は計算できないことです。これは、質問で説明されている状況です。
whuber

親切なコメントありがとうございます。ユーザーが何を求めているかについては、異なる解釈があるようです。受け入れられた回答は、「患者間のマハラノビス距離を評価したい場合は、PCAを適用してユークリッド距離を評価できます。PCAを適用した後のマハラノビス距離を評価することは、何か意味がないように見えます...」最後の文は、私が見たり引用したりした文献と矛盾していると思います。どう思いますか?宜しくお願いします。
Cherif Diallo

1
とった。ありがとう:)!
Cherif Diallo
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.