PCAで、2つの母集団の分離を最大化するために変数を削除する体系的な方法はありますか?


7

私は主成分分析を使用して、新しいデータポイントがどの母集団( "Aurignacian"または "Gravettian")からのものであるかを確信を持って推測できるかどうかを調査しています。データポイントは28の変数で記述され、そのほとんどは考古学上の人工物の相対的な頻度です。残りの変数は、他の変数の比率として計算されます。

すべての変数を使用して、母集団は部分的に分離されます(サブプロット(a))が、それらの分布にはまだ重複があります(90%のt分布予測楕円、母集団の正規分布を想定できるかどうかはわかりません)。したがって、新しいデータポイントの起源を確信を持って予測することは不可能だと思いました。

ここに画像の説明を入力してください

1つの変数(r-BE)を削除すると、対になったPCAプロットで母集団が分離されないため、オーバーラップがはるかに重要になります(サブプロット(d)、(e)、および(f))。1-2、3- 4、...、25-26、および1-27。これは、2つの母集団を分離するためにr-BEが不可欠であることを意味します。これらをまとめると、これらのPCAプロットはデータセット内の「情報」(分散)の100%を表すと考えたからです。

したがって、私は、ほんの一握りの変数を除いてすべてを削除した場合、母集団が実際にはほぼ完全に分離したことに気づいて、非常に驚​​きました。

ここに画像の説明を入力してください すべての変数に対してPCAを実行すると、このパターンが表示されないのはなぜですか?28個の変数を使用すると、268,435,427通りの方法で変数をドロップできます。人口分離を最大化し、新しいデータポイントの起源の人口を推測するのに最適なものをどのように見つけることができますか?より一般的には、このような「隠された」パターンを見つける体系的な方法はありますか?

編集:アメーバのリクエストに従って、PCをスケーリングしたときのプロットを以下に示します。パターンはより明確です。(私は変数をノックアウトし続けることでいたずらであることを認識していますが、今回のパターンはr-BEのノックアウトに抵抗し、「非表示」パターンがスケーリングによってピックアップされることを意味します):

ここに画像の説明を入力してください


1
非常に美しい数字の+1。PCAを共分散行列または相関行列で実行していますか、つまりすべての変数が正規化されているかどうか。変数を正規化しておらず、G1 / 2/7/8/9変数の分散は、「フル」PCAが主に取得している変数よりもはるかに少ない可能性がありますか?
アメーバ2017年

@amoeba褒めてくれてありがとう:)パーセンテージは正規化されていません。今すぐスケーリングを試しましたが、効果があるようです。ノイズを追加する可能性があると思ったので、最初はスケーリングに反対しました。低いパーセンテージの非常にまれなアーティファクトが増幅され、偶然の影響が出る可能性があります。ただし、G1 / 2/7/8/9の効果が重要度の最も低い変数でさえ見られないことは、まだ驚くべきことです。
Pertinax

私が最も重要でパソコンに意味
ペルティナクス

1
特に意外とは思いません。ここにあるように見えるのは、すべて互いに強く正の相関があり(2番目の図の2行目を参照)、集団の同一性を十分に予測できる変数(Gs)のグループです。ただし、これらの変数は、他のいくつかの変数よりも分散が少なく、すべての変数でPCAを実行しても取得されません。同時に、それらがPCA-28の単一のコンポーネントに入らない(それらが複数のPCに広がる)ため、ペアワイズ散布図でこの分離が見られないのはこのためです。
amoeba

1
ありがとう。いい感じ。矢印は同じ長さにしないでください。正規化後、それらは28次元空間全体で同じ長さになりますが、すべてを2Dに投影すると、長さが異なります。矢印が長いほど、対応する変数のPC1 / 2への寄与が強くなります。
アメーバ2017年

回答:


5

主成分(PC)は、予測変数/特徴の分散に基づいています。最も変動性の高い機能が、分類に最も関連性の高い機能であるという保証はありません。これは、結果の1つの考えられる説明です。また、プロットで行うように、一度に2台のPCへの投影に制限すると、高次元のパターンに存在するより優れた分離が失われる可能性があります。

PCプロットの線形結合として予測子をすでに組み込んでいるので、これをロジスティックまたは多項回帰モデルとして設定することを検討してください。クラスが2つしかない場合(たとえば、「Aurignacian」と「Gravettian」)、ロジスティック回帰は、クラスのメンバーシップの確率を予測子変数の線形結合の関数として表します。多項回帰つ以上のクラスに一般化します。

これらのアプローチは、結果/分類変数と予測変数の両方に関して重要な柔軟性を提供します。分類結果の観点から、モデル自体で変更できないすべてかどうかの選択を行うのではなく、クラスメンバーシップの確率をモデル化します。したがって、たとえば、同じロジスティック/多項モデルに基づいて、異なるタイプの分類エラーに対して異なる重みを可能にすることができます。

特に、(例で行ったように)モデルから予測変数を削除し始めると、最終的なモデルが特定のデータサンプルに依存しすぎる危険性があります。ロジスティック回帰または多項回帰の予測変数に関して、LASSOやリッジ回帰などの標準のペナルティメソッドを使用して、新しいデータサンプルでのモデルのパフォーマンスを潜在的に向上させることができます。リッジ回帰ロジスティックモデルまたは多項モデルは、例で達成しようとしているように見えます。基本的には機能セットの主成分に基づいていますが、PCに含まれる機能セットの分散の割合ではなく、分類との関係の観点からPCに重みを付けます。


+1。なげなわペナルティを使用すると、スパースな(したがってより解釈可能な)ソリューションが提供されることを強調する価値があります。
アメーバ

あなたの提案に感謝します。実際、シーケンシャルPC(PC1-PC2、PC3-PC4)だけを見た場合、PC1-PC3パターンを見逃す可能性があることに気づきました。私が探しているのは、「将来のすべてのデータポイントについて、クラスAの場合はXX%の信頼性でクラスAに、クラスAの場合はYY%の信頼性でクラスBに正しくメンバーシップを割り当てることができます。 B "。ロジスティック回帰と尾根回帰はそれを可能にしますか?
Pertinax

1
ロジスティック回帰は次のようなステートメントを提供します。「これらの予測子の値を考えると、このケースがクラスAである確率はXXです」クラスメンバーシップのカットオフは通常1/2であり、これは予測に最も役立ちます。検索するようなステートメントでは、クラスAとBのケース間の予測子値の分布についての知識も必要です。データサンプルはこれらの分布の推定であるため、交差検証またはブートストラップを使用して、そのようなステートメントを生成できます。ISLRは役立つ詳細を提供します。
EdM

2
@TheThunderChimp状況は、クラスが「予測子」変数の値を決定するのに役立ち、基礎となるクラスを推測しようとしている多くの分類問題と違いはありません。ロジスティック回帰へのLASSOまたはエラスティックネットアプローチは、相関変数に役立ちます。完全な分離はロジスティック回帰でよく見られ、必ずしも変数の相関関係とは関係ありません。hauck-donner-effectこのサイトのタグに従ってアドバイスを受けてください。この答えは特に役立ちます。
EdM、2017年

1
@TheThunderChimpそのアプローチが2次元以上に一般化できるかどうかはわかりません。このページは、以前のコメントでリンクしたものよりもさらに役立つ場合があります。
EdM、2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.