現在、モデリングに使用する変数を選択するために主成分分析を使用しています。現時点では、実験でA、B、Cの測定を行っています-私が本当に知りたいのは、測定を減らし、CとBの記録を停止して時間と労力を節約できるかということです。
3つの変数すべてが、データの分散の60%を占める最初の主成分に大きく負荷をかけることがわかります。コンポーネントスコアから、これらの変数を特定の比率(aA + bB + cC)で加算すると、わかります。データセットの各ケースについてPC1でスコアを取得でき、このスコアをモデリングの変数として使用できますが、それではBとCの測定を停止できません。
PC1のAとBおよびCの負荷を2乗すると、変数AはPC1の分散の65%を占め、変数BはPC1の分散の50%を占め、変数Cも50%を占めることがわかります。各変数A、B、Cによって説明されるPC1の分散の別の変数は別の変数と共有されますが、Aはわずかに多くを占めてトップになります。
この変数はPC1の分散の大部分を表し、これが次に分散の大部分を表すため、モデリングで使用する変数Aまたは場合によっては(必要に応じてaA + bB)を選択できると考えるのは間違っていますか?データ?
過去にどのアプローチをしましたか?
- 他の重いローダーがある場合でも、PC1に最も重い負荷をかける単一の変数?
- すべてが重いローダーであっても、すべての変数を使用したPC1のコンポーネントスコア?