PCA / FAから保持された複数の主成分または因子から単一のインデックスを作成する


15

主成分分析(PCA)を使用して、研究に必要なインデックスを作成しています。私の質問は、PCAで計算された保持主成分を使用して、単一のインデックスを作成する方法です。

たとえば、PCAを使用した後、3つの主成分を保持することにし、これら3つの主成分のスコアを計算しました。回答者ごとに、これら3つのスコアから単一のインデックスを作成する適切な方法は何ですか?

  • 3つの計算されたスコアを追加して複合値を取得することは重要ですか?
  • または、3つのスコアを平均してそのような値を得るには?
  • または、最初の主成分(最強)のみを保持し、そのスコアをインデックスとして使用する必要がありますか?

あるいは、因子分析(FA)を使用することもできますが、同じ質問が残ります。複数の因子スコアに基づいて単一のインデックスを作成する方法ですか?


4
定義上、PCは相関関係がありません。したがって、変数として、お互いの情報を複製することはありません。つまり、それらから単一の値(複合変数)を作成する理由はありません。または、それらを掛けることが興味の対象になることがありますが、加算や平均化ではありません。
ttnphns

3
私は@ttnphnsに同意します。最初の2つのオプションはあまり意味がなく、3台のPCを1つのインデックスに「結合」する全体の努力は見当違いのようです。1台目のPCをインデックスとして使用するか、まったく異なるアプローチを使用します。
アメーバは、Reinstate Monica

2
@ttnphnsは無相関で、独立ではありません。線形ではなく、PC間で冗長な情報が繰り返される場合があります。
推測

1
@amoebaリマインダーをありがとう。stats.stackexchange.com/tags/valuation/infoでタグとその抜粋のバージョンを作成しました
whuber

1
@ttnphns上記のコメントに基づいて、ここに回答を投稿することを検討しますか?この質問のバリエーションが表示され続けるため、ここで賞金を開始しました。満足のいく答えがないため、重複として閉じることはできません。
アメーバは、モニカーを復活させる

回答:


11

この回答は、意図的に非数学的であり、各回答者の「複合インデックス」スコアを取得するために異なる要因の要因スコアを合計/平均できるかどうかを尋ねる非統計学者の心理学者(たとえば)を対象としています。

一部の変数のスコアを合計または平均化する場合、変数が同じ次元に属し、代替可能な尺度であると想定しています。(質問では、「変数」はコンポーネントまたは因子のスコアであり、変数の例であるため、物事を変更しません。)

ここに画像の説明を入力してください

実際(図1)、回答者1と2は等しく非定型(つまり、0、データセンターの軌跡またはスケールの原点から逸脱)であり、両方とも同じ平均スコアおよび1.2 + .4 / 2 = .8。値.8は、非定型性の範囲として、XYの場合とまったく同じように、構造X + Yに対して有効です。(.8+.8)/2=.8(1.2+.4)/2=.8.8X+YXY別々に。同じ1次元を表す相関変数は、同じ特性の反復測定と、ランダムエラーとしてのスコアの差または非等価性と見なすことができます。したがって、ランダムエラーはspeで互いに打ち消し合うと予想されるため、スコアを合計/平均することが保証されます。

Yが同じ「次元」と見なされるほど十分に相関していない場合は、そうではありません。そのため、回答者の偏差/非典型性は、原点からのユークリッド距離によって伝達されます(図2)。XY

ここに画像の説明を入力してください

その距離は回答者1と2で異なります:.82+.821.131.22+.421.26X=.8Y=.8X=0Y=0

wXXi+wYYiXYwXwYすべての回答者iに対して一定に設定されており、これが欠陥の原因です。回答者の2変量偏差(円または楕円)を関連付けるには、スコアに依存する重みを導入する必要があります。先に検討したユークリッド距離は、実際には、値に依存する重みを持つそのような加重和の例です。そして、変数の不等分散を組み込むことが重要な場合(たとえば、問題のような主成分の)、ユークリッド距離の重みを計算できます。これは、円が長くなった後に図2にある距離です。

|.8|+|.8|=1.6|1.2|+|.4|=1.6X=.8Y=.81.60

(「Manhatten distanceを選択したので、すべてのデータスコアを正にし、良心で合計(または平均)を計算します」と叫ぶかもしれませんが、考えてください-原点を自由に移動する権利がありますか?例えば、データが平均に集中しているという条件の下で抽出されます。これは、理にかなっています。他の起源は、他のスコアを持つ他のコンポーネント/因子を生成します。 「典型的な回答者」または「ゼロレベルの特性」の-あなたがプレイしたいので)

要約すると、複合構造の目的が、「ゼロ」または典型的な軌跡に対する回答者の位置を反映するが、変数がほとんど相関しない場合、その原点からのある種の空間距離であり、平均(または合計)ではなく、加重または重み付けなしを選択する必要があります。

さて、同じものを測定するための(非相関)変数を代替モードとして表示することにした場合、平均(合計)が意味をなします。このように、変数の異なる性質を意図的に無視しています。言い換えれば、図2を意識して図2から離れ、変数が独立していることを「忘れる」ということです。その後-合計または平均を行います。たとえば、「物質的福祉」と「感情的福祉」のスコアを平均化することができ、同様に「空間IQ」と「言語IQ」のスコアも平均化できます。このタイプの純粋に実用的な、承認されていない統計的に合成されたものは、バッテリーインデックスと呼ばれます(関連性のないものまたは相関関係を無視する相関性のあるものを測定するテストまたはアンケートのコレクションは「バッテリー」と呼ばれます)。バッテリーインデックスは、スコアの方向が同じ場合にのみ意味を持ちます(富と感情の両方が「より良い」ポールと見なされるなど)。狭いアドホック設定以外での有用性は限られています。

変数が中間の関係にある場合-相互の重複、代替としてそれらを見るのに十分なほど強く相関していないため、多くの場合、加重値でそれらの値を合計(または平均)します。次に、これらの重みは慎重に設計する必要があり、この方法またはその方法で相関を反映する必要があります。これは、たとえば、コンポーネント/因子スコアを特別に計算する PCAまたは因子分析(FA)によって行われます。変数がすでにコンポーネントまたは因子スコアであり(ここでのOPの質問のように)、それらが相関している場合(斜め回転のため)、それらを(または直接読み込み行列に)二次PCA / FAにかけることができます重みを計算し、「複合インデックス」を提供する2次PC /ファクターを取得します。

ただし、コンポーネント/因子のスコアが無相関または弱相関である場合、それらを単純に合計したり、重みを推測したりする統計的理由はありません。代わりに距離を使用してください。距離に関する問題は、常に肯定的であるということです。回答者がどれだけ非定型であるかを言うことができますが、彼が「上」か「下」かは言えません。しかし、これは、マルチ特性スペースから単一のインデックスを要求するために支払う必要がある価格です。このようなスペースで逸脱とサインの両方が必要な場合、私はあなたがあまりにも急を要すると言います。

最後の点で、OPは、その分散(この場合は1番目の主成分)について、「インデックス」の唯一のプロキシとして、1つの最も強い変数のスコアのみを取得するのが正しいかどうかを尋ねます。そのPCが他のPCよりもはるかに強力であれば、それは理にかなっています。「それがもっと強いなら、なぜそれだけを抽出/保持しなかったのか」と尋ねるかもしれませんが。


0

http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdfへの時系列リンクからPCAを使用して複合インデックスを作成ます

19ページのその記事で、著者は、選択した要因によって説明された合計変動に対する各要因によって説明された変動の割合を使用して、非標準化インデックス(NSI)を作成する方法について言及しています。このNSIはその後正規化されました。


6
19ページのそのセクションでは、上記のコメントでアメーバと私が警告したリンゴとオレンジの合算を問題のある、問題のあるものにします。1つのインデックス内の無相関変数の合計には、統計的な意味はほとんどありません。
ttnphns

1
時々、相関関係のない構成要素/スケール/テストを追加し、異なるものを測定します。これがバッテリーインデックスになります(まったく異なる/無相関と見なされるテストは「バッテリー」と呼ばれます)。前のコメントで述べたように、バッテリーインデックスには統計的な意味がほとんどありませんが、ローカルの実用的な意味があります。
ttnphns

質問stats.stackexchange.com/q/236786/3277も参照してください。
ttnphns

-1上記の内容によります。
アメーバは、モニカーを復活させる
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.