この回答は、意図的に非数学的であり、各回答者の「複合インデックス」スコアを取得するために異なる要因の要因スコアを合計/平均できるかどうかを尋ねる非統計学者の心理学者(たとえば)を対象としています。
一部の変数のスコアを合計または平均化する場合、変数が同じ次元に属し、代替可能な尺度であると想定しています。(質問では、「変数」はコンポーネントまたは因子のスコアであり、変数の例であるため、物事を変更しません。)
実際(図1)、回答者1と2は等しく非定型(つまり、0、データセンターの軌跡またはスケールの原点から逸脱)であり、両方とも同じ平均スコアおよび(1.2 + .4 )/ 2 = .8。値.8は、非定型性の範囲として、XとYの場合とまったく同じように、構造X + Yに対して有効です。(.8+.8)/2=.8(1.2+.4)/2=.8.8X+YXY別々に。同じ1次元を表す相関変数は、同じ特性の反復測定と、ランダムエラーとしてのスコアの差または非等価性と見なすことができます。したがって、ランダムエラーはspeで互いに打ち消し合うと予想されるため、スコアを合計/平均することが保証されます。
とYが同じ「次元」と見なされるほど十分に相関していない場合は、そうではありません。そのため、回答者の偏差/非典型性は、原点からのユークリッド距離によって伝達されます(図2)。XY
その距離は回答者1と2で異なります:と√.82+.82−−−−−−−√≈1.131.22+.42−−−−−−−−√≈1.26X=.8Y=−.8X=0Y=0
wXXi+wYYiXYwXwYすべての回答者iに対して一定に設定されており、これが欠陥の原因です。回答者の2変量偏差(円または楕円)を関連付けるには、スコアに依存する重みを導入する必要があります。先に検討したユークリッド距離は、実際には、値に依存する重みを持つそのような加重和の例です。そして、変数の不等分散を組み込むことが重要な場合(たとえば、問題のような主成分の)、ユークリッド距離の重みを計算できます。これは、円が長くなった後に図2にある距離です。
|.8|+|.8|=1.6|1.2|+|.4|=1.6X=.8Y=−.81.60
(「Manhatten distanceを選択したので、すべてのデータスコアを正にし、良心で合計(または平均)を計算します」と叫ぶかもしれませんが、考えてください-原点を自由に移動する権利がありますか?例えば、データが平均に集中しているという条件の下で抽出されます。これは、理にかなっています。他の起源は、他のスコアを持つ他のコンポーネント/因子を生成します。 「典型的な回答者」または「ゼロレベルの特性」の-あなたがプレイしたいので)
要約すると、複合構造の目的が、「ゼロ」または典型的な軌跡に対する回答者の位置を反映するが、変数がほとんど相関しない場合、その原点からのある種の空間距離であり、平均(または合計)ではなく、加重または重み付けなしを選択する必要があります。
さて、同じものを測定するための(非相関)変数を代替モードとして表示することにした場合、平均(合計)が意味をなします。このように、変数の異なる性質を意図的に無視しています。言い換えれば、図2を意識して図2から離れ、変数が独立していることを「忘れる」ということです。その後-合計または平均を行います。たとえば、「物質的福祉」と「感情的福祉」のスコアを平均化することができ、同様に「空間IQ」と「言語IQ」のスコアも平均化できます。このタイプの純粋に実用的な、承認されていない統計的に合成されたものは、バッテリーインデックスと呼ばれます(関連性のないものまたは相関関係を無視する相関性のあるものを測定するテストまたはアンケートのコレクションは「バッテリー」と呼ばれます)。バッテリーインデックスは、スコアの方向が同じ場合にのみ意味を持ちます(富と感情の両方が「より良い」ポールと見なされるなど)。狭いアドホック設定以外での有用性は限られています。
変数が中間の関係にある場合-相互の重複、代替としてそれらを見るのに十分なほど強く相関していないため、多くの場合、加重値でそれらの値を合計(または平均)します。次に、これらの重みは慎重に設計する必要があり、この方法またはその方法で相関を反映する必要があります。これは、たとえば、コンポーネント/因子スコアを特別に計算する PCAまたは因子分析(FA)によって行われます。変数がすでにコンポーネントまたは因子スコアであり(ここでのOPの質問のように)、それらが相関している場合(斜め回転のため)、それらを(または直接読み込み行列に)二次PCA / FAにかけることができます重みを計算し、「複合インデックス」を提供する2次PC /ファクターを取得します。
ただし、コンポーネント/因子のスコアが無相関または弱相関である場合、それらを単純に合計したり、重みを推測したりする統計的理由はありません。代わりに距離を使用してください。距離に関する問題は、常に肯定的であるということです。回答者がどれだけ非定型であるかを言うことができますが、彼が「上」か「下」かは言えません。しかし、これは、マルチ特性スペースから単一のインデックスを要求するために支払う必要がある価格です。このようなスペースで逸脱とサインの両方が必要な場合、私はあなたがあまりにも急を要すると言います。
最後の点で、OPは、その分散(この場合は1番目の主成分)について、「インデックス」の唯一のプロキシとして、1つの最も強い変数のスコアのみを取得するのが正しいかどうかを尋ねます。そのPCが他のPCよりもはるかに強力であれば、それは理にかなっています。「それがもっと強いなら、なぜそれだけを抽出/保持しなかったのか」と尋ねるかもしれませんが。