評価スコアと推定因子スコアの合計?


12

スケールを構築する際に、スコアの単純な合計に対してファクタスコア」を使用するタイミングについての提案を受け取りたいと思います。すなわち、因子をスコアリングする「洗練されていない」方法よりも「洗練された」。DiStefanoらから。(2009; pdf)、強調が追加されました:

因子スコアの計算方法には、改良型と非改良型の2つの主要なクラスがあります。洗練されていない方法は、因子分布に関する個人の配置に関する情報を提供する比較的単純な累積手順です。シンプルさは、いくつかの魅力的な機能に役立ちます。つまり、洗練されていないメソッドは、計算も解釈も簡単です。洗練された計算方法は、より高度で技術的なアプローチを使用して因子スコアを作成します。 これらは、洗練されていない方法よりも正確で複雑であり、標準化されたスコアである推定値を提供します。

私の考えでは、目標が研究や設定全体で使用できるスケールを作成することである場合、すべてのスケール項目の単純な合計または平均スコアが理にかなっています。しかし、目標はプログラムの治療効果を評価することであり、重要な対照はサンプル内の治療対対照群にあるとしましょう。合計または平均をスケールするために因子スコアを好む理由はありますか?

代替案を具体的にするには、次の簡単な例をご覧ください。

library(lavaan)
library(devtools)

# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
  gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
  source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
  head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1  3  4  3  4  3  3  4  4  3
# 2  2  1  2  2  4  3  2  1  3
# 3  1  3  4  4  4  2  1  2  2
# 4  1  2  1  2  1  2  1  3  2
# 5  3  3  4  4  1  1  2  4  1
# 6  2  2  2  2  2  2  1  1  1

# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf

# non-refined -----------------------------------------------------------------
  mydata$sumScore <- rowSums(mydata[, 1:9])
      mydata$avgScore <- rowSums(mydata[, 1:9])/9
  hist(mydata$avgScore)

# refined ---------------------------------------------------------------------
  model <- '
            tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
           '
  fit <- sem(model, data = mydata, meanstructure = TRUE,
             missing = "pairwise", estimator = "WLSMV")
  factorScore <- predict(fit)
  hist(factorScore[,1])

質問をより一般的なものにするためにタイトルから「介入」を削除しました。これは、介入が2種類の構成概念の区別に固有の特定の関係を持たない可能性があるためです。同意しない場合は、私の編集をロールバックしてください。
ttnphns

1
They are more exactこの追加された強調は、因子のスコアでさえ必然的に不正確である(「未決定」)という事実から私たちをそらすべきではありません。
ttnphns

また、これと同様の質問を参照してください:stats.stackexchange.com/q/31967/3277を
ttnphns

「介入」は特別なユースケースとして関連があると思いますが、タイトルに含める必要はありません。私は質問で重要な問題を強調しました。「より正確」に重点を置くことに関しては、因子スコアが不確定であるというあなたの観察から、この点について考えたいと思いました。他の質問へのリンクをありがとう。
エリックグリーン

"more exact"。線形に計算された因子スコアの中で、回帰法は「未知の真の因子値と最も相関がある」という意味で最も「正確」です。はい、より正確です(線形代数アプローチ内)が、完全に正確ではありません。
ttnphns

回答:


6

私は現在のプロジェクトでこのアイデアに取り組んでいます。ここで何が推定されているのか自問する必要があると思います。1因子モデルが適合する場合、因子スコアは潜在因子を推定します。すべての観測値が因子に等しく負荷をかけ、一意性も同じでない限り、マニフェスト変数の直線和または平均は他の何かを推定します。そして、それ以外の何かはおそらく大きな理論的関心の量ではありません。

したがって、1因子モデルが適合する場合は、おそらく因子スコアを使用することをお勧めします。複数の研究間の比較可能性についてあなたの主張を取り上げますが、特定の研究内では、因子スコアがそれらに多くの影響を与えていると思います。

興味深いのは、2因子モデルが適用される(またはそれ以上)か、共分散構造が因子モデルが予測するよりも複雑であるために、1因子モデルが適合しない場合です。私にとっての問題は、変数の直線的な合計が実際の何かを指しているかどうかです。これは、データに複数のディメンションがある場合に特に当てはまります。実際には、多くの場合、関連する変数(調査の項目など)が多数あり、そのうちの1つまたは2つが他の変数と大きく異なることがあります。「これで地獄へ」と言うことができ、それが何を意味するかに関係なく、すべての平均を取ることができます。または、因子スコアを使用できます。1因子モデルに適合した場合、通常起こるのは、因子分析が有用性の低い変数(または、少なくとも2番目の因子スコアに実際に属する変数)の重みを小さくすることです。実際には、異なる次元に属するものとしてそれらを見つけ、それらを無視します。

したがって、ファクタスコアはデータを整理して、最初よりも一次元的なものを与えることができると考えています。しかし、私はこれについてのリファレンスを持っていません。このアプローチが好きなら、私はまだ自分の仕事で理解しようとしています。私にとって、同じデータを使用して別のモデルにスコアを入れると、大きな危険があります。スコアはすでに最適化の質問に対する答えです。それでは、分析の残りの部分はどこに残りますか?考えたくない。

しかし、結局のところ、1要素モデルのようなものが当てはまらない場合、変数の合計または合計は実際に意味がありますか?

人々が最初からより良いスケールを設計した場合、これらの質問の多くは発生しません。


@Placidia、コメントありがとうございます。大きな混乱を思い出させながら、あなたはいくらかの明快さをもたらします!これは考慮すべき興味深い点だと思います。「因子モデルが適合する場合、因子スコアは潜在因子を推定します。すべての観測値が因子に等しく負荷をかけない限り、マニフェスト変数の直線和または平均は他のものを推定します。一意性も同じです。そして、それ以外の何かはおそらく大きな理論的関心の量ではありません。」
エリックグリーン

非常に思慮深い答えのために+1。追加するいくつかの考え:1)研究間の比較可能性に関しては、モデルに含まれる/除外される変数に応じてかなり変化する可能性があるコンポーネントの負荷とは異なり、一般的な因子の負荷はパラメータ推定値であることを認識することが重要です。その後、彼らは研究から研究へと(サンプリング誤差内で)複製する必要があり、したがって、因子スコアもそうでなければなりません。2)因子スコアの使用に不安がある場合は、決定性のインデックスと、因子スコア相関が潜在相関をどの程度反映しているかを調べることができます
...-jsakaluk

1
...これはDiStefanno et。al。因子スコアが「信頼できる」かどうかを評価するための論文。そして最後に3)Placidiaが説明しているように、主に一次元の何かを分析することが目標である場合、私が理解しているように、まずすべての変数がロードする共通因子を抽出し、その後、直交因子分析アプローチを検討することができます要因は変数のサブセットに対して抽出されます。これは、すべての変数を結び付ける共通の次元を超えて、表面的に最も重要な区別可能な要因を反映します。
-jsakaluk

プラキディア、あなたの答えの最後の編集では、あなたは繰り返し表現によって自分自身を制約しますone-factor model。なぜだろうか。2因子モデルでは、因子スコアはestimate the latent factorもうないということですか?なぜそうなのか?また、開発中のアンケートのコンテキスト(Qの可能性が高いコンテキスト)で「1因子モデル」をどのように定義しますか:アンケートが単一因子/スケールであるか、含まれる各項目が厳密に1つの因子に属するとカウントされること/規模?わかりやすくしてください。
ttnphns

潜在的な誤解を避けたいと思いました。2要素モデルを信じている場合、おそらく集計合計を使用することはできません。データの2つのディメンションに対して2つの集計が必要です。私の答えは、要約統計量と1因子モデルの因子スコアの間の選択に関するものであることを明確にしたかったのです。モデルが偽であっても、1要素スコアは有用であると主張しています。@jsakalukの多因子モデルの適合と最初の因子の選択の提案も可能であり、場合によってはより良いかもしれません。
プラキディア

4

共通因子によってロードされたアイテムを合計または平均化することは、construstスコア(tha因子を表す構成体)を計算する従来の方法です。これは、因子スコア計算する「粗い方法」の最も単純なバージョンです。メソッドの主なポイントは、スコアの重みとして因子負荷を使用することです。スコアを計算する洗練された方法では、特別に推定されたスコア係数(負荷から計算)を重みとして使用します。

この答えは、普遍的に広大な領域で、「項目のスコアの平野合計の上に[リファイン]因子得点を使用するときについて示唆」が、いくつかの具体的な明白な表示に焦点を当てていない好むと一緒に行くの影響他の上に構造物を起算する1つの方法を仕方。

いくつかの因子と2つのアイテムがロードされる単純な状況を考えます。脚注1によれば、ここで因子得点係数は、regressional因子得点が計算される方法を説明するbは1及びB 2の計算因子得点にFから来ますFb1b2F

s1=b1r11+b2r12

s2=b1r12+b2r22

ここで、およびs 2は、因子と項目間の相関関係-因子負荷量です。r 12は、アイテム間の相関です。Bの係数は、項目スコアの単純な、非加重和から、因子得点を区別するものです。なぜなら、合計(または平均)だけを計算するとき、両方のbを意図的に等しく設定するからです。「洗練された」因子スコアでは、bは上記の方程式から取得され、通常は等しくありません。s1s2r12bbb

簡単にするため、また、因子分析は多くの場合相関に対して実行されるため、共分散ではなく相関として sを使用します。その場合、r 11r 22は単位であり、省略できます。次に、rr11r22

b1=s2r12s1r1221

b2=s1r12s2r1221

したがって、b1b2=(r12+1)(s1s2)r1221.

s 間のこの潜在的な不等式が、負荷s sと相関r 12の間の不等式にどのように依存しているかに興味があります。関数b 1 - b 2は、表面プロットとヒートマッププロットで以下に示されています。bsr12b1b2

enter image description here

enter image description here

s1s2=0bs1s2b1b2r12

b

s1=.70s2=.45.25

c。それらが強く相関する場合、ロードされたより弱いアイテムは、他のアイテムの下位複製です。強力な代替品の存在下で、その弱い指標/症状を数える理由は何ですか?大した理由はない。そして、そのために因子スコアが調整されます(単純な合計は調整されません)。多要素アンケートでは、「より負荷の低いアイテム」が他の要素のアイテムであり、より高い位置にロードされることが多いことに注意してください。現在のファクターでは、この項目が抑制されるようになりました。これは、現在見ているように、ファクタースコアの計算で-そしてそれが正しく機能しています。

b。しかし、アイテムが以前と同じように不均等にロードされても、それが強く相関しない場合、それらは異なる指標/症状です。そして、「二度」数えられる、すなわち単に合計される。この場合、要素の異なる実施形態であるため、要素スコアは、ロードがまだ許容する範囲で弱いアイテムを尊重しようとします。

a。また、2つのアイテムを2回カウントすることもできます。つまり、これらのアイテム間の相関関係に関係なく、因子による類似の十分に高い負荷がある場合は、合計するだけです。(ファクタースコアは、タイトすぎない相関関係がある場合、両方のアイテムに重みを追加しますが、重みは等しくなります。)すべてが強くロードされている場合、通常、まったく重複するアイテムを許容または認めることは不合理ではないようです。これが気に入らない場合(場合によっては)、ファクターから重複を手動で削除することもできます。

enter image description here

そのため、(少なくとも回帰法による)(洗練された)因子スコアの計算では、スコアへの影響において、コンストラクトを構成する変数の間に「ゲット・アロング/プッシュ・アウト」の陰謀が見られます。同様に強力な指標は相互に許容します。これは、強く相関していないほど強くない指標も同様です。「シャットダウン」は、弱いインジケーターが強いインジケーターと強く相関している場合に発生します。単純な加算/平均化には、「弱い複製を押し出す」という陰謀がありません。

要因は理論的には「本質的な」ものであり、「その」指標的な現象の大規模なコレクションまたはヒープではないことを警告するこの回答も参照してください。そのため、アイテムの積み上げや相関関係を考慮せずにアイテムを盲目的に要約することは、潜在的に問題があります。一方、スコア付けされた係数は、その項目の合計のようなものにすぎない可能性があるため、すべてが合計の重みのより良い概念に関するものです。


また、より一般的かつ抽象的に粗い方法または加算方法の欠陥を見てみましょう。

ba

F^iiFiX1X2a1a2FUb

F^i=b1X1i+b2X2i=b1(Fi+U1i)+b2(Fi+U2i)=(b1+b2)Fi+b1U1i+b2U2i

b1U1i+b2U2iF^iFiUF^Fbvar[b1U1i+b2U2i]F^FbaXF^F

abFF^

F^i=a1X1i+a2X2i= ... =(a1+a2)Fi+a1U1i+a2U2i

baaa


@ttnphns、有益な対応に感謝します。負荷がほぼ等しいアイテムを合計することができるのは理にかなっています(a)。残念ながら、私は自分の仕事で、おそらく一次元の既存のスケールを使用するときに、アイテムの負荷が等しいと感じる状況に遭遇したことはないと思います。
エリックグリーン

ですから、私は特に負荷が異なる状況の説明と、アイテム間の相関関係を調べる提案に興味がありました。「強い」(c)/「強くない」相関(b)または(a)の「十分に高い」ローディングの経験則があるかどうかを知りたい。
エリックグリーン

1
最後に、この質問の背景は、(少なくとも心理学では)圧倒的な規律規範であり、新しい非ノルム人口にスケールを管理する場合でも、単純な合計(平均)を必要とする「検証済み」スケールを使用することに注意します。多くの場合、目標はサンプル間比較(保証されていない場合でも)であり、単純な合計が一般的なアプローチになります。
エリックグリーン

関心の比較はサンプル内にあるため、介入研究は私の頭の中では興味深いユースケースです。私たちは、メジャーのいずれかのグループの「生の」スコアよりも治療効果のサイズを重視しているように思われます。特に、スケールの開発/標準化に使用される母集団以外のスケールを使用する場合。状況によって因子スコアが「より良い」場合、最終的には治療効果の大きさを見たいだけであるということを知って、より概念的な意味をもつものを支持する単純なアプローチを投げる価値があります。
エリックグリーン

1
(続き)Use "validated" scalesそれ自体は必ずしも単純な合計を必要としません:検証が良かった場合(代表的な大規模なサンプル、良好な相関、因子の正しい数、適切な適合など)、計算された因子スコア(それらの係数)は規範として取ることができます新しい母集団で使用される重み。ではこの点、私は単純合算で任意の利点を見ることができません。
-ttnphns
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.