因子分析でバイナリ変数のピアソン相関(四重相関の代わりに)を計算する危険性は何ですか?


10

私は教育用ゲームの研究を行っています。現在のプロジェクトのいくつかは、BoardGameGeek(BGG)とVideoGameGeek(VGG)のデータを使用して、ゲームの設計要素間の関係を調べています(つまり、「第二次世界大戦の始まり」、「ローリングダイスを含む」)。 )およびそれらのゲームのプレイヤーの評価(つまり、10点満点)。これらの各設計要素は、BGGまたはVGGシステムのタグに対応しているため、各要素は本質的に二分変数です。ゲームには、データベースに存在するすべてのタグに1があり、存在しないすべてのタグに0があります。

これらのタグは数十あるので、探索的要因分析(EFA)を使用して、ゲームデザインのパターンをキャプチャする管理可能な数の「ジャンル」を考え出します。いくつかの情報源を調べて、私は二分変数を扱っているので、私の要因を思い付くとき、ピアソンの相関の代わりにポリコリック相関(特にここではテトラコリック)を使用する必要があることを理解しています(潜在特性分析などの他のオプションもあります—そこにありますが、これは私が今探っているものです)。

好奇心から、ピアソン相関を使用する因子とポリコリック相関を使用する因子(それぞれ同じ数の因子)の2組の因子を思いつきました。私の問題は、ピアソン相関を使用して計算された因子は、ポリコリック相関を使用して計算された因子よりもはるかに意味があり、解釈が容易であることです。つまり、最初の要素セットの「ジャンル」は直感的に理解でき、ゲームの一般的な設計方法に関する私の理解と一致しています。これは、2番目の要素セットには当てはまりません。

一方では、使用しているテストの前提を満たしていることを確認したいのですが、それによって結果が見栄えが悪くなります。一方で、因子分析と(より広範には)モデル構築の目標の一部は有用なものを生み出すことであると感じ、私が「ルールを破る」ときに、より有用な情報が浮かび上がってきます。このテストの仮定に違反することを上回るのに十分なモデルが必要ですか?ポリコリック相関の代わりにピアソン相関を使用すると、どのような結果になりますか?


1
基礎となる多変量正規性の仮定は、3次元以上のデータでは非常に強力であるため、ポリコリック相関はそれほど意味をなさなくなります。ポリコリック相関のあるモデルの誤った仕様の程度により、分析が役に立たなくなる可能性が高くなります。ただし、そもそもなぜこれらの相関関係が必要なのかはわかりません。明確な結果変数(評価)と一連の説明変数(設計機能)がある場合は、因子分析ではなく回帰分析が必要です。
StasK

@StasK回帰分析私の最終的な目標ですが、100を超える説明変数があり、それをより扱いやすい数に減らしたいと考えています。
Spencer Greenhalgh、2015

さらに、そのような問題では、分類自体が目標です。
ペレ2017

回答:


7

線形因子分析は、理論的には、論理的には連続変数に対してのみです。変数が連続的ではないが、たとえば二分性である場合、背後にある連続する変数を認めて、観測された変数がビニングされた基底または真の変数であることを宣言することが1つの方法です。無関係な「家庭教師」なしで二分変数をスケール1に定量化することはできませんが、変数がまだビニングされておらず、「元の」連続正規分布であった場合の相関推測できます。そして、これは四塩化炭素です相関関係(または、バイナリの代わりに序数変数がある場合はポリコリック)。したがって、ファイ相関(二値データで観測されたピアソン相関)の代わりに四色相関(推定ピアソン相関)を使用することは、論理的な行為です。

r=1rrですが、二項変数では、値が少なすぎるため、この効果は最も鋭くなります。そのため、二項変数の周辺分布が対照的であるため、それらの行列のファイ相関は不均一に収縮していると見なすことができます。ある相関関係が別の「真に」より大きいか、またはこれら2つの変数のペアのカットポイントが異なるためかはわかりません。抽出する要素の数(カイザーの「固有値> 1」などの基準に従う)は膨らみます。抽出された一部の「要素」は、不均一性、カットポイントの多様性の結果であり、実質的な潜在要素ではありません。これは、ファイの相関関係を(少なくとも元の-再スケーリングされていない)形式で使用しない実用的な理由です。

マトリックスに強い(> 0.7)相関が多数ある場合、四重相関に基づく因子分析が悪化するというシミュレーション/ビニング研究の証拠があります。四色相関は理想的ではありません。相関する基礎となる変数のカットポイントが反対にある場合(したがって、二分法の周辺分布が反対に歪んでいる場合)、基礎となる関連が強い場合、四流体係数はそれをさらに過大評価します。また、四重相関行列は、大きくないサンプルでは必ずしも正の半定値であるとは限らないため、修正(「平滑化」)が必要になる場合があります。それでも、単純なピアソン(ファイ)係数の因子分析を行うよりも、多くの方法で評価されています。

しかし、なぜバイナリデータの因子分析を行うのでしょうか。潜在特性/ IRT(「ロジスティック」因子分析の形式)や多重対応分析(バイナリ変数を名目上のカテゴリーとして表示する場合)など、他のオプションがあります。

以下も参照してください。

  • 線形因子分析の仮定
  • rr

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.