Yes / No応答が多数あるデータセットがあります。このタイプのデータに対して主成分分析(PCA)またはその他のデータ削減分析(因子分析など)を使用できますか?SPSSを使用してこれを行う方法についてアドバイスしてください。
Yes / No応答が多数あるデータセットがあります。このタイプのデータに対して主成分分析(PCA)またはその他のデータ削減分析(因子分析など)を使用できますか?SPSSを使用してこれを行う方法についてアドバイスしてください。
回答:
PCAまたは因子分析における二項変数またはバイナリ変数の問題は永遠です。「違法である」から「大丈夫」まで、「あなたはそれをするかもしれないが、あまりにも多くの要因を得るだろう」というようなことを通して、極論があります。私自身の現在の意見は次のとおりです。まず、観測されたバイナリ変数は離散的であり、それを何らかの方法で連続として扱うのは不適切であると考えています。この離散変数は、因子または主成分を生じさせることができますか?
因子分析(FA)。定義による要因は、観察可能な変数(負荷連続潜在である1、2)。したがって、後者は、要因によって十分に負荷がかけられた場合に、連続的(または間隔、より実際的に言えば)になります。また、FAは線形回帰の性質により、uniqnessと呼ばれる残りの部分(ロードされていない)が連続していることを前提としています。したがって、バイナリ変数 はFAで自分自身を立法化することはできません。ただし、少なくとも次の2つの方法があります。(A)ラフニングが基になる変数を継続し、ピアソンではなく4相-相関でFAを行うと、二分法を仮定します。(B)因子が線形ではなくロジスティックに二項変数をロードし、線形FAの代わりに潜在特性分析(別名アイテム応答理論)を行うと仮定します。続きを読む。
主成分分析(PCA)。FAと多くの共通点がある一方で、PCAはモデリングではなく、要約方法にすぎません。コンポーネントは、因子が変数をロードするのと同じ概念的な意味で変数をロードしません。PCAでは、コンポーネントは 変数をロードし、変数はコンポーネントをロードします。この対称性は、PCA自体が空間における変数軸の回転にすぎないためです。バイナリ変数は、それ自体ではコンポーネントの真の連続性を提供しません-連続的ではないため、PCA回転の角度によって疑似連続性を提供することができます。したがって、PCAでは、FAとは対照的に、純粋にバイナリ変数(回転していない軸)で一見連続的な寸法(回転軸)を取得できます -角度は連続性の原因です。
:FA又はバイナリデータのPCAについてのいくつかの関連の質問1、2、3、4、5、6。そこの回答は、私の意見とは異なる意見を表明する可能性があります。
レベルエンティティ-ポイントとしての変数またはポイントとしてのカテゴリ-主軸空間での座標は、実際に正当なスケール値です。ただし、バイナリデータのデータポイント(データケース)ではありません。それらの「スコア」は疑似連続値です。固有の測定値ではなく、一部のオーバーレイ座標です。
バイナリデータの例(2つの変数の単純なケース):
以下の散布図は、(周波数をレンダリングするために)少しジッターされたデータポイントを表示し、主成分軸をコンポーネントスコアを示す対角線として表示します[これらのスコアは、私の主張によると、疑似連続値です]。すべての写真の左側のプロットは、原点からの「生の」偏差に基づくPCAを示し、右側のプロットは、スケーリングされた(対角=単位)偏差に基づくPCAを示しています。
1)従来のPCAは、(0,0)
データ平均(セントロイド)に起源を置きます。バイナリデータの場合、平均は可能なデータ値ではありません。ただし、これは物理的な重心です。PCAは、それに関するばらつきを最大化します。
(また、バイナリ変数の平均と分散は厳密に結びついていることを忘れないでください。いわば「1つのこと」です。バイナリ変数の標準化/スケーリング、つまり、共分散ではなく相関に基づいてPCA現在のインスタンスは、より多くの歪んだ変数よりもPCAに大きな影響を与えるために、よりバランスのとれた変数(より大きな分散を持つ)を妨げることを意味します。)
2)中心化されていないデータでPCAを実行できます。つまり、原点(0,0)
をlocationに移動させます(0,0)
。MSCP(X'X/n
)行列またはコサイン類似度行列のPCA です。PCAは、属性なしの状態からのprotuberabilityを最大化します。
3)原点(0,0)
を、それから他のすべてのデータポイントまでのマンハッタン距離の最小合計のデータポイント-L1 medoidに置くことができます。通常、Medoidは最も「代表的な」または「典型的な」データポイントとして理解されます。したがって、PCAは(周波数に加えて)非定型性を最大化します。データでは、L1 medoidは(1,0)
元の座標に該当しました。
4)または(0,0)
、周波数が最も高いデータ座標に原点を置きます-多変量モード。この(1,1)
例のデータセルです。PCAはジュニアモードを最大化します(駆動します)。
5)回答の本文では、二項変数について、因子分析を実行するのに四角相関が健全な問題であると述べられました。PCAについても同じことが言えます。四肢相関に基づいて PCA を実行できます。ただし、それは、バイナリ変数内の基礎となる連続変数を想定していることを意味します。