連続データとカテゴリデータの両方を含むデータセットがあります。PCAを使用して分析していますが、分析の一部としてカテゴリ変数を含めることは問題ないでしょうか。私の理解では、PCAは連続変数にのみ適用できるということです。あれは正しいですか?カテゴリデータに使用できない場合、分析にはどのような選択肢がありますか?
連続データとカテゴリデータの両方を含むデータセットがあります。PCAを使用して分析していますが、分析の一部としてカテゴリ変数を含めることは問題ないでしょうか。私の理解では、PCAは連続変数にのみ適用できるということです。あれは正しいですか?カテゴリデータに使用できない場合、分析にはどのような選択肢がありますか?
回答:
バイナリデータに適用されたPCAは、多重コレスポンデンス分析から得られた結果に匹敵する結果をもたらしますが(因子スコアと固有値は線形に関連しています)、混合データタイプを扱うためのより適切な手法、すなわち、FactoMineR Rパッケージ(AFDM()
)。変数が記述的属性の構造化されたサブセットとみなされる場合、多因子分析(MFA()
)もオプションです。
カテゴリ変数の課題は、階乗空間で変数カテゴリと個人との間の距離を表す適切な方法を見つけることです。この問題を克服するために、最適なスケーリングを使用して、各変数(名義、順序、多項式、または数値)の非線形変換を探すことができます。これは、Rの最適スケーリングのGifiメソッド:パッケージhomalsで詳しく説明されており、実装は対応するRパッケージhomalsで利用可能です。
Although a PCA applied on binary data would yield results comparable to those obtained from a Multiple Correspondence Analysis
、名義カテゴリ変数(カーディナリティがNの場合)を(N-1)個のダミーバイナリのコレクションに変換してから、このデータに対してPCAを実行できませんか?(私はより適切な技術があることを理解しています)
Googleの検索「離散変数のpca」は、S。Kolenikov(@StasK)とG. Angelesによるこの素晴らしい概要を示しています。chlの答えに追加すると、PC分析は実際には共分散行列の固有ベクトルの分析です。したがって、問題は「正しい」共分散行列の計算方法です。アプローチの1つは、ポリコリック相関を使用する ことです。
Linting&Kooij、2012年「CATPCAによる非線形主成分分析:チュートリアル」、Journal of Personality Assessmentをご覧になることをお勧めします。94(1)。
抽象
この記事は、非線形主成分分析(NLPCA)のチュートリアルとして設定されており、ロールシャッハインクブロットテストによる人格評価の実際のデータを分析するプロセスを読者に体系的に案内します。NLPCAは、線形PCAのより柔軟な代替手段であり、さまざまなタイプの測定レベルで、非線形に関連する可能性のある変数の分析を処理できます。この方法は、名目(定性)データと順序(例えば、リッカートタイプ)データを分析するのに特に適しています。SPSSのCategoriesモジュールのプログラムCATPCAは分析で使用されますが、メソッドの説明は他のソフトウェアパッケージに簡単に一般化できます。
誰かの投稿にコメントする権限がまだありませんので、コメントを別の回答として追加していますので、ご容赦ください。
@Martin Fがコメントしたことを続けて、最近、非線形PCAに出会いました。データがまばらになるにつれて連続変数が順序変数の分布に近づくときの可能な代替手段として非線形PCAを検討していました(遺伝学では変数のマイナーアレル頻度がますます低くなり、あなたが残っているときに頻繁に起こります)連続変数の分布を実際に正当化することはできず、順序変数またはカテゴリ変数にすることで分布の仮定を緩める必要があるカウント数が非常に少ない場合。)非線形PCAはこれらの条件の両方を処理できます。遺伝学部の統計マエストロと議論し、コンセンサスの呼びかけは、非線形PCAはあまり使用されず、それらのPCAの動作はまだ十分にテストされていないということでした(遺伝学分野のみを参照している可能性があります。確かにそれは魅力的なオプションです。議論に2セント(幸いにも関連性がある)を追加したことを願っています。
そのような問題に対する最近開発されたアプローチがあります:一般化低ランクモデル。
この手法を使用する論文の1つは、データフレームのPCAと呼ばれることさえあります。
PCAは次のように設定できます。
以下のためののX行列m M
x 行列および x行列(これはランク e制約を暗黙的にエンコードします)を見つけますk個のXの k個のM Y K
=。
GLRMの「一般化された」とは、を他のものに追加し、正規化用語を追加します。