2Dコレスポンデンス分析プロットの解釈


19

私はインターネットを広く検索してきました... 2Dコレスポンデンス分析プロットを解釈する方法の本当に良い概要をまだ見つけていません。誰かがポイント間の距離を解釈する上でアドバイスを提供できますか?

おそらく例が役立つでしょう。ここに、私が見た多くのウェブサイトで見つかった、コレスポンデンス分析についてのプロットがあります。赤い三角形は目の色を表し、黒い点は髪の色を表します。

代替テキスト

上記のグラフを見て、これらのデータに表示されるものについていくつかのステートメントを作成できますか。三角形とドットの異なる次元と関係についての関心のある点は?

行ポイントと列ポイントの説明、および例に特に焦点を当てた「プロファイル」という言葉の使用は、役に立つでしょう。


1
以下の@chlの優れた説明に加えて、単純なCAおよびPCAを単なる「バイプロット分析」の形式と見なすこの説明も検討してください。
ttnphns

回答:


24

第一に、コレスポンデンス分析の場合、いわゆるバイプロットを作成するさまざまな方法があります。すべての場合において、基本的な考え方は、行セルと列セル間の「距離」の最適な2D近似を表示する方法を見つけることです。言い換えると、分割表の行と列の間の関係の階層(「調整」とも呼ばれます)を探します。

非常に簡単に、CAは、2方向テーブルに関連付けられたカイ2乗統計を、行と列のスコア(プロファイルのテーブルから計算された頻度)を最大限に分離する直交因子に分解します。ここでは、PCAと何らかの関係がありますが、CAに保持されている分散の測定値(またはメトリック)は、列プロファイルのみに依存する(大きなモダリティを重視する傾向があるため)限界値、初期データの再重み付けも可能ですが、これは別の話です)。χ2

より詳細な回答があります。corresp()関数(in MASS)で提案されている実装は、CAの観点から、行と列を表すダミーのコード化された行列のSVD分解として続きます(、は合計サンプル)。これは、正準相関分析の観点からです。対照的に、フランスのデータ分析学派はCAをPCAのバリアントと見なし、データクラウド内の「慣性」を最大化する方向を探します。これは、中心およびスケーリングされた(周辺周波数による)双方向テーブルから計算された慣性行列を対角化して、この新しい座標系で行と列のプロファイルを表現することによって行われます。RtC=NN

行、列のあるテーブルを検討する場合、各行は対応する周辺合計によって重み付けされ、各行に関連付けられた一連の条件付き頻度が生成されます:。限界列は、平均プロファイル(行の場合)と呼ばれます。これにより、プロファイル(行単位)とも呼ばれる座標ベクトルが得られます。列には、ます。どちらの場合も、列スペースの個人として行プロファイル(その重み関連付けられている)、および列プロファイル(その重みに関連付けられている)を考慮しますj = 1 J f j | i = n i j / ni=1,,Ij=1,,Jfj|i=nij/nifi|j=nij/njIfiJfj)行スペースの個人として。任意の2人の個人間の近接度を計算するために使用されるメトリックは、距離です。たとえば、2つの行とには、χ2ii

dχ22(i,i)=j=1Jnnj(nijninijni)2

H 0χ2H0ni×nj/n(i,j)

χ2距離、その後、あなたはあなたのCAを取得します。最初の主軸はすべての点に最も近い直線であり、対応する固有値はこの次元で説明される慣性です。列プロファイルでも同じことができます。2つのアプローチには対称性があり、より具体的には、列プロファイルの主成分(PC)が行プロファイルのPCと同じ固有値に関連付けられていることが示されます。バイプロットに表示されるのは、この新しい座標系での個人の座標ですが、個人は別の階乗空間で表されます。各個人/モダリティが階乗空間でよく表現されている場合(見ることができます)cos2ijχ2chisq.test(tab)$expected-chisq.test(tab)$observed

χ2nϕ2

実際には、で利用可能な機能に比べて強化されたCAを提供することがありますいくつかのパッケージがありますMASS:パッケージade4FactoMineRanacor、およびCAが

最新のものは特定のイラストに使用されたものであり、その機能のほとんどを説明する論文がJournal of Statistical Softwareに掲載されました:Rのコレスポンデンス分析、2次元および3次元グラフィックス:caパッケージ

そのため、目/髪の色の例をさまざまな方法で再現できます。

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

すべての場合において、結果のバイプロットで読み取るものは基本的にです(慣性のほとんどを説明した第1軸に解釈を制限します)。

  • 最初の軸は、明るい髪の色と暗い髪の色の間、および青と茶色の目の間の明確な対立を強調しています。
  • ブロンドの髪の人は青い目を持つ傾向があり、黒い髪の人は茶色の目を持つ傾向があります。

フランスのリヨンのバイオインフォマティクスラボでのデータ分析に関する追加リソースが多数あります。これはほとんどがフランス語ですが、あなたにとってはそれほど大きな問題ではないと思います。次の2つの配布資料は、最初のスタートとして興味深いはずです。

k


1
@Brandon 1番目の軸は両方のモダリティの「支配」軸(明るい->暗い)ですが、1番目の軸は青と緑の目を茶色とヘーゼルの目と反対にすることもわかります(座標は反対の符号です)。そして、赤毛と緑目の組み合わせは非常に珍しいことですが、主に第2因子軸に寄与しています。この軸は総慣性の9.5%のみを説明しているため、確固たる結論(特に遺伝的仮説)を引き出すことはかなり困難です。
chl

1
@Brandonさらに2つのリファレンス(今回は英語):PBILコース(j.mp/cHZT7X)およびMichael Friendlyのリソース(j.mp/cYHyVn + vcdおよびvcdExtraRパッケージ、後者は素敵なビネットを含む)。
chl

2
@Brandonはい、1つのモダリティ=変数の1つのカテゴリ。2番目の質問corは、軸との相関の二乗でctrあり、寄与です(%として読み取るには10で割る必要があります)。そのため、「赤毛」は第2軸の慣性の55.1%に寄与します。ある意味で、FactoMineRの出力は「直感的」であることがわかりました(CA(tab, graph=FALSE)$row$contrib%が直接得られます)。
CHL

1
@chl:うわー、CCAや「フランスのやり方」について何も知らない人にとっては、これは素晴らしい読み物でした!どうもありがとう。また、興味深いかもしれないいくつかのグーグルでこれを見つけました:www-stat.stanford.edu/~susan/papers/dfc.pdf
ars

1
@ars(+1)リンクをお寄せいただきありがとうございます(このモノグラフを知らなかったので、面白そうです)。最近の開発に関する私の最善の推奨事項は、実際にはJan de Leeuwのすべての論文と、Greenacreの複数のコレスポンデンス分析と関連メソッド、およびGeometric Data Analysis:Correspondence AnalysisからStructured Data Analysis to Le Roux&Rouanet(フランス語) 。
chl
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.