第一に、コレスポンデンス分析の場合、いわゆるバイプロットを作成するさまざまな方法があります。すべての場合において、基本的な考え方は、行セルと列セル間の「距離」の最適な2D近似を表示する方法を見つけることです。言い換えると、分割表の行と列の間の関係の階層(「調整」とも呼ばれます)を探します。
非常に簡単に、CAは、2方向テーブルに関連付けられたカイ2乗統計を、行と列のスコア(プロファイルのテーブルから計算された頻度)を最大限に分離する直交因子に分解します。ここでは、PCAと何らかの関係がありますが、CAに保持されている分散の測定値(またはメトリック)は、列プロファイルのみに依存する(大きなモダリティを重視する傾向があるため)限界値、初期データの再重み付けも可能ですが、これは別の話です)。χ2
より詳細な回答があります。corresp()
関数(in MASS
)で提案されている実装は、CAの観点から、行と列を表すダミーのコード化された行列のSVD分解として続きます(、は合計サンプル)。これは、正準相関分析の観点からです。対照的に、フランスのデータ分析学派はCAをPCAのバリアントと見なし、データクラウド内の「慣性」を最大化する方向を探します。これは、中心およびスケーリングされた(周辺周波数による)双方向テーブルから計算された慣性行列を対角化して、この新しい座標系で行と列のプロファイルを表現することによって行われます。RtC= NN
行、列のあるテーブルを検討する場合、各行は対応する周辺合計によって重み付けされ、各行に関連付けられた一連の条件付き頻度が生成されます:。限界列は、平均プロファイル(行の場合)と呼ばれます。これにより、プロファイル(行単位)とも呼ばれる座標ベクトルが得られます。列には、ます。どちらの場合も、列スペースの個人として行プロファイル(その重み関連付けられている)、および列プロファイル(その重みに関連付けられている)を考慮しますj = 1 、… 、J f j | i = n i j / ni = 1 、… 、Ij = 1 、… 、Jfj | 私= n私はj/ n私は⋅f私| j= n私はj/ n⋅ J私f私は⋅Jf⋅ J)行スペースの個人として。任意の2人の個人間の近接度を計算するために使用されるメトリックは、距離です。たとえば、2つの行とには、χ2私i′
d2χ2(i,i′)=∑j=1Jnn⋅j(nijni⋅−ni′jni′⋅)2
H 0χ2H0ni⋅×n⋅j/n(i,j)
χ2距離、その後、あなたはあなたのCAを取得します。最初の主軸はすべての点に最も近い直線であり、対応する固有値はこの次元で説明される慣性です。列プロファイルでも同じことができます。2つのアプローチには対称性があり、より具体的には、列プロファイルの主成分(PC)が行プロファイルのPCと同じ固有値に関連付けられていることが示されます。バイプロットに表示されるのは、この新しい座標系での個人の座標ですが、個人は別の階乗空間で表されます。各個人/モダリティが階乗空間でよく表現されている場合(見ることができます)cos2ijχ2chisq.test(tab)$expected-chisq.test(tab)$observed
χ2nϕ2
実際には、で利用可能な機能に比べて強化されたCAを提供することがありますいくつかのパッケージがありますMASS
:パッケージade4、FactoMineR、anacor、およびCAが。
最新のものは特定のイラストに使用されたものであり、その機能のほとんどを説明する論文がJournal of Statistical Softwareに掲載されました:Rのコレスポンデンス分析、2次元および3次元グラフィックス:caパッケージ。
そのため、目/髪の色の例をさまざまな方法で再現できます。
data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab
library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)
library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))
library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib
library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))
すべての場合において、結果のバイプロットで読み取るものは基本的にです(慣性のほとんどを説明した第1軸に解釈を制限します)。
- 最初の軸は、明るい髪の色と暗い髪の色の間、および青と茶色の目の間の明確な対立を強調しています。
- ブロンドの髪の人は青い目を持つ傾向があり、黒い髪の人は茶色の目を持つ傾向があります。
フランスのリヨンのバイオインフォマティクスラボでのデータ分析に関する追加リソースが多数あります。これはほとんどがフランス語ですが、あなたにとってはそれほど大きな問題ではないと思います。次の2つの配布資料は、最初のスタートとして興味深いはずです。
k