主成分分析と対応分析の使用


9

潮間帯群集に関するデータセットを分析しています。データは、四角形の(海藻、フジツボ、ムール貝などの)カバー率です。種数の観点からのコレスポンデンス分析(CA)と、線形環境(種ではない)傾向に役立つものとして主成分分析(PCA)を考えることに慣れています。PCAまたはCAがカバー率(紙を見つけることができない)に適しているかどうかを判断するのに実際に運がありませんでした。また、100%に制限されているものがどのように分配されるかさえわかりません?

最初のトレンド除去対応分析(DCA)軸の長さが2を超える場合、CAを使用する必要があると安全に判断できるという大まかなガイドラインに精通しています。DCA軸1の長さは2.17でしたが、役に立ちませんでした。


3
PCAとCAは両方とも関連しており、どちらもSVDアルゴリズムに基づくことができます。基本的な形式上の違い(@Gavinのその他の詳細な回答では言及されていません)は、PCAが列間の関係のみを分解する(たとえば、共分散行列を分解することにより)ことで、行を「ケース」として扱います。CAは列と行を同時に分解し、それらを対称的に、クロス集計「カテゴリ」として扱います。したがって、CAが残したバイプロットとPCAの後にプロットできる準バイプロット(ローディング+スコア)は、概念的にまったく異なる情報を提供します。
ttnphns 2013

回答:


9

PCAは値を処理しますが、CAは相対値を処理します。どちらも、あなたが言及する種類の相対的な存在量のデータには問題ありません(1つの重要な注意点があります。後で参照)。%データを使用すると、すでに相対測定値がありますが、それでも違いがあります。自問してみてください

  • 豊富な種/分類群(すなわち、%カバーが大きいもの)のパターンを強調しますか、または
  • 相対的構成のパターンに焦点を当てたいですか?

前者の場合は、PCAを使用します。後者がCAを使用する場合。2つの質問の意味は、

A = {50, 20, 10}
B = { 5,  2,  1}

異なるまたは同じと見なされるには?AおよびBは2つのサンプルであり、値は表示されている3つの分類群の%coverです。(この例はうまくいかず、地表があると仮定します!;-) PCAはユークリッド距離を使用しているため、これらを非常に異なるものと見なしますが、CAはこれらの2つのサンプルは、相対プロファイルが同じであるため非常に類似していると見なします。

ここでの大きな警告は、データの閉じた構成の性質です。合計が1(100%)になるいくつかのグループ(Sand、Silt、Clayなど)がある場合、どちらのアプローチも正しくなく、クローズドコンポジション用に設計されたAitchisonのLog-ratio PCAを介してより適切な分析に移行できます。データ。(これを行うには、行列で中央揃えし、データをログ変換する必要があります。)他のアプローチもあります。Rを使用する場合に役立つ1つの本は、Rを使用した構成データの分析です。


いつものように、本当に素晴らしい答えギャビン。ありがとうございました!これにより、多くのことが明確になり、PCAを使用します。潮間帯のコミュニティが3次元であることを考えると、生物が互いに成長した場合、カバー率は実際には100%になります。これはあなたが話している閉じた作曲形式ではありませんよね?
HFBrowning 2013

いいえ、それは彼が話していることではありません。クローズドとは、彼がA、B、Cの3種のシステムで%C = 100%-%B-%A
Pertinax

そしてDCAはどうですか?
ダーウィンPC

DCAは混乱したバージョンのCAであるため、同じ一般原則が適用されます。DCAは奇妙なデータの拷問を行っており、今日のツールボックスのメソッドとしてそれを気にする必要はないと思いますが、他の人の意見はそれによって異なります。
Gavin Simpson
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.