PCA /コレスポンデンス分析の「馬蹄形効果」および/または「アーチ効果」とは何ですか?


20

多次元データの探索的データ分析のための生態学的統計には多くの手法があります。これらは「調整」技術と呼ばれます。多くは、統計の他の場所にある一般的な手法と同じか、密接に関連しています。おそらく、プロトタイプの例は主成分分析(PCA)です。エコロジストは、PCAおよび関連する手法を使用して「勾配」を探索する場合があります(勾配とは完全には明確ではありませんが、それについて少し読んでいます)。

、このページの下の最後の項目主成分分析(PCA)は、読み取ります。

  • PCAには、植生データにとって重大な問題があります。それは、馬蹄形効果です。これは、勾配に沿った種の分布の曲線性によって引き起こされます。種の応答曲線は通常、単峰性(つまり、非常に強い曲線)であるため、馬蹄形効果が一般的です。

ページのさらに下の、コレスポンデンス分析または相互平均(RA)の下で、「アーチ効果」を参照します。

  • RAには問題があります:アーチ効果。また、勾配に沿った分布の非線形性によっても発生します。
  • 勾配の両端は入り組んでいないため、アーチはPCAの馬蹄形効果ほど深刻ではありません。

誰かがこれを説明できますか?最近、この現象を低次元空間のデータを表すプロットで見ました(つまり、コレスポンデンス分析と因子分析)。

  1. 「勾配」は、より一般的に(つまり、非生態学的な文脈で)何に対応しますか?
  2. これがデータで発生した場合、それは「問題」(「深刻な問題」)ですか?何のために?
  3. 馬蹄/アーチが現れる出力をどのように解釈する必要がありますか?
  4. 救済策を適用する必要がありますか?何?元のデータの変換は役立ちますか?データが序数評価の場合はどうなりますか?

回答は、そのサイトの他のページに存在する場合があります(PCACA、およびDCAなど)。私はそれらを介して作業しようとしています。しかし、議論は十分になじみのない生態学的用語と例にまとめられており、問題を理解することはより困難です。


1
(+1)ordination.okstate.edu/PCA.htmでかなり明確な答えを見つけました。引用文の「曲線性」の説明はまったく間違っています。これが混乱の原因です。
whuber

2
Diaconisなども参照してください。(2008)、多次元スケーリングとローカルカーネルメソッドの蹄鉄Ann。適用 統計 、vol。2、いいえ。3、777-807。
枢機

私はあなたの質問に答えようとしましたが、私が生態学者であり、勾配がこれらのことをどう考えるかを見ることがどれほどうまく達成できたかわかりません。
モニカの復職-G.シンプソン

@whuber:引用された「曲線性」の説明はわかりにくく、あまり明確ではないかもしれませんが、「完全に間違っている」とは思いません。(リンクの例を使用して)真の「勾配」に沿った位置の関数としての種の存在量がすべて線形である(おそらくノイズによって破損している)場合、点の雲は(ほぼ)1次元でPCAになりますそれを見つけるだろう。関数が線形ではないため、点群は曲がり/曲線になります。シフトされたガウス分布の特別な場合は、馬蹄形になります。
アメーバは、モニカを復活させる

@Amoebaそれでも、馬蹄形効果は種の勾配の曲線性に起因するものではなく、分布比の非線形性に起因します。勾配自体の形状に影響を与える際の引用は、現象の原因を正しく特定していません。
whuber

回答:


19

Q1

エコロジストは常に勾配について語っています。勾配には多くの種類がありますが、それらを希望する変数または応答に重要な変数の組み合わせと考えるのが最善かもしれません。したがって、勾配は時間、空間、土壌の酸性度、栄養素、または何らかの方法で応答に必要な変数の範囲の線形結合などのより複雑なものになります。

空間または時間で種を観察し、その空間または時間によって物事全体が変化するため、勾配について話します。

Q2

多くの場合、PCAの馬蹄はそれがどのように発生するかを理解し、「勾配」が実際にPC1とPC2で表される場合にPC1を取るなどの愚かなことをしない限り、深刻な問題ではないという結論に達しましたまた、より高いPCにも分割されますが、2次元表現で問題ないことを願っています)。

CAでも同じだと思います(今は少し考えさせられています)。データに強力な2次元が存在しない場合、CA軸の直交性要件を満たす第1軸の折り畳みバージョンがデータの別の方向よりも多くの「慣性」を説明するように、ソリューションはアーチを形成できます。これは、PCAではアーチが単一の優勢な勾配に沿ったサイトでの種の豊富さを表す方法である構造で構成されているため、より深刻な場合があります。

強い馬蹄形でPC1に沿った間違った順序について人々がそんなに心配する理由を私はまったく理解していません。そのような場合、PC1だけを服用すべきではないと反論します。そうすれば、問題はなくなります。PC1とPC2の座標のペアは、これら2つの軸のいずれかで反転を取り除きます。

Q3

PCAバイプロットで馬蹄形を見た場合、データは単一の支配的な勾配または変動の方向を持っていると解釈します。

アーチを見た場合、おそらく同じことを結論付けるでしょうが、CA軸2をまったく説明しようとするのは非常に慎重です。

私はDCAを適用しません-それはあなたが2次元プロットで奇妙に見えないように(最良の状況で)アーチをねじりますが、多くの場合、それはダイヤモンドやトランペット形状などの他の偽の構造を生成しますDCA空間でのサンプルの配置。例えば:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

ここに画像の説明を入力してください

プロットの左側にあるサンプルポイントの典型的な扇形の広がりが見られます。

Q4

m

これは、データの高次元空間で非線形方向を見つけることを示唆しています。そのような方法の1つはHastie&Stuezelの主曲線ですが、他の非線形多様体法も利用できます。

たとえば、いくつかの病理学的データ

ここに画像の説明を入力してください

強い蹄鉄が見えます。主曲線は、データのm次元の滑らかな曲線を介して、この基礎となる勾配またはサンプルの配置/順序を回復しようとします。下の図は、反復アルゴリズムが基礎となる勾配に近似するものにどのように収束するかを示しています。(プロットの上部のデータから遠ざかり、より高次元のデータに近づくようになったと思います。これは、主曲線として宣言される曲線の自己整合性基準のためです。)

ここに画像の説明を入力してください

これらの画像を取得したブログ投稿にコードなどの詳細があります。しかし、ここでの主なポイントは、主曲線がサンプルの既知の順序を簡単に回復するのに対して、PC1またはPC2自体はそうではないということです。

PCAの場合、生態学に変換を適用するのが一般的です。一般的な変換は、変換されたデータでユークリッド距離が計算されるときに、非ユークリッド距離を返すと考えられる変換です。たとえば、ヘリンガー距離は

DHellngerバツ1バツ2=j=1p[y1jy1+y2jy2+]2

yjjy+ のすべての種の存在量の合計 番目のサンプル。データを比率に変換し、平方根変換を適用すると、ユークリッド距離を保持するPCAは、元のデータのHellinger距離を表します。

馬蹄は生態学で長い間知られており、研究されてきました。初期の文献のいくつか(さらに現代的な外観)は

主な主曲線の参照は次のとおりです。

前者は非常に生態学的なプレゼンテーションです。


ありがとう、ギャビン。「私の医者が好きです」、「私の医者は私を人間として気遣っているような気がします」などの質問を含むデータセットから、序数の評価1:5を検討します。これらは、空間または時間のいずれにも意味のある分布ではありません。ここでの「勾配」とは何ですか?
グング-モニカの復職

5x5テーブルと高Nの場合、データを視覚化する1つの方法はCAの使用です。データは序数ですが、CAはそれを認識しません。そのため、隣接する行/列がさらに離れているものよりも近いかどうかを確認できます。両方のポイントセットは、適切な順序で明確なラインに沿って落ちますが、ラインは、2D空間の中間点よりも極端に近くなるようにカーブします。それはどのように解釈されるべきですか?
グング-モニカの復職

CAは、サンプルの「スコア」の分散を最大化する行(サンプル)と変数(cols)の両方の順序を見つけます。その分散を最大化する潜在変数(変数の線形結合)を見つけます。その潜在変数を勾配と呼びます。
モニカの復活-G.シンプソン

圧縮について、CA軸1で互いに近い、またはバイプロットのスケールでユークリッド距離の点で互いに近いということですか?いずれにせよ、これは本当に低次元空間へのデータの投影における問題です。DCAは、トレンド除去されたDCA軸1の最後でサンプルを引き離し、原点近くでサンプルを圧縮することにより、この効果を取り消そうとします。はい、それは問題ですが、基になる勾配を適切にキャプチャする方法の柔軟性が原因です。私たちはそれと一緒に暮らすか、より柔軟なアプローチを使用できます(少なくともエコロジーにおいて)。
復帰モニカ-G.シンプソン

1
これをより多くの次元で見ると、問題はなくなります。これはメソッドの制限に過ぎないと思います。多くの場合は問題ありませんが、他の場合は失敗します。
モニカの復職-G.シンプソン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.