Q1
エコロジストは常に勾配について語っています。勾配には多くの種類がありますが、それらを希望する変数または応答に重要な変数の組み合わせと考えるのが最善かもしれません。したがって、勾配は時間、空間、土壌の酸性度、栄養素、または何らかの方法で応答に必要な変数の範囲の線形結合などのより複雑なものになります。
空間または時間で種を観察し、その空間または時間によって物事全体が変化するため、勾配について話します。
Q2
多くの場合、PCAの馬蹄は、それがどのように発生するかを理解し、「勾配」が実際にPC1とPC2で表される場合にPC1を取るなどの愚かなことをしない限り、深刻な問題ではないという結論に達しましたまた、より高いPCにも分割されますが、2次元表現で問題ないことを願っています)。
CAでも同じだと思います(今は少し考えさせられています)。データに強力な2次元が存在しない場合、CA軸の直交性要件を満たす第1軸の折り畳みバージョンがデータの別の方向よりも多くの「慣性」を説明するように、ソリューションはアーチを形成できます。これは、PCAではアーチが単一の優勢な勾配に沿ったサイトでの種の豊富さを表す方法である構造で構成されているため、より深刻な場合があります。
強い馬蹄形でPC1に沿った間違った順序について人々がそんなに心配する理由を私はまったく理解していません。そのような場合、PC1だけを服用すべきではないと反論します。そうすれば、問題はなくなります。PC1とPC2の座標のペアは、これら2つの軸のいずれかで反転を取り除きます。
Q3
PCAバイプロットで馬蹄形を見た場合、データは単一の支配的な勾配または変動の方向を持っていると解釈します。
アーチを見た場合、おそらく同じことを結論付けるでしょうが、CA軸2をまったく説明しようとするのは非常に慎重です。
私はDCAを適用しません-それはあなたが2次元プロットで奇妙に見えないように(最良の状況で)アーチをねじりますが、多くの場合、それはダイヤモンドやトランペット形状などの他の偽の構造を生成しますDCA空間でのサンプルの配置。例えば:
library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA
プロットの左側にあるサンプルポイントの典型的な扇形の広がりが見られます。
Q4
m
これは、データの高次元空間で非線形方向を見つけることを示唆しています。そのような方法の1つはHastie&Stuezelの主曲線ですが、他の非線形多様体法も利用できます。
たとえば、いくつかの病理学的データ
強い蹄鉄が見えます。主曲線は、データのm次元の滑らかな曲線を介して、この基礎となる勾配またはサンプルの配置/順序を回復しようとします。下の図は、反復アルゴリズムが基礎となる勾配に近似するものにどのように収束するかを示しています。(プロットの上部のデータから遠ざかり、より高次元のデータに近づくようになったと思います。これは、主曲線として宣言される曲線の自己整合性基準のためです。)
これらの画像を取得したブログ投稿にコードなどの詳細があります。しかし、ここでの主なポイントは、主曲線がサンプルの既知の順序を簡単に回復するのに対して、PC1またはPC2自体はそうではないということです。
PCAの場合、生態学に変換を適用するのが一般的です。一般的な変換は、変換されたデータでユークリッド距離が計算されるときに、非ユークリッド距離を返すと考えられる変換です。たとえば、ヘリンガー距離は
DH E L L I NのG E R(x 1 、 x 2 )= ∑j = 1p[ y1 jy1 +−−−−√− y2 jy2 +−−−−√]2−−−−−−−−−−−−−−−−−−⎷
y私はjj、yi + のすべての種の存在量の合計 私番目のサンプル。データを比率に変換し、平方根変換を適用すると、ユークリッド距離を保持するPCAは、元のデータのHellinger距離を表します。
馬蹄は生態学で長い間知られており、研究されてきました。初期の文献のいくつか(さらに現代的な外観)は
主な主曲線の参照は次のとおりです。
前者は非常に生態学的なプレゼンテーションです。