離散データとPCAの代替


9

私は、昆虫の密接に関連するいくつかの種の形態学的翼の特徴を説明する離散(順序、メリット、および名目)変数のデータセットを持っています。私が期待しているのは、形態学的特徴に基づいて、さまざまな種の類似性を視覚的に示すような分析を行うことです。最初に頭に浮かんだのはPCA(これは私が作成しようとしている視覚化の種類です)ですが、それを調べた後(特に、次のような他の質問:主成分分析を連続の混合を含むデータセットに適用できますか?)とカテゴリ変数?)、PCAは離散データには不適切である可能性があります(PCAはこれらのタイプの研究で文献で使用されていますが、常に連続データを使用しています)。このデータが不適切である理由の統計的背景を無視すると、PCAは私の生物学的質問に関して比較的完璧な結果を私に与えます(興味のあるハイブリッドグループは父方のグループの真ん中にあります)。

私はまた、統計を緩和するために複数のコレスポンデンス分析を試しました(少なくとも私の理解の限りでは)が、PCAで得られるプロットに似ているプロットを取得できないようです。異なるグループ(生物学的に言えば、異なる種)を示すために、色で区切られています。この分析は、個々の観察ではなく、変数(ここでは、私の形態学的特性)が互いにどのように関連しているかを説明することを目的としているようです。また、グループごとに色分けした観測をプロットすると、個人のセット全体を表す単一の値(おそらく平均)しか得られません。私はRで分析を行ったので、プロットについてのアイデアを機能させるのに十分なほどRに精通していないかもしれません。

私のデータでこの種の分析を試すのは正しいですか、それとも私は順調ですか?わからない場合は、私の統計的な専門知識は限られているので、これらの分析の下で行われている方程式はすべて私の頭の中にあります。私はこの分析を完全に記述的に実行しようとしています(これ以上ダウンストリームの数値計算を行う必要はありません)。これが当てはまる場合は、PCAで十分ですが、確実に確認したいと思います。あまりにも多くの統計的仮定に違反しています。


1
複数のコレスポンデンス分析で、必要な種類のプロットを取得できるはずです。あなたのデータへのリンクを私たちに与えることができれば、私たちは見てみることができます。多次元スケーリングも可能ですが、MCAは一種の多次元スケーリングと
見なす

潜在クラスのクラスタリングは、もう1つの方法論的なオプションです。基本的に、LCAはクラスター化に使用される残差に不均一性の「モデル」を作成します。歴史的に、文学には2つの広範な研究の流れがあり、どちらも社会学です。元のLCAは50年代にコロンビアのラザースフェルドにさかのぼり、監督されておらず、カテゴリカルデータを使用していました。RのpoLCAはこの例です。さらに最近、LCAの教師付き有限混合モデルが開発されました。私はRモジュールを認識していませんが、それを行う安価な商用ソフトウェア(Latent Gold)があります。LGのウェブサイトにLCAに関する優れた論文があります
Mike Hunter

回答:


1

それは少し目的に依存しますが、視覚化ツールを使用している場合は、多次元スケーリングをランダムフォレストプロキシミティの出力に適用して、きれいな画像を生成し、カテゴリデータと連続データの混合で機能するトリックがあります。ここでは、予測因子に従って種を分類します。しかし、そしてそれは大きな警告です-これらの視覚化への出力が何を意味するのかを誰かが本当に知っているかどうかはわかりません。

もう1つの代替案は、Gowerの類似性のようなものに多次元スケーリングを適用することです。

懸案の質問があります-あなたの究極の目的は何ですか?どんな質問に答えたいですか?私はこれらのテクニックを探索ツールとして気に入って、あなたにもっともっと良い質問をするように導くかもしれませんが、彼らが何を説明したり自分で伝えたりするのかはわかりません。

多分私はあなたの質問を読みすぎているかもしれませんが、2つの純粋な種の間にあるハイブリッドの値を持つ予測子変数を調査したい場合は、モデルを構築して、予測変数の値を推定する方がよいでしょう。種と雑種に直接。変数が相互にどのように関連しているかを測定したい場合は、おそらく相関行列を作成します-これには多くのきちんとした視覚化があります。


ご入力ありがとうございます。最終的に、この分析から私が欲しいのは、他の種と比較したいくつかの種の類似性を定量的に測定することです(ゲシュタルトの外観に基づく2つの種は、他の密接に関連する種のように見えますが、遺伝的には別の種に似ていますが、古代の交配を示唆しています)。この研究の質問の主なポイントは、グループの遺伝学を調査することであり、この形態学的分析は単に生物学的物語全体に追加されます。この多次元スケーリングは、PCAと同様の視覚化につながりますか?
JD

同様の視覚化が得られます。MDSのアイデア/直感は、高次元空間(形態特性の空間)から低次元空間(2D平面のような)へのマッピングを構築して、高次元空間の距離が「かなり低次元空間と同じ」。次に、2D平面をプロットできます。しかし、それはどこかから高次元空間の距離メトリックを取得することを条件とします。
Patrick Caldon、2012年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.