後の分析を行うために、PCAによって取得された必要な分散量はありますか?


15

11個の変数を含むデータセットがあり、データを削減するためにPCA(直交)が実行されました。保持するコンポーネントの数を決定することで、2つの主要なコンポーネント(PC)がデータを説明するのに十分であり、残りのコンポーネントはあまり有益ではないことが、主題とスクリープロット(下記参照)についての私の知識から明らかでした。

ここに画像の説明を入力してください
並列解析を使用したスクリープロット:観測された固有値(緑色)と100回のシミュレーションに基づくシミュレートされた固有値(赤色)。スクリープロットでは3台のPCが推奨されますが、パラレルテストでは最初の2台のPCのみが推奨されます。

ここに画像の説明を入力してください

ご覧のとおり、最初の2台のPCでキャプチャできるのは分散の48%だけです

最初の2台のPCによって行われた最初の平面での観察結果をプロットすると、階層型凝集クラスタリング(HAC)とK-meansクラスタリングを使用した3つの異なるクラスターが明らかになりました。これらの3つのクラスターは、問題の問題に非常に関連していることが判明し、他の調査結果とも一致していました。そのため、分散の48%のみがキャプチャされたという事実を除いて、他のすべては非常に良好でした。

私の2人のレビュアーのうちの1人は言った:1つは48%の分散しか説明できず、それが必要とされるより少ないので、これらの発見にあまり頼ることができない。

質問 PCAが有効
にするためにどの程度の分散をキャプチャする必要があるかについて、必要な値はありますか?使用中のドメインの知識と方法論に依存していませんか?説明された分散の単なる値に基づいて、分析全体のメリットを判断できる人はいますか?

ノート

  • データは、リアルタイム定量ポリメラーゼ連鎖反応(RT-qPCR)と呼ばれる分子生物学の非常に感度の高い方法で測定された遺伝子の11変数です。
  • 分析はRを使用して行われました。
  • マイクロアレイ分析、ケモメトリックス、分光分析などの分野での実際の問題に取り組んでいる個人的な経験に基づいたデータアナリストからの回答は大歓迎です。
  • 可能な限り参考文献で回答をサポートすることを検討してください。

固有値の分布は、ランダム行列理論にとって非常に重要です。Marcenko-Pastur分布は、同様のアプリケーションで使用される場合があります。
ジョン

緑は何を示し、オレンジ/茶色の線は何を示していますか?軸にのみあります。
usεr11852が復活モニック言う

@usεr11852、更新されたキャプションをご覧ください。
博士号を取得

回答:


8

特定の質問について:

有効にするためにPCAでどの程度の分散をキャプチャする必要があるかについて、必要な値はありますか?

いいえ、ありません(私の知る限り)。使用できる単一の値はないと確信しています。キャプチャされた分散パーセンテージの魔法のしきい値はありません。Cangelosi and Gorielyの記事:主成分分析における成分保持とcDNAマイクロアレイデータへの適用は、研究の成分数を検出するための6つの標準的な経験則のかなり良い概要を提供します。(スクリープロット、総分散の割合の説明、平均固有値ルール、対数固有値図など)経験則として私はそれらのいずれにも強く依存しません。

使用中のドメインの知識と方法論に依存していませんか?

理想的に依存しているはずですが、言葉の言い方や意味を注意する必要があります。

例:音響学には、Just Noticeable Difference(JND)という概念があります。音響サンプルを分析しており、特定のPCの物理スケールの変動がJNDのしきい値を大幅に下回っていると仮定します。Acousticsアプリケーションに、そのPCを含めるべきだと誰もすぐに主張することはできません。聞こえないノイズを分析することになります。このPCを含めるいくつかの理由があるかもしれませんが、これらの理由は他の方法で提示する必要はありません。RT-qPCR分析のJNDと同様の概念ですか?

同様に、コンポーネントが9次のルジャンドル多項式のように見え、サンプルが単一のガウスバンプで構成されているという強力な証拠がある場合は、無関係な変動を再びモデリングしていると考える十分な理由があります。これらの変動の直交モードは何を示していますか?たとえば、あなたのケースで3番目のPCに「間違っている」とは何ですか?

これら3つのクラスターが問題の問題に非常に関連していることが判明した」と言う事実は、実際には強力な議論ではありません。単純なデータdr(これは悪いことです)かもしれません。他にもテクニックがあります。かなりクールなアイソマップローカル線形埋め込みも使用してみませんか?なぜPCAを特別に選んだのですか?

特にこれらの調査結果が十分に確立されていると見なされる場合は、調査結果と他の調査結果との一貫性がより重要です。これをさらに掘り下げてください。結果が他の研究のPCAの結果と一致するかどうかを確認してください。

説明された分散の単なる値に基づいて、分析全体のメリットを判断できる人はいますか?

一般的にはそうすべきではありません。あなたのレビュアーはろくでなしやそのようなものだとは思わないでください。実際、48%は、正当な理由を提示せずに保持する割合がわずかです。


ご回答ありがとうございます。JNDと同様、RT-qPCRについて特別なことはありません。実際、RT-qPCRは、遺伝子変数自体を測定する手法にすぎません。他の記述変数を考えると、最初の2つのPCは免疫応答の細胞に関連しているのに対して、3番目のPCはそうではないことが判明しました。それ以外の場合、3番目のPCに問題はありません。
博士号を取得

データdr技術を見て、それらについてさらに学びます。しかし、これがRパッケージによって実装されているかどうかを偶然知っていますか?
博士号

1
@doctorate:全体のアイデアは、データのedを避けることです。申し訳ありませんが、明示的にテストするパッケージは知りません。
usεr11852が復活モニック言う

1
+1ですが、データdrに関するあなたの文章(「単純なデータedge」かもしれません)はあまり明確ではなく、おそらくそれが@doctorateが混乱した理由です。実際、私はその段落全体があまり明確ではないことに気付きました。IsomapとLLEはデータdrと何の関係があるのでしょうか?データのedは良いですか、悪いですか?リンクしたWiki記事は、まずそれを「良い」と説明することから始まります。おそらく、その段落でもう少し明示的に編集することができますか?
アメーバは、モニカを復活させる
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.