継続的な臨床変数と遺伝子発現データの相関


8

各ケースとコントロールの〜25の遺伝子発現(〜400変数/遺伝子)のデータセットのSVM(線形カーネル)分類分析では、遺伝子発現ベースの分類子が非常に優れたパフォーマンス特性を持っていることがわかりました。ケースとコントロールは、(フィッシャーの正確確率検定またはt検定に従って)多数のカテゴリー的および継続的な臨床/人口統計学的変数について有意差はありませんが、年齢については有意差があります。

分類分析の結果が年齢の影響を受けているかどうかを示す方法はありますか?

遺伝子発現データを主成分に減らし、年齢に対する成分のスピアマン相関分析を行うことを考えています。

これは合理的なアプローチですか?または、SVM分析で得られた年齢とクラスメンバーシップの確率値の相関関係を確認できますか。

ありがとう。


1
これはケースコントロール研究ですか?またはコホート研究?なぜ年齢差があるのですか?(サンプリングスキーム?病理メカニズム?)?年齢は診断時ですか?それともこれは慢性疾患ですか?年齢は遺伝子発現分析のために組織サンプルを採取する現在の年齢ですか?年齢は病気に関連していることが知られていますか?遺伝子発現に対する年齢の影響は、出生後または診断後の時間の影響ですか?---「分類分析の結果が年齢に影響されているか、影響されていないのか?」適切な視点で。
GaBorgulya

これは、血液のマイクロRNA発現と肺癌に関する遡及的研究です。症例は肺がんです。コントロールはそうではなく、通常は喫煙歴のために肺がんスクリーニングクリニックに現れる患者集団から選択されました。症例と対照を選択する際、年齢、性別などのマッチングは行われませんでした。肺がんは通常、45〜50歳で診断されます。血液マイクロRNAの発現が肺癌の影響を受けるかどうかは不明ですが、他のいくつかの疾患が発現に影響することが知られています。
user4045 2011

血液マイクロRNA発現に対する年齢の影響は不明です。研究の症例と対照の平均(および標準偏差)年齢は、それぞれ71(7)歳と60(9)歳です。
user4045

「年齢に影響される」と言ったら、どういう意味ですか?2つの可能性があります。1つの可能性は、マイクロアレイに疾患マーカーがまったく含まれていないことです。しかし、それらには年齢に関する情報が含まれています。あなたの場合、病気の集団と対照集団は異なる年齢であるため、良好な分類性能の錯覚を得ます。もう1つの可能性は、マイクロアレイに疾患マーカーが含まれていることであり、さらに、これらのマーカーはSVMがまさに焦点を当てているものです。ただし、データでは年齢が異なるため、年齢とカテゴリの間には依然として相関関係があります。
SheldonCooper

@SheldonCooper:そうです、それが2つの可能性のどちらであるかを理解できるかどうかを知りたいのです。そうでない場合、遺伝子マーカーが年齢を超えて提供する追加の値を概算できますか?SVM分類器は、優れたパフォーマンス特性を備えています(内部クロス検証の精度> 90%、およびAUC> 0.95)。年齢のROC分析におけるAUCは0.82です。
user4045

回答:


2

このデータには少なくとも2つの可能性があります。1つの可能性は、マイクロアレイに疾患マーカーがまったく含まれていないことです。しかし、それらには年齢に関する情報が含まれています。あなたの場合、病気の集団と対照集団は異なる年齢であるため、良い分類性能の錯覚を得ます。もう1つの可能性は、マイクロアレイに疾患マーカーが含まれていることであり、さらに、これらのマーカーはSVMが注目しているものです。

これらの可能性の両方において、データの主成分が年齢と相関しているようです。最初のケースでは、年齢がデータが表すものであるためです。2番目のケースでは、疾患がデータが表すものであり、この疾患自体が(データセットの)年齢と相関しているためです。相関値を見て、どちらの場合かを結論付ける簡単な方法はないと思います。

効果を異なる方法で評価するにはいくつかの方法が考えられます。1つのオプションは、トレーニングセットを同じ年齢のグループに分割することです。この場合、「若い」年齢の場合、通常のクラスには疾患のクラスよりも多くのトレーニング例があり、高齢者の場合はその逆です。しかし、十分な例がある限り、これは問題にはなりません。別のオプションは、テストセットで同じことを行うことです。つまり、高齢の患者の場合、分類子が「病気」と頻繁に言う傾向があるかどうかを確認します。あなたはそれほど多くの例を持っていないので、これら両方のオプションは難しいかもしれません。

もう1つのオプションは、2つの分類子をトレーニングすることです。第一に、唯一の特徴は年齢です。これは0.82のAUCを持っているようです。2番目には、年齢とマイクロアレイデータがあります。(現在、マイクロアレイデータのみを使用する別の分類子をトレーニングしているようで、AUC 0.95が得られます。年齢機能を明示的に追加すると、パフォーマンスが向上する可能性が高いため、AUCはさらに高くなります。)2番目の分類子のパフォーマンスが最初に、これは年齢がこのデータで関心のある唯一のものではないことを示しています。あなたのコメントに基づいて、AUCの改善は0.13以上であり、これは公平なようです。


いろいろなご提案ありがとうございます。年齢と主成分との相関関係をチェックしても答えが得られないのは正しいと思います。私はその分析を行い、最初の3つのPCのそれぞれに良好な相関関係(スピアマンr> 0.5)があります(これらは一緒に約55%の分散に寄与しています)。また、SVM分析からの確率値と年齢の良い相関があります。最初の2つのオプションについて、十分なサンプルがあるかどうか、およびその方法を確認する必要があります(トレーニングとテストには、LOOCVと4:1分割の1000反復のモンテカルロCVを使用しています)。
user4045

年齢データとマイクロアレイデータの両方を使用するROCについては、試してみます。0.95(マイクロアレイデータのみ)からのA​​UCの増加は、発現データに年齢に依存しない疾患固有の情報があることを示唆しています。ただし、発現データは年齢の影響を受けるため、増加がなくても意味がありません。正しい?
user4045

すでにAUCが増加しており、年齢のみの0.82からマイクロアレイの0.95になっています。これが重要だと思います。さらに増加する場合は、素晴らしいです。それ以上増やさなければ、何の意味もないのは当然です。重要な部分は、0.82から0.95に増加していることです。
SheldonCooper

新しい分析では、年齢が変数として式のデータセットに追加され、AUCが約0.04増加します。私はこれから何も結論付けることができないと思います。
user4045

新しいAUC(年齢+マイクロアレイ用)は0.99ですか、それとも0.86ですか?
SheldonCooper
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.