このデータには少なくとも2つの可能性があります。1つの可能性は、マイクロアレイに疾患マーカーがまったく含まれていないことです。しかし、それらには年齢に関する情報が含まれています。あなたの場合、病気の集団と対照集団は異なる年齢であるため、良い分類性能の錯覚を得ます。もう1つの可能性は、マイクロアレイに疾患マーカーが含まれていることであり、さらに、これらのマーカーはSVMが注目しているものです。
これらの可能性の両方において、データの主成分が年齢と相関しているようです。最初のケースでは、年齢がデータが表すものであるためです。2番目のケースでは、疾患がデータが表すものであり、この疾患自体が(データセットの)年齢と相関しているためです。相関値を見て、どちらの場合かを結論付ける簡単な方法はないと思います。
効果を異なる方法で評価するにはいくつかの方法が考えられます。1つのオプションは、トレーニングセットを同じ年齢のグループに分割することです。この場合、「若い」年齢の場合、通常のクラスには疾患のクラスよりも多くのトレーニング例があり、高齢者の場合はその逆です。しかし、十分な例がある限り、これは問題にはなりません。別のオプションは、テストセットで同じことを行うことです。つまり、高齢の患者の場合、分類子が「病気」と頻繁に言う傾向があるかどうかを確認します。あなたはそれほど多くの例を持っていないので、これら両方のオプションは難しいかもしれません。
もう1つのオプションは、2つの分類子をトレーニングすることです。第一に、唯一の特徴は年齢です。これは0.82のAUCを持っているようです。2番目には、年齢とマイクロアレイデータがあります。(現在、マイクロアレイデータのみを使用する別の分類子をトレーニングしているようで、AUC 0.95が得られます。年齢機能を明示的に追加すると、パフォーマンスが向上する可能性が高いため、AUCはさらに高くなります。)2番目の分類子のパフォーマンスが最初に、これは年齢がこのデータで関心のある唯一のものではないことを示しています。あなたのコメントに基づいて、AUCの改善は0.13以上であり、これは公平なようです。