これは私に癌診断を思い出させます、そこでは古い遺伝子発現シグネチャがもちろんより良いはずである新しいものによって置き換えられます。しかし、それらがより優れていることをどのように示すのですか?
ここでは、メソッドの再現性を比較するためのいくつかの提案を示します。
1.共慣性分析(CIA)を使用します。
CIAはもっと宣伝されるべきですが、残念ながら広く使われていません(たとえばWikipediaのページはありません)。CIAは、正準分析(CA)と同じ原理で機能する2つのテーブルを使用する方法です。これは、2組の多次元測定値の間に最大の相関がある線形スコアのペアを探すことです。CAに対するその利点は、観測よりも多くの次元がある場合でも実行できることです。同じサンプルで両方のメソッドを測定して、30列と 2つの結合テーブルを取得できます。ん観察。主成分の最初のペアは強く相関している必要があります(メソッドが実際に同じものを測定する場合)。メソッドBの方が優れている場合、残差分散はメソッドAの残差分散よりも小さくなければなりません。このアプローチでは、メソッドの一致と、ノイズとして解釈する不一致の両方に対処します。
2.距離を使用します。
テストと再テストの間の30次元のユークリッド距離を使用して、メソッドの再現性を測定できます。メソッドごとにそのスコアのサンプルを生成し、サンプルをウィルコクソン検定と比較できます。
3.ダウンストリームアプリケーションを使用します。
おそらく、これらの指紋を取得して決定を下したり、患者や生体物質を分類したりしています。両方の方法のテストと再テストの間の一致と不一致をカウントし、それらをWilcoxonテストと比較できます。
方法3は最も単純ですが、最も現実的な方法です。高次元の入力の場合でも、通常、決定は非常に簡単です。そして、私たちの問題がいかに複雑であっても、統計は意思決定の科学であることを覚えておいてください。
コメントの質問について。
ロバストな次元削減法を使用して多変量データを単一の次元に削減し、それを分析するのはどうですか?
次元数の削減は、どのように頑健であっても、分散の損失に関連付けられます。多変量フィンガープリントを単一のスコアに変換して、その分散のほとんどすべてをキャプチャする方法がある場合、これは断然最善の方法です。しかし、そもそもなぜ指紋が多変量であるのでしょうか?
OPのコンテキストから、情報を失うことなくその次元をさらに減らすことは難しいため、フィンガープリントは多変量であると正確に仮定しました。その場合、分散の大部分(最悪の場合は29/30に近い)を無視できるため、単一スコアでの再現性は、全体的な再現性の適切なプロキシである必要はありません。