多変量およびメソッド固有の結果の再現性を評価する方法は?


8

方法「A」は、約30の異なる変数からなる多変量「フィンガープリント」を使用して生体サンプルを記述します。異なる変数は異なる典型的な分布を示し、それらの多くは互いに密接に相関しています。以前の経験から、変数の多くを正規分布に変換できないと想定されています。

方法「B」は方法「A」の改良版になるように設計されており、これら2つの方法の再現性を比較したいと思います。単一の変数を扱っている場合は、メソッド内とメソッド間の変動性を比較するために、いくつかのサンプルの独立した分析を実行し、分散分析を使用します。しかし、ここでは多変量出力を扱っており、変数ごとに1つの分析を実行したくありません。この質問への正しいアプローチは何ですか?

解決

gui11aumeの回答による 回答は、有用で貴重な情報を提供します。AdamOの提案に従って、gui11aumeの回答に続く7つの一方向分析によって、「ダウンストリームアプリケーション」を適合 させます。


(これが私のアプローチです。正当性を教えてください。)多変量データを単一の次元に削減して分析するために、堅牢な次元削減法を使用するのはどうですか?
David D

1
David、この問題は、多変量の結果に対して分散分解を実行したいように聞こえますが、タイトルは何か他のものを求めていることを示しているようです。明確にできますか?また、分析しているデータについて他に何か言うことができますか?
Macro

デビッド、「再現性」の意味をより明確に説明できますか?それは、私たち(私の分野は分光データセット[生体サンプル]のケモメトリック分析)が(sth。wrt。sth。の)安定性と通常呼んでいるものに似ていると思います。例:予測またはモデルパラメーターの安定性(2つの非常に異なるタイプの安定性!)wrt。新しいサンプルへ/サンプルの10%を交換する...
SX

1
また、30の出力変数は両方の方法で(理論的には)同じですか?
cbeleitesは

1
に関して。次元削減には、入力よりも次元削減メソッドの特性を多く測定するリスクがあります。確かに、1つの保持された次元によってキャプチャされた方向に直交する情報はすべて失われます。
cbeleites

回答:


7

これは私に癌診断を思い出させます、そこでは古い遺伝子発現シグネチャがもちろんより良いはずである新しいものによって置き換えられます。しかし、それらがより優れていることをどのように示すのですか?

ここでは、メソッドの再現性を比較するためのいくつかの提案を示します。

1.共慣性分析(CIA)を使用します。
CIAはもっと宣伝されるべきですが、残念ながら広く使われていません(たとえばWikipediaのページはありません)。CIAは、正準分析(CA)と同じ原理で機能する2つのテーブルを使用する方法です。これは、2組の多次元測定値の間に最大の相関がある線形スコアのペアを探すことです。CAに対するその利点は、観測よりも多くの次元がある場合でも実行できることです。同じサンプルで両方のメソッドを測定して、30列と 2つの結合テーブルを取得できます。n観察。主成分の最初のペアは強く相関している必要があります(メソッドが実際に同じものを測定する場合)。メソッドBの方が優れている場合、残差分散はメソッドAの残差分散よりも小さくなければなりません。このアプローチでは、メソッドの一致と、ノイズとして解釈する不一致の両方に対処します。

2.距離を使用します
テストと再テストの間の30次元のユークリッド距離を使用して、メソッドの再現性を測定できます。メソッドごとにそのスコアのサンプルを生成し、サンプルをウィルコクソン検定と比較できます。

3.ダウンストリームアプリケーションを使用します。
おそらく、これらの指紋を取得して決定を下したり、患者や生体物質を分類したりしています。両方の方法のテストと再テストの間の一致不一致をカウントし、それらをWilcoxonテストと比較できます。

方法3は最も単純ですが、最も現実的な方法です。高次元の入力の場合でも、通常、決定は非常に簡単です。そして、私たちの問題がいかに複雑であっても、統計は意思決定の科学であることを覚えておいてください。

コメントの質問について。

ロバストな次元削減法を使用して多変量データを単一の次元に削減し、それを分析するのはどうですか?

次元数の削減は、どのように頑健であっても、分散の損失に関連付けられます。多変量フィンガープリントを単一のスコアに変換して、その分散のほとんどすべてをキャプチャする方法がある場合、これは断然最善の方法です。しかし、そもそもなぜ指紋が多変量であるのでしょうか?

OPのコンテキストから、情報を失うことなくその次元をさらに減らすことは難しいため、フィンガープリントは多変量であると正確に仮定しました。その場合、分散の大部分(最悪の場合は29/30に近い)を無視できるため、単一スコアでの再現性は、全体的な再現性の適切なプロキシである必要はありません。


1.あなたはこのテストの適用についてほぼ正しいです。2.マハラノビス距離について、再現性の評価にどのように使用できるかわかりません。すべてのメソッドTOGETHERのすべてのポイントの共分散行列を計算し、その行列を使用してMDをサンプリングすることでメソッドを比較することをお勧めしますか?3.ダウンストリームアプリケーションは確かに貴重なオプションですが、次元を削減しませんt
David D

ポイント2については、マハラノビス距離を適用するのは難しいというのはあなたの言う通りです。回答から外しました。
gui11aume 2012年

@ gui11aume:生の測定データであるため、多変量入力は多変量になる可能性があります。つまり、変量=(センサーアレイ、分光計などの)測定チャネルです。この場合、多変量の性質は測定の性質に由来します(別の観点からは、通常、このセンサーチップまたはこの特定のスペクトル範囲を選択する形で、特定の次元の縮小が既に適用されています)
SX

@ gui11aume:また、3番目のアプローチを使用して分類子を比較します。しかし、私はこの下流アプリケーション(実際に大幅な次元削減です)はおそらく利用できないという次元削減についての質問とコメントから読みました(または少なくとも30個の変数自体を比較する必要があります)。
cbeleitesは

@ gui11aume:距離は類似性を測定しますが、私見では、距離によって失われる偏差の方向も確認する必要があります。
cbeleitesは12:38にSX

3

私はあなたの質問とコメントから、30の出力変数(簡単に)できないか、単一の変量に変換されるべきではないと仮定します。

データを扱うための一つのアイデア、あなたがの回帰を行う可能性があることですおよびその逆 追加の知識(例えば変量ことを集合Aの対応では、変量へのセットBにも)は、および/または解釈をマッピングモデルを制限することができます。X AN × P A X BN × PのB、IIXA(n×pA)XB(n×pB)XA(n×pA)XB(n×pB)ii

では、このアイデアをさらに取り入れたマルチブロックPCA(または-PLS)はどうでしょうか。これらの方法では、同じサンプル(または同じ個人)の両方の多変量フィンガープリントが、3番目の従属ブロックの有無にかかわらず、独立変数として一緒に分析されます。

R.ブレトン:「パターン認識のためのケモメトリックス」では、前の章(「さまざまなパターンの比較」)でいくつかの手法について説明し、グーグルでいくつかの論文を紹介します。あなたの状況は、例えば分光測定と遺伝子測定が一緒に分析される問題に似ているように聞こえることに注意してください(例えば、データキューブが分析されるスペクトルの時系列を分析するのではなく、行ごとに対応する2つの行列)。

マルチブロック分析に関する論文は次のとおりです。Sahar Hassani:-omicsデータの分析:マルチブロック法のグラフィック解釈および検証ツール

また、これは別の方向への良い出発点になるかもしれません:Hoefsloot et.al.、Multiset Data Analysis:ANOVA Simultaneous Component Analysis and Related Methods、in:Comprehensive Chemometrics — Chemical and Biochemical Data Analysis(I 'm access to 、アブストラクトを見たところ)


1

30一方向分析は確かにオプションであり、全体的なパフォーマンスが論理的に要約される理想的な「表2」タイプの分析になります。方法Bは、最初の20個の因子をわずかに改善された精度で生成するのに対して、最後の10個は非常に変動性が高い場合があります。部分的に順序付けられた空間を使用した推論の問題があります。確かに、Bで30の因子すべてがより正確である場合、Bの方が優れた方法です。しかし、「灰色」の領域があり、多数の要因があるため、実際に表示されることがほぼ保証されています。

この研究の目的が単一の分析に基づくことである場合、各結果の重みとそのエンドポイントアプリケーションを考慮することが重要です。これらの30の変数が観測データの分類、予測、および/またはクラスタリングで使用される場合、これらの結果の検証と分類でのA / Bの比較を確認したいと思います(リスク層別化表または平均パーセントバイアスなどを使用) 、予測(MSEを使用)、およびクラスタリング(交差検証などを使用)。これは、Bが分析的に優れているとは言えない灰色の領域を処理する適切な方法ですが、実際にははるかにうまく機能します。


1

順列(PERMANOVA)テストアプローチに基づく多変量ANOVAを試します。序列分析(勾配長分析の結果に基づく)も役立ちます。


1
Rでは、パッケージVeganに関数adonisがあり、順列多変量分散分析を実行します。これにより、メソッドAがメソッドBと異なるかどうかを示す統計テストが生成されます。このパッケージは、さまざまな小さな区画で複数の種(変数)を数える植物生態学から得られます。これに関連するのは、変数が分子データであるAMOVA、分子分散分析です。このためには、Rパッケージade4を使用できますが、リンクから他の無料のオンラインソフトウェアを見つけることができます。
Jdub

0

多変量正規性を仮定できた場合(そうはできなかったと言いました)、平均ベクトルの同等性のHotelling T2検定を実行して、分布間の差異を主張できるかどうかを確認できます。ただし、そうすることはできませんが、理論的には分布を比較して、それらが大きく異なるかどうかを確認することができます。30次元空間を長方形のグリッドに分割します。これらを30次元のビンとして使用します。各ビンに入るベクトルの数を数え、カイ二乗検定を適用して、分布が同じに見えるかどうかを確認します。この提案の問題は、適切な方法でデータポイントをカバーするために、ビンを慎重に選択する必要があることです。また、次元の呪いにより、各グループに非常に多数の点がなければ、多変量分布間の差異を特定することが困難になります。gui11aumeの提案は良識があると思います。他の人はそうではないと思います。分布を30次元で典型的なサンプルと比較することは不可能であるため、平均ベクトルの有効な比較の何らかの形が適切であるように思えます。


1
230>109χ2

また、あなたの提案によると、ビニングがどのように行われるべきかは明確ではありません:すべてのビンは同じ数のケース、同じ範囲、同じログ範囲などを持つべきですか?
Boris Gorelik

@cardinal私が言ったことは、30次元の長方形のビンを構築することでした。2つの分布を比較するために、通常のカイ2乗検定を行います。
Michael R. Chernick

2
(1)ビンの賢明な選択は1、2、および3次元では実用的ですが、30次元でそのようなビンを識別することは私には思えないので、これをさらに考えた後、私の推奨は高次元では機能しないと思います(2)そのような選択が達成されたとしても、次元の呪いのために、非常に多数のポイントなしでは分布間の差異を検出することが困難であるような方法で広がる30次元のポイント 枢機卿はいくつかの良い点を作ります。
Michael R. Chernick

1
私はもっ​​と具体的だったはずです。「素朴なアプリケーション」とは、標準テストをすぐに適用することはできないということです。少なくとも、自由度の調整が必要ですが、自由度を決定することは、完全に簡単なことではありません。
枢機卿、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.