多重打ち切りデータの共分散行列の不偏推定


22

環境サンプルの化学分析は、報告限界またはさまざまな検出/定量限界でしばしば打ち切られます。後者は、通常、他の変数の値に比例して変化します。たとえば、ある化合物の濃度が高いサンプルは、分析のために希釈する必要があり、そのサンプルで同時に分析される他のすべての化合物の打ち切り限界が比例的に増大する場合があります。別の例として、化合物の存在により、他の化合物に対する試験の反応が変化する場合があります(「マトリックス干渉」)。これが研究室で検出されると、それに応じてレポートの制限が膨らみます。

特に多くの化合物が50%を超える打ち切りを経験する場合に、このようなデータセットの分散共分散行列全体を推定する実用的な方法を模索しています。従来の分布モデルでは、(真の)濃度の対数は多重正規分布であり、これは実際にはうまく適合するようであるため、この状況の解決策が役立ちます。

(「実用的」とは、R、Python、SASなどの少なくとも1つの一般的に利用可能なソフトウェア環境で、複数の代入で発生するような反復再計算をサポートするのに十分迅速に実行される方法で、確実にコーディングできる方法を意味します。そして、これはかなり安定している[だからこそ、一般的なベイジアンソリューションは歓迎されているが、BUGSの実装を検討するのを嫌がる]。

この件についてのご意見を事前に感謝します。


そのため、打ち切りの問題を正しく理解しています。サンプルを希釈すると、化合物の濃度が非常に低くなるため、テスト機器がその存在を検出できない場合があります。それは打ち切り問題の正確な言い直しですか?

はい、それは正しいです。係数Dで希釈すると、すべての検出限界も係数Dで増加します。(行列干渉の問題を定量化するのはより難しく、一般的な状況は非常に複雑です。これを簡素化するために、従来のモデルでは、1つのサンプルに対する一連のテストでベクトル(x [1]、...、x [k ])ここで、x [i]は実数または実数の間隔であり、通常は左端が-infinityで、間隔は真の値が存在すると想定されるセットを識別します。)
whuber

なぜ検出限界が上がるのですか?テスト対象のサンプルではなく、テスト機器の機能ではありませんか?

例として、機器の検出限界が1リットルあたり1マイクログラム(ug / L)であるとします。サンプルは10:1に希釈され(非常に正確なので、ここではエラーの心配はありません)、機器は「<1」を読み取ります。つまり、希釈されたサンプルでは検出できません。研究所は、サンプルの濃度が10 * 1 = 10 ug / L未満であると推測し、そのように報告します。つまり、「<10」として。
whuber

1
@amoeba質問自体でそれらのことを説明すべきだったと思う。答えは次のとおりです。PCA; 次元は3から数百までさまざまです。サンプルサイズは常に次元を大きく超えますが、打ち切り率は非常に高い場合があります(最大50%を処理できることが必要であり、最大95%が望ましい)。
whuber

回答:


3

マトリックス干渉の問題を完全に内部化したわけではありませんが、1つのアプローチがあります。させてください:

は、未希釈サンプル中のすべてのターゲット化合物の濃度を表すベクトルです。Y

は希釈サンプルの対応するベクトルです。Z

は希釈係数です。つまり、サンプルは希釈されます ddd:1にます。

私たちのモデルは:

YN(μ,Σ)

Z=Yd+ϵ

どこϵN(0,σ2 I)による希釈エラーにエラーを表します。

したがって、次のようになります。

ZN(μd,Σ+σ2 I)

f Zによる上記の分布を示します。ZfZ(.)ます。

ましょう観察された濃度であるとτそれは、化合物を検出することができない以下の試験器の閾値を表します。次に、i t h化合物について:Oτith

Oi=ZiI(Zi>τ)+0I(Ziτ)

一般性を失うことなく、最初の化合物がしきい値を下回るようにします。次に、尤度関数は次のように記述できます。k

L(O1,...Ok,Ok+1,...On|)=[i=1i=kPr(Ziτ)][i=k+1i=nf(Oi|)]

どこで

f(Oi|)=jifZ(Oi|)I(Oi>τ

推定は、最尤法またはベイジアンアイデアのいずれかを使用することの問題です。上記がどれほど扱いやすいかはわかりませんが、いくつかのアイデアが得られることを願っています。


この考えをありがとう。確かに、これは複数の検閲に対する標準的で十分に文書化されたアプローチです。難点の1つは、その難易度にあります。これらの積分は計算が難しいことで有名です。ここには、モデリングの問題も潜んでいます。私の説明の最初の段落で暗示されているように、dの値は通常Yと正の相関があります。
whuber

2

もう1つのより計算効率の良いオプションは、「二相化ガウス」と呼ばれるモデル(実際には単なるガウスコピュラモデル)を使用したモーメントマッチングによって共分散行列を近似することです。

Macke et al 2010からの最近の論文は、(検閲された)経験的共分散行列といくつかの2変量正規確率の計算のみを含むこのモデルを適合させるための閉じた形式の手順を説明しています。同じグループ(MPI Tuebingenのベスゲラボ)は、おそらくここで必要なハイブリッド離散/連続ガウスモデルについても説明しています(つまり、ガウスRVは完全に「二分」されていないため、しきい値以下のもののみです)。

批判的に、これはML推定量ではなく、そのバイアスプロパティが何であるかがわからないのではないかと心配しています。


@jpありがとうございます。これについて見ていきます。(時間がかかる場合があります...)
whuber

1

サンプルにはいくつの化合物が含まれていますか?(または、問題の共分散行列の大きさは?)

Alan Genzには、さまざまな言語(R、Matlab、Fortran、こちらを参照)で非常に優れたコードがあり、超長方形上の多変量正規密度の積分(つまり、尤度を評価するために必要な積分の種類)を計算します。user28)。

私はこれらの関数( "ADAPT"および "QSIMVN")を最大10-12次元までの積分に使用し、そのページのいくつかの関数は次元100までの問題に対して積分(および必要な関連微分)をアドバタイズしました。それがあなたの目的にとって十分な次元であるかどうかはわかりませんが、そうであれば、おそらく傾斜上昇による最尤推定値を見つけることができるでしょう。


ああ、ごめんなさい。私はここに来たばかりで、どれくらい前に投稿されたか気が付きませんでした。
jpillow

@jpこれは継続的な重要な問題であるため、質問と回答の間の経過時間はほとんど意味がありません。返信いただきありがとうございます!
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.