変数のエラー回帰:3つのサイトからのデータをプールすることは有効ですか?


15

サイトからのデータをプールするとき、分析には3つのサイトからのデータのプールが含まれるため、2つのサイトに含まれるサンプルが含まれるため同じ。

バックグラウンド

クライアントは、既存の承認されたメソッドと「同等」であることを示したい新しいアッセイメソッドを持っていました。彼らのアプローチは、同じサンプルに適用された両方の方法の結果を比較することでした。テストには3つのサイトが使用されました。変数のエラー(デミング回帰)が各サイトのデータに適用されました。これは、回帰分析で勾配パラメーターが1に近く、切片が0に近い場合、2つのアッセイ手法でほぼ同じ結果が得られるため、新しい方法を承認する必要があるということです。サイト1には45のサンプルがあり、45のペアの観察結果が得られました。サイト2には40サンプル、サイト3には43サンプルがありました。彼らは、3つの別個のデミング回帰を行いました(2つの方法の測定誤差の比率を1と仮定)。そのため、アルゴリズムは垂直距離の二乗の合計を最小化しました。

クライアントは、サイト1とサイト2で使用されているサンプルの一部が同じであると指摘しました。レビューでは、FDAのレビューアは、モデルの仮定を無効にする「干渉」を引き起こす一般的なサンプルが使用されたため、デミング回帰は無効であると述べました。彼らは、この干渉を考慮して、ブートストラップ調整をデミング結果に適用することを要求しました。

その時点で、クライアントは私が持ち込まれたブートストラップの方法を知らなかったので、干渉という用語は奇妙であり、レビュアーが何を得ているのか正確にはわかりませんでした。プールされたデータには共通のサンプルがあるため、共通のサンプルに相関があり、したがってモデルの誤差項がすべて独立しているわけではない、というのが実際のポイントだと思いました。

クライアントの分析

3つの個別の回帰は非常に似ていました。それぞれが1に近い勾配パラメーターと0に近い切片を持ちました。95%信頼区間には、それぞれ勾配と切片にそれぞれ1と0が含まれていました。主な違いは、サイト3での残留分散がわずかに高いことでした。さらに、これをOLSの実行結果と比較し、非常に類似していることがわかりました(OLSに基づく勾配の信頼区間は1を含みませんでした)。勾配のOLS CIに1が含まれていない場合、区間の上限は0.99のようなものでした。

3つのサイトすべてで結果が非常に類似しているため、サイトデータをプールすることは妥当と思われました。クライアントはプールされたデミング回帰を行い、これも同様の結果をもたらしました。これらの結果を踏まえて、回帰が無効であるという主張に異議を唱えるクライアントのレポートを書きました。私の主張は、両方の変数に同様の測定誤差があるため、クライアントは同意/不一致を示す方法としてデミング回帰を使用するのが正しいということです。特定のサイト内でサンプルが繰り返されなかったため、個々のサイトの回帰には相関エラーの問題はありませんでした。データをプールして、信頼区間をより厳しくします。

この問題は、サイト1の一般的なサンプルでデータを単純にプールすることで解決できます。また、3つの個別のサイトモデルには問題がなく、有効です。これは、プーリングなしでも同意の強力な証拠を提供するようです。さらに、共通のサイトのサイト1と2で独立して測定が行われました。そのため、サイト1のサンプルの測定誤差はサイト2の対応するサンプルの測定誤差と相関しないため、すべてのデータを使用したプール分析でも有効であると思います。問題にならないスペース。相関/「干渉」を作成しません。

私のレポートでは、調整する相関関係がないため、ブートストラップ分析は不要であると書きました。3つのサイトモデルは有効であり(サイト内で「干渉」の可能性はありません)、プーリングを行うときにサイト1の共通サンプルを削除して、プールされた分析を行うことができました。このようなプールされた分析には干渉の問題はありません。調整するバイアスがないため、ブートストラップ調整は必要ありません。

結論

クライアントは私の分析に同意しましたが、FDAに持ち込むことを恐れていました。とにかく彼らは私にブートストラップの調整をしてほしい。

私の質問

A)(1)クライアントの結果の分析と(2)ブートストラップが不要であるという私の主張に同意しますか。

B)デミング回帰をブートストラップする必要があると仮定すると、ブートストラップサンプルでデミング回帰を実行するために利用可能なSASまたはRの手順はありますか?

編集:ビルフーバーの提案を考えると、私はx上のyとx上のxの両方の回帰による変数エラー回帰の限界を見ることを計画しています。OLSの1つのバージョンでは、2つの誤差分散が等しいと仮定した場合、答えは本質的に変数のエラーと同じであることをすでに知っています。これが他の回帰にも当てはまる場合、デミング回帰が適切なソリューションを提供することを示していると思います。同意しますか?

クライアントの要求を満たすために、漠然と定義された要求されたブートストラップ分析を行う必要があります。倫理的には、ブートストラップを提供するだけでは、クライアントの実際の問題が解決されないため、アッセイ測定手順を正当化することは間違っていると思います。そこで、少なくとも分析と要求の両方を行い、ブートストラップに加えて、逆回帰を行い、より適切だと思うデミング回帰を制限したことをFDAに伝えるよう要求します。また、分析により、それらの方法が参照と同等であり、したがってデミング回帰も適切であることが示されると思います。

@whuberが彼の答えで提案したRプログラムを使用して、Deming回帰をブートストラップできるようにする予定です。私はRにあまり馴染みがありませんが、できると思います。R StudioとともにRをインストールしています。それは私のような初心者にとって十分に簡単になりますか?

また、私はSASを所有しており、SASでより快適にプログラミングできます。SASでこれを行う方法を知っている人がいれば、それについて知っていただければ幸いです。


2
この質問に対する答えはわかりませんが、純粋に政治的には、FDAが望み、少なくとも(おそらく)結果を示すことを示した方がよいのではないでしょうか。(良い質問、BTW、+ 1)
ピーター・フロム-モニカの復職

1
はい@PeterFlom FDAの分析を行い、それを示すことは重要ではないことに同意します。しかし、回帰の結果とその意味を外交的に指摘し、重複するサンプルなしでプーリングを行うと、議論が強化されると思います。ブートストラップを行うつもりですが、利用可能なソフトウェアを見つける助けを借りて、独立してコーディングせずにデミング回帰を自分で行うことができます。
マイケルR.チェルニック

2
マイケル、「サイト」に共通の「サンプル」の可能性は、これらの(抽象的な)用語が意味するものの自然な解釈に疑問を投げかけます。たとえば、最初は「サイト」を異なる地理的位置と考え、「サンプル」はそれらの位置に関連付けられた個別のエンティティとして考え、それぞれが独立した測定の対象となりました。このモデルでは、サンプルが異なるサイトに共通することは不可能です。これらの用語の意味を明確にしてください
whuber

3
@whuberサイトは異なる場所です。サンプルは、個人のクエン酸血漿です。ラボのテストは、異なる場所で異なる時間に行われます。比較は、同じ機能を実行することを目的とした2つのアッセイ測定デバイスに対するものです。サイト1と2では、サンプルの一部が再利用されましたが、デバイスはサイト1とサイト2で独立して動作しました。そのため、同じサンプル(または同じサンプルの一部)を使用しても、測定誤差は本当に独立していると言います。
マイケルR.チャーニック

1
a)プールされた分析から重複したサンプルを除外することで、独立性の欠如に関する懸念を取り除くことに同意しました。b)珍しい回帰法を含むブートストラップ分析にRを使用するのが「簡単」であると感じるSASユーザーはほとんどいません。ブートストラップ分析には、機能プログラミングの思考モードが実際に必要であり、SASが推奨するモードではありません。
-DWin

回答:


10

これは相互較正の問題です。つまり、2つの独立した測定デバイスを定量的に比較します。

2つの主要な問題があるようです。 1つ目は(問題で暗黙的である)問題のフレーミングです。新しいメソッドが承認済みのメソッドと「同等」であるかどうかをどのように判断する必要がありますか。2番目は、一部のサンプルが複数回測定された可能性があるデータの分析方法に関するものです。

質問のフレーミング

述べられた問題に対する最善の(そしておそらく明白な)解決策は、同等の媒体(ヒトの血漿など)から得られた正確に既知の値を持つサンプルを使用して新しいメソッド評価することです。(これは通常、既知の濃度の標準物質で実際のサンプルをスパイクすることによって行われます。)これは行われていないため、それが不可能であるか、または規制当局に受け入れられないと仮定します(何らかの理由で)。したがって、2つの測定方法を比較することになります。そのうちの1つは、正確で再現可能であると考えられているため(ただし、完全な精度はない)基準として使用されています。

実際には、クライアントは、FDAが承認されたメソッドのプロキシまたはサロゲートとして新しいメソッドを許可することを要求します。そのため、新しいメソッドの結果が、承認されたメソッドが適用された場合に決定したものを十分な精度で予測することを示すことが彼らの負担です この微妙な側面は、私たちがしていることであるないに予測しようとするの値そのものを-私たちも彼らを知りません。したがって、変数のエラー回帰は、これらのデータを分析するのに最も適切な方法ではない可能性があります。

YバツXYYXYバツ。(私の経験では、このアプローチは控えめに厳しい傾向があります:これらの間隔は、両方の測定値が非常に正確で、正確で、線形に関連しない限り、驚くほど大きくなる可能性があります。)

重複サンプルの対処

ここで関連する概念は、サンプルのサポート分散のコンポーネントです。 「サンプルサポート」とは、実際に測定される被験者(ここでは人間)の身体部分を指します。被験者の一部を撮影した後、通常は測定プロセスに適したサブサンプルに分割する必要があります。サブサンプル間の変動の可能性が懸念される場合があります。十分に混合された液体サンプルでは、​​サンプル全体の基礎となる量(化学物質の濃度など)に本質的に変化はありませんが、固体または半固体(血液を含む可能性がある)のサンプルでは、​​そのような変化は実質的。実験室では測定を実行するのにマイクロリットルの溶液しか必要としないことが多いことを考慮すると、ほとんど顕微鏡スケールでの変動を心配する必要があります。これは重要かもしれません。

のそのような変動の可能性物理的なサンプルは、測定結果の変動を個別の「分散成分」に分割する必要があることを示しています。1つのコンポーネントはサンプル内変動からの分散であり、他のコンポーネントは後続の測定プロセスの各独立したステップからの分散への寄与です。(これらの手順には、サブサンプリングの物理的行為、安定剤の添加や遠心分離などのサンプルのさらなる化学的および物理的処理、測定機器へのサンプルの注入、機器内の変動、機器間の変動などが含まれます機器の操作者の変更、実験室での周囲の汚染の可能性などに起因する変動。この質問に答えるのに本当に良い仕事をするために、統計学者は、サンプリングおよび分析プロセス全体を完全に理解する必要があります。一般的なガイダンスを提供するだけです。)

これらの考慮事項は、2つの異なる「サイト」で測定される1つの「サンプル」は、実際には同じ人から取得された2つの物理サンプルであり、研究所間で分割されるため、当面の質問に適用されます。承認された方法による測定では、1つの分割サンプルを使用し、新しい方法による同時測定では、別の分割サンプルを使用します。これらの分割が意味する分散の要素を考慮することにより、問題の主な問題を解決できます。今ではこれらの対の測定値との差異は、二つのことに起因しなければならないことは明らかである: -これは我々が評価しようとしているものです-測定手順の間の第一、実際の違い、および第二何らかの変化に差異サンプルと、測定対象の2つのサブサンプルを抽出する物理プロセスによって生じる変動。 場合、試料均質とサブサンプリングプロセスに関する物理的推論が分散の第2の形態は、ごくわずかであることを確立することができ、その後、実際にレビューアにより記載のない「干渉」は存在しません。そうでない場合、これらの分散のコンポーネントは、逆回帰分析で明示的にモデル化および推定する必要があります。


1
この問題に対処する最良の方法を提案する非常に素晴らしい分析をありがとう。しかし、私の特定の状況では、クライアントはデミング回帰アプローチを選択しており、別の方法を探していません。デミング回帰へのFDAの却下は干渉のみによるものと思われ、問題を回避するための彼らの提案はブートストラップ修正のタイプです。彼らがブートストラップをする方法を知らないので、私は持ち込まれました。彼らには統計学者が関与しておらず、報告書で示したように結果の統計分析を提示しませんでした。
マイケルR.チャーニック

2
制約に感謝します(それについて明示的にすべきでした)。ただし、一般に、このような質問を解決するための適切なフレームワークは、出発点として適切なモデルを取ることです。不適切なアプローチと無効なモデルを使用して(クライアントを満足させるために)ソリューションへの道を推理しようとすると、エラーを悪化させ、明確に防御可能なソリューションに到達できなくなります。ここで考慮することができるのは、デミング回帰が逆回帰とどのように異なるか、およびデミング回帰を複数の分散コンポーネントに対応するように適応させる方法です。
whuber

1
既に適用されているデミング回帰が、より一般的または適切な方法で生成されるものに十分に近いことを実証するように動機付けられる場合があります。
whuber

代わりに、彼らがしたことは、単に問題とデータの収集方法を説明し、デミング回帰の出力を表示することでした。統計学者が関与していた場合、デミング回帰に関して提起された統計的問題が少なくなった可能性があります。クライネットでできることは、行われた分析のケースを提供することです(これには、一般的なソースからの繰り返しサンプリングによる干渉を心配することなくほとんどの回帰を分析できる理由の説明が含まれます)。プールされたモデルの残差分散の調整。
マイケルR.チャーニック

この時点で、逆回帰を行うように指示することはできません。測定方法が承認された場合、それは参照と見なすことができ、新しい方法が基本的に参照と同じ仕事をすることを示すことは会社の負担です。そのためには、デミング回帰が適切であり、少なくともFDAに受け入れられると思います。おそらく、サンプルの繰り返しの問題が発生しなかったとしたら、それはおそらくあったでしょう。プーリングを行ったときに繰り返しサンプルの1つを残していた場合、その問題は発生しませんでした。
マイケルR.チャーニック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.