化学物質濃度データには多くの場合ゼロがありますが、これらはゼロ値を表すものではありません:これらは、非検出(分析が存在しない可能性の高い測定値)と「未定量化」の両方をさまざまに(そして紛らわしく)表すコードです値(測定値は検体を検出しましたが、信頼できる数値を生成できませんでした)。ここでは、これらの「ND」を漠然と呼びましょう。
通常、「検出限界」、「定量限界」、または(より正直なところ)「報告限界」としてさまざまに知られるNDに関連付けられた限界があります。これは、実験室が数値を提供しないことを選択するためです理由)。NDについて実際に知っていることは、真の値が関連する制限よりも小さい可能性が高いということです。これは、ほとんど(ただし完全ではない)左打ち切りの形式です。(まあ、それは本当に真実でもありません:それは便利なフィクションです。これらの制限は、ほとんどの場合、貧弱からひどい統計特性を持つキャリブレーションを介して決定されます。で(たとえば)切り取られた対数正規分布の右尾部と、すべてのNDを表す「スパイク」があるように見える濃度データのセットを見ています。未満少しが、ラボのデータがありますしようと、それがあなたを伝えるためにまたはまたはそのような何か。)1.3301.330.50.1
このようなデータセットをどのように要約および評価するのが最善かについて、過去30年ほどにわたって広範な研究が行われてきました。Dennis Helselは、これに関する本、Nondetects and Data Analysis(Wiley、2005)を出版し、コースを教え、R
彼が好むテクニックのいくつかに基づいたパッケージをリリースしました。彼のウェブサイトは包括的です。
このフィールドには、エラーと誤解がたくさんあります。ヘルセルはこれについて率直です。彼の本の第1章の最初のページには、
...現在の環境研究で最も一般的に使用されている方法である検出限界の半分の置換は、打ち切りデータを解釈するための合理的な方法ではありません。
じゃあ何をすればいいの? オプションには、この良いアドバイスを無視すること、Helselの本のいくつかの方法を適用すること、およびいくつかの代替方法を使用することが含まれます。そうです、この本は包括的ではなく、有効な代替案が存在します。データセット内のすべての値に定数を追加する(「開始する」)のは1つです。しかし、考慮してください:
このレシピは測定単位に依存するため、追加することは開始するのに適した場所ではありません。デシリットルあたりマイクログラムを 追加しても、リッターあたりミリモルを追加した場合と同じ結果にはなりません。111
すべての値を開始した後でも、NDのコレクションを表す最小値でスパイクが残ります。あなたの希望は、その総質量がと開始値の間の対数正規分布の質量にほぼ等しいという意味で、このスパイクが定量化されたデータと一致することです。0
開始値を決定するための優れたツールは、対数正規確率プロットです。NDを除き、データはほぼ線形である必要があります。
NDのコレクションは、いわゆる「デルタ対数正規」分布で記述することもできます。これは、点質量と対数正規分布の混合です。
次のシミュレーション値のヒストグラムで明らかなように、打ち切り分布とデルタ分布は同じではありません。 デルタアプローチは、回帰の説明変数に最も役立ちます。NDを示す「ダミー」変数を作成し、検出値の対数を取る(または必要に応じて変換する)ことができ、NDの置換値を心配することはできません。
これらのヒストグラムでは、最低値の約20%がゼロに置き換えられています。比較のために、それらはすべて同じ1000シミュレートされた基礎対数正規値(左上)に基づいています。デルタ分布は、200個の値をランダムにゼロで置き換えることにより作成されました。打ち切り分布は、200個の最小値をゼロで置き換えることにより作成されました。「現実的な」分布は、私の経験に準拠しています。つまり、レポートの制限は実際には変化します(実験室によって示されていない場合でも)。いずれかの方向)、レポートの制限よりも小さいすべてのシミュレーション値をゼロに置き換えました。
確率プロットの有用性を示し、その解釈を説明するために、次の図は、前のデータの対数に関連する通常の確率プロットを示しています。
左上には、すべてのデータが表示されます(打ち切りまたは置換の前)。これは、理想的な対角線によく適合します(極端なテールで多少の偏差が予想されます)。これは、後続のすべてのプロットで達成することを目指しているものです(ただし、NDがあるため、この理想を避けられません)。右上は、開始値1を使用した打ち切りデータセットの確率プロットです。すべてのND(0でプロットされているため、であるため、ひどい適合ですlog(1+0)=0)プロットが低すぎる。左下は、開始値が120の打ち切りデータセットの確率プロットであり、これは一般的なレポート制限に近い値です。左下のフィットは今ではまともです-これらの値がすべてフィットしたラインの近く、しかし右側に来ることを願っていますが、上部の曲率は、120を追加すると、分布の形状。右下は、デルタ対数正規データに何が起こるかを示しています。上尾にはよくフィットしますが、レポートの制限付近(プロットの中央)にいくつかの顕著な曲率があります。
最後に、より現実的なシナリオをいくつか見てみましょう。
左上は、ゼロがレポート制限の半分に設定された打ち切りデータセットを示しています。かなりぴったりです。右上には、より現実的なデータセットがあります(ランダムに変化するレポート制限付き)。開始値1は役に立たないが、左下で120の開始値(レポート制限の上限に近い)では、適合は非常に良好です。興味深いことに、ポイントがNDから定量化された値まで上昇する際の中央付近の曲率は、(これらのデータがこのような混合から生成されていなくても)デルタ対数正規分布を連想させます。右下には、現実的なデータのNDが(通常の)レポート制限の半分に置き換えられたときに得られる確率プロットがあります。 これが最適です。 途中でいくつかのデルタ対数正規のような動作を示しますが。
その場合、NDの代わりにさまざまな定数が使用されるため、確率プロットを使用して分布を調べる必要があります。名目上の平均のレポート制限の 半分で検索を開始し、そこから上下に変更します。右下のように見えるプロットを選択します。おおよそ、定量化された値の対角線の直線、低プラトーへの素早いドロップオフ、および対角線の延長に(わずかに)合致する値のプラトーです。ただし、Helselのアドバイス(文献で強く支持されています)に従って、実際の統計的要約については、NDを定数で置き換える方法を避けてください。 回帰の場合、ダミー変数を追加してNDを示すことを検討してください。一部のグラフィック表示では、確率プロットの演習で検出された値によるNDの一定の置換が適切に機能します。他のグラフィック表示では、実際のレポート制限を表すことが重要な場合があるため、代わりにNDをレポート制限で置き換えます。柔軟性が必要です!