測定誤差に基づく事前分布の選択


9

機器の測定誤差がある場合、どのように適切な事前計算を行いますか?この段落は、Cressieの本「時空間データの統計」からのものです。

多くの場合、測定誤差の分散に関するいくつかの事前情報が利用可能であり、かなり有益なパラメータモデルを指定できます。我々は条件付き独立した測定誤差を想定している場合、例えば、IIDされる 、我々はのために有益前指定する必要があり。周囲の気温に関心があり、計器メーカーの仕様に±0.1℃の「誤差」が示されていることがわかりました。この「エラー」が2つの標準偏差(チェックする必要があるという仮定)に対応していると仮定すると、\ sigma _ {\ epsilon} ^ {2}を指定して、以前の平均が(0.1 / 2)^ 2 = 0.0025になるようにします。Gau(0,σϵ2)σϵ2±0.1°Cσϵ2(0.1/2)2=0.0025。機器メーカーの仕様により、0.0025に明確に定義されたかなり狭いピーク(たとえば、逆ガンマ)を持つ分布を想定します。実際、0.0025に修正するだけで済みます。ただし、データモデルエラーには、他にも不確実性の要素がある場合があります(セクション7.1)。プロセスモデルのエラーによる識別可能性の問題の可能性を回避するには、データを複製するように設計されたサイドスタディを行うことを含め、モデル作成者がサイエンスの許す限り不確実性を減らすことが非常に重要です。

上記のように事前の値を取得するための一般的な手順は何か知っていますか(段落では事前の平均を取得することのみを参照していますが)。

回答:


6

2つの標準的な方法

  1. 見積もりに記載されている「機器メーカーの仕様」を参考にしてください。これは通常、他の情報が利用できない場合に使用される大まかなフォールバックです。これは、(a)計測器メーカーが実際に「正確さ」と「精度」によって意味するところが不確定であり、(b)計測器が新しいときにどのように応答したかです。テストラボは、現場で使用した場合よりもはるかに優れていると考えられます。

  2. 複製サンプルを収集します。 環境サンプリングでは、サンプルが日常的に複製される約6のレベル(および、サンプルが複製される可能性のある多くのレベル)があり、各レベルは、割り当て可能な変動源の制御に使用されます。そのような情報源には次のものがあります。

    • サンプルを取る人のアイデンティティ。
    • サンプルを入手する前に行われる、井戸の保温などの予備的な手順。
    • 物理的なサンプリングプロセスの変動性。
    • サンプルボリューム自体の不均一性。
    • サンプルを保存して実験室に送るときに発生する可能性のある変化。
    • 物理的なサンプルの均質化や分析のための消化など、予備的な実験手順のバリエーション。
    • 研究室アナリストの識別。
    • ラボ間の違い。
    • 2つのガスクロマトグラフなど、物理的に異なる機器間の違い。
    • 時間の経過に伴う装置のキャリブレーションのドリフト。
    • 日内変動。(これは自然で系統的なものですが、サンプリング時間が任意の場合はランダムに表示されることがあります。)

変動要素の完全な定量的評価は、適切な実験計画に従ってこれらの各要素を体系的に変化させることによってのみ取得できます。

通常、最も変動しやすいと考えられる情報源のみが調査されます。たとえば、多くの研究では、サンプルが取得されたら、それを体系的に分割し、2つの異なる研究所に発送します。これらの分割の結果の違いを調べることで、測定のばらつきに対するそれらの寄与を定量化できます。十分なそのような分割が得られた場合、測定の変動性の完全な分布は、階層ベイズ時空間モデルで事前分布として推定できます。多くのモデルは(計算ごとに)ガウス分布を想定しているため、事前にガウス分布を取得すると、分割間の差の平均と分散を推定することになります。分散の複数の構成要素を特定することを目的とする、より複雑な研究​​では、

これらの問題について考えることの利点の1つは、エラーのこれらのコンポーネントの一部を削減または排除する方法を特定するのに役立ち(それを定量化する必要がない)、それにより、Cressie&Wikleの「不確実性を減らす」の理想に近づくことができることです。科学が許す限り」

(土壌サンプリングでの)拡張作業例については、以下を参照してください。

Van Ee、Blume、およびStarks 。土壌のサンプリングにおけるエラーの評価の根拠。 米国EPA、1990年5月:EPA / 600 / 4-90 / 013。


2
ここで問題になるのは、ロバート、時々誰かが推定値の標準偏差を報告することです。それ以外の場合は、2倍(2による除算)または両側信頼区間を報告します。そして時にはそれ以外の何か。したがって、正確さと精度のステートメントを事前に変換する明確な規則はありません。脚注やその他の技術的な詳細を調べて、数値が何を表しているのかを正確に把握する必要あります。使用されるサンプルのサイズの関数である推定値の標準誤差は、この目的には関係ありません。
whuber

1
とった。焦点を2番目のケースに変更します。実験を数回繰り返し、測定値と 取得した場合、この情報を使用して、以前の分布の平均と分散を通知するにはどうすればよいですか?あなたはいくつかの分割についてようなものを提案しましたよね?したがって、測定誤差の平均と標本標準偏差ます。それを以前のに含めるのに十分ですか?m1m2m1m2mϵσϵN(mϵ,σϵ2)
ロバート・スミス

1
分割では精度を評価できません。そのためには、既知の値のサンプルを測定する必要があります。(これには実験室のスパイクスパイクされた複製が使用されます。)これで平均が決まります。通常、これは測定プロセスのキャリブレーション時に処理されるため、平均はゼロと見なされます。分散は、通常のANOVA式で推定されます。これを使用して、測定システムの対応するコンポーネントに事前分布を指定できます。
whuber

2
そうではない:私が与えた参照は、四半世紀にわたって存在している米国EPAのガイダンスであり、多くの最近のガイダンスはその考えに基づいています。私はかつて連邦裁判所の訴訟でこのアプローチを使用して、描かれた等高線に対する測定誤差の影響を評価し(地球統計学的予測子に基づいて)、汚染物質のプルームを描きました:測定エラーはプルームの境界に使用された濃度よりも大きかった!(言い換えれば、プルームの描写の不確実性は本質的に無限でした。)
whuber

1
すごくいい。ちなみに、私は事前分布は通常、あまり注意せずに設定されることを意味します。これはベイジアンモデリングと機械学習でより顕著に見られました。おそらく、推測で十分な結果が得られるためです。
Robert Smith、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.