ブートストラップ対モンテカルロ、誤差推定


12

地球化学計算におけるモンテカルロ法によるエラー伝播、アンダーソン(1976)の記事を読んでいますが、私にはよくわかりません。

いくつかの測定データを考慮してプログラムプロセスそれと戻る所定値こと。記事では、このプログラムを使用して、最初にデータの平均を使用して最良の値を取得します(例:{ A B C })。{A±σA,B±σB,C±σC}{A,B,C}

著者は、その後、(手段がガウス分布で与えられ、それらの不確定性限界内の入力パラメータを変化させることにより、この最高の値に不確実性を割り当てるためにモンテカルロ法を使用してと標準偏差{ σ Aσ Bσ C }プログラムにそれらを供給する前に)。これを下の図に示します。{A,B,C}{σA,σB,σC}

ここに画像の説明を入力してください

著作権:ScienceDirect

ここで、最終的な分布から不確実性を取得できます。Z

このモンテカルロ法の代わりに、ブートストラップ法を適用するとどうなりますか?このようなもの:

ここに画像の説明を入力してください

これは、プログラムに送る前に不確実性の範囲内でデータを変化させるのではなく、それらを置き換えてサンプリングします。

この場合、これら2つの方法の違いは何ですか?それらのいずれかを適用する前に、どのような注意事項を知っておくべきですか?


私はこの質問Bootstrap、モンテカルロを知っていますが、この場合、データには割り当てられた不確実性が含まれているため、私の疑問は完全には解決しません。


明確にするために:MCメソッドの「ランダムな変化」は研究者によってランダムに生成されますか?つまり、ノイズ/エラーが入力データに人工的に追加されていますか?
シャドウトーカー2016

σ

理解できないと思います。これは人工的なノイズですが、データから標準偏差が推定されています
シャドウトーカー

すると、おそらく「人工ノイズ」とは何か(そして「非人工ノイズ」とは何か)が理解できないでしょう。記事を見ましたか?それは確かに私よりずっと良いことを説明しています。
ガブリエル

自然ノイズ:データのランダムな変動。人工ノイズ:乱数ジェネレータを使用して確率分布から数値を引き出し、それらの数値をデータに追加する
シャドウトーカー

回答:


7

あなたの質問を理解している限り、「モンテカルロ」アプローチとブートストラップアプローチの違いは、本質的にパラメトリック統計とノンパラメトリック統計の違いです。

x1,,xNAσAZ

FF^1/nF^FZ

したがって、両方のアプローチの主な違いは、データの分布についてこのパラメトリックな仮定を行うかどうかです。


2
ほぼ2年後、私はこれが最良の答えであると信じています。なぜなら、パラメトリックアプローチとノンパラメトリックアプローチの違いについて(当時は知りませんでした)明示的に言及しているためです。 。
ガブリエル

しかし、パラメータアプローチでは、パラメトリックブートストラップを使用することもできますか?
トムウェンセリアーズ19/06/19

12

モンテカルロモデルのランダムな変化は釣鐘曲線で表され、計算ではおそらく正規分布の「エラー」または「変化」が想定されます。少なくとも、コンピュータには、「変更」の元となるディストリビューションについての想定が必要です。ブートストラップは必ずしもそのような仮定を行うものではありません。観測値を観測値として受け取り、その誤差が非対称に分布している場合は、その方法でモデルに入ります。

ブートストラップは観測から引き出すため、いくつかの真の観測が必要です。本を読んだ場合、そのCの平均は5であり、標準偏差は1です。観測値がない場合でも、モンテカルロモデルを設定できます。観測が不足している場合(天文学など)、6つの観測とそれらの分布に関するいくつかの仮定を使用してモンテカルロモデルを設定できますが、6つの観測からブートストラップすることはできません。

観測データからの入力とシミュレーション(仮説)データからの入力が混在するモデルが可能です。

編集: コメント内の次のディスカッションで、元の投稿者は次の情報を参考にしています。

「元のプログラム」は、それが値を取得するかどうかに関係なく、平均と偏差から計算したか、それとも平均と自然過程の偏差を実際に実現したものかは関係ありません。


1
N

1
私は統計的/機械学習的に独学しているので、私が述べた違いが唯一のものであるとは主張しません。ブートストラップがモンテカルロ法そのものと見なされているかどうかさえ、私にはわかりません。どちらのアルゴリズムも、多数の現実的なシナリオをシミュレートします。仮定または観測から入力を引き出すことができます。私の分野は医学であり、その分野では想定が間違っていることで有名です。したがって、十分な数の観測が利用できる場合は常に、観測を使用するようにします。それは、物理学または化学に近い分野では、それかもしれません...
Bernhard

1
...物理学または化学に近い分野では、仮定がより信頼できること。ポイント2に関して:私が想定する十分な大きさのサンプルと反復を実行すると、実際のデータが真に正規分布されることは決してなく、想定が常に少し間違っていることがわかりますが、知識はありません。ポイント3に関しては、ブートストラップメソッドで貴重なデータを破棄することによって、あなたが何を意味するかを理解したことは間違いありません。「不確実性の割り当て」は人為的であり、データは現実のものです。繰り返しますが、これは私の分野に基づく私の信念です。実際には、優れた理論と大きなデータが得られることはめったにありません
Bernhard

1
σA,σB,σC

1
各観測値は測定値であるため、すでに独自の測定誤差と不確かさが含まれています。「元のプログラム」は、それが値を取得するかどうかに関係なく、平均と偏差から計算したか、それとも平均と自然過程の偏差を実際に実現したものかは関係ありません。ただし、もちろん、すべてのリサンプリング手法は大きなデータベースに依存しており、任意の数または乱数を計算できますが、通常は任意の数の観測を行うことはできません。そのため、多数の観測がある場合、データが破棄される場所はわかりません。
Bernhard

1

出力Zを入力に関連付ける関数が適度に線形である場合(つまり、入力の変動範囲内)、Zの分散は入力の分散と共分散の組み合わせです。分布の詳細はそれほど重要ではありません...したがって、どちらのメソッドも同様の結果を返すはずです。

GUMの補足1を参照してください


関数が適度に線形でない場合はどうなりますか?これらの2つの方法はどのように異なりますか?
ガブリエル

その場合は、ベルンハルトによる上記の答えを参照してください。つまり、それらが一致するためには、モンテカルロのデータpdfの忠実な説明が必要です。
Pascal

0

ブートストラップとは、データにそれ自体を説明させることです。モンテカルロ法では、課せられたCDF(通常;ガンマ;ベータ...)から多くのランダムな描画を一様分布でサンプリングし、経験的PDFを作成します(CDFが連続的で微分可能である場合)。モンテカルロプロセス全体の興味深い説明は、Briggs A、Schulper M、Claxton Kで報告されています。健康経済評価のための意思決定モデリング。オックスフォード:オックスフォード大学出版、2006:93-95。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.