重要度サンプリングとは何ですか?


回答:


15

重要度サンプリングは、関心のある分布からパラメーターのより良い推定値をより簡単に取得できるように、関心のある分布とは異なる分布からのサンプリングの形式です。通常、これにより、同じサンプルサイズで元の分布から直接サンプリングすることによって得られるよりも低い分散でパラメーターの推定値が提供されます。

さまざまなコンテキストで適用されます。一般に、異なる分布からのサンプリングにより、アプリケーションによって指定された対象の分布の一部(重要な領域)で、より多くのサンプルを取得できます

1つの例として、対象の分布からの純粋なランダムサンプリングが提供するよりも多くの分布の裾からのサンプルを含むサンプルが必要な場合があります。

Wikipediaの記事私はこのテーマで見てきた、あまりにも抽象的です。さまざまな特定の例を参照することをお勧めします。ただし、Bayesian Networksなどの興味深いアプリケーションへのリンクは含まれています

1940年代および1950年代の重要度サンプリングの1つの例は、分散削減手法(モンテカルロ法の形式)です。たとえば、1964年にMethuen Monograph / Chapman and Hallとして出版され、1966年以降に他の出版社によって再版された、Hammersley and Handscombによる書籍Monte Carlo Methodsを 参照してください本のセクション5.4では重要度サンプリングについて説明しています。


2
これに追加するには:でRLは、あなたは、一般的に政策に重点サンプリングを適用している。例えば、サンプリングアクションを代わりに実際の政策の探査ポリシーからあなたが本当にしたいことをサンプルに
ダヴィンチ

3
この回答は、重要度サンプリング何を行うかを説明することから始まりますが、重要度サンプリングとは何かという質問に実際に答えることができないことに失望しました。
whuber

@whuberここでの私の目標は、混乱したOPに概念を説明し、いくつかの文献を紹介することでした。これは大きなトピックであり、一見異なるアプリケーションで使用されています。他の人は私よりも簡単に詳細を説明できるかもしれません。質問に答えるときは、独り占めして素敵なグラフを提供し、平易な言葉を使って技術的な詳細を調べます。それらの投稿は、ほとんどの場合、その明確さと完全性でコミュニティを満足させますが、少なくとも部分的にはOPも満足させると思います。おそらく、方程式を含むいくつかの文で十分でしょう。
マイケルR.チェルニック

たぶん、他のソースを指すだけでなく、リンクを提供するよりも、コミュニティが質問への回答に入れられる方が良いでしょう。私は自分がやったことが適切であり、統計の初心者であることを認めるOPはまず自分で努力する必要があると感じました。
マイケルR.チャーニック

5
あなたにはポイントがあります。しかし、尋ねられた質問に答えを提供することは、数学、グラフ、余分な作業なしで、1つまたは2つ以上の文で可能かどうか疑問に思います。この場合、説明では、(単なる「パラメーター」ではなく)期待値を推定していることを強調する必要があります。次に、期待値は値と確率の積を合計するため、確率を変更しても同じ結果が得られることを指摘します(サンプリングが容易な分布の分布)に合わせて値を調整し、それを補正します。
whuber

33

重要度サンプリングは、積分の近似を目的としたシミュレーションまたはモンテカルロ法です。「サンプリング」という用語は、特定の分布からサンプルを提供することを意図していないため、やや混乱を招きます。

背後にある直感重要度サンプリングは同様に、明確に定義された積分点である の確率分布の広い範囲のための期待のように表すことができる: 私は = Eと Fを [ H X ] = X H X F X

I=Xh(x)dx
ここで、 fは確率分布の密度を表し、 H h fによって決定されます。(注こと Hは、から通常異なる時間。)実際、選択 H X = H X
I=Ef[H(X)]=XH(x)f(x)dx
fHhfH()h(等式にリードHXFX=HXIは=EとF[HX]-の支持体上にいくつかの制限下F、意味FのX>0HX0-
H(x)=h(x)f(x)
H(x)f(x)=h(x)I=Ef[H(X)]ff(x)>0hバツ0。したがって、W。フーバーが彼のコメントで指摘したように、期待値としての積分の表現には単一性はありませんが、反対にそのような表現の無限の配列があります。それらが採用されています。たとえば、Michael Chernickは、推定量の分散を減らすためにを選択することに言及しています。f

この基本的な特性が理解されると、アイデアの実装は、他のモンテカルロ法と同様に大きな数の法則に依存することです。つまり、[擬似乱数ジェネレーターを介して] iidサンプルから分配Fと近似使用する 私は = 1バツ1バツnfその

^=1n=1nHバツ
  1. Iの不偏推定量
  2. 私にほぼ確実に収束する

ディストリビューションの選択に応じて、上記の推定は、私がまたは有限差異があってもなくてもよいです。ただし、有限の分散を可能にし、任意の小さな分散を可能にするfの選択肢が常に存在します(実際、これらの選択肢は利用できない場合があります)。そして、もの選択肢が存在するF重点サンプリング推定作るの非常に貧しい近似私はChatterjeeとDiaconisによる最近の論文では、重要度サンプラーを無限分散と比較する方法が研究されていますが、これには分散が無限になるすべての選択肢が含まれます。下の写真はf^ff^論文に関する私のブログでの議論無限分散推定量の不十分な収束を示しています。

重要度分布、Exp(1)分布ターゲット分布、Exp(1/10)分布、および対象関数$ h(x)= x $を使用した重要度サンプリング。 積分の真の値は$ 10 $です。

重要度分布、Exp(1)分布ターゲット分布、Exp(1/10)分布、および対象関数使用した重要度サンプリング。積分の真の値は10です。h(x)=x10

[以下は、私たちの本Monte Carlo Statistical Methodsから複製されたものです。]

それは実際に(元の)分布以外の分布から生成するために支払ってもよい理由リプリー(1987)番組から次の例一体に現れる X H X F X f興味のある d x、または言い換えれば、与えられた密度に対する期待として積分の表現を変更すること。

Xh(x)f(x)dx

例(コーシーテール確率)は 、関心の量は確率であると仮定しコーシーことは、C0 1 変数がより大きい2、すなわち、 P = + 2pC(0,1)2pは経験的な平均によって評価され 、P 1 = 1

p=2+1π(1+x2)dx.
p IIDサンプルの X 1... X M
p^1=1mj=1mIXj>2
X1,,Xm 、この推定量の分散は、 P 1 - P / M(に等しい 0.127 / Mため、P = 0.15)。C(0,1)p(1p)/m0.127/mp=0.15

この差異は考慮の対称的な性質とることにより低減することができる平均ので、 P 2 = 1C(0,1) 分散p12p / 2m0.052 / mに等しくなります。

p^2=12mj=1mI|Xj|>2
p(12p)/2m0.052/m

これらの方法の(相対的な)非効率性は、関心のある領域外側の値の生成によるものであり、ある意味ではpの近似には無関係です。[これは、尾部面積の推定に言及したマイケル・チャーニックに関連しています。] pp = 1と記述されている 場合[2,+)pp

p=12021π(1+x2)dx,
h(X)=2/π(1+X2)XU[0,2]p
p^3=121mj=1mh(Uj)
UjU[0,2]p^3(E[h2]E[h]2)/m0.0285/mp
p=01/2y2π(1+y2)dy,
14h(Y)=1/2π(1+Y2)[0,1/2]p
p^4=14mj=1mh(Yj)
YjU[0,1/2]p^40.95104/m.

Compared with p^1, the reduction in variance brought by p^4 is of order 103, which implies, in particular, that this evaluation requires 100032 times fewer simulations than p^1 to achieve the same precision.


5
Thank you @Xi' an for going to the trouble of illustrating importance sampling in a way that everyone can appreciate and I think more than satisfies Bill Huber's request. +1
Michael R. Chernick

2
I want to note that initially this post was put on hold and thanks to the contributions of several people. We have come up with an informative thread.
Michael R. Chernick

5
Christian, I want to extend my thanks and express a feeling of privilege that you are actively sharing such excellent material with us.
whuber

4
I just want to add a thank you to Xi'an who was kind enough to make a few edits to improve my answer even though he gave one of his own.
Michael R. Chernick

3
This has to be one of the best posts on stats.stackexchange. Thanks for sharing!
-dohmatob
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.