回答:
重要度サンプリングは、関心のある分布からパラメーターのより良い推定値をより簡単に取得できるように、関心のある分布とは異なる分布からのサンプリングの形式です。通常、これにより、同じサンプルサイズで元の分布から直接サンプリングすることによって得られるよりも低い分散でパラメーターの推定値が提供されます。
さまざまなコンテキストで適用されます。一般に、異なる分布からのサンプリングにより、アプリケーションによって指定された対象の分布の一部(重要な領域)で、より多くのサンプルを取得できます。
1つの例として、対象の分布からの純粋なランダムサンプリングが提供するよりも多くの分布の裾からのサンプルを含むサンプルが必要な場合があります。
Wikipediaの記事私はこのテーマで見てきた、あまりにも抽象的です。さまざまな特定の例を参照することをお勧めします。ただし、Bayesian Networksなどの興味深いアプリケーションへのリンクは含まれています。
1940年代および1950年代の重要度サンプリングの1つの例は、分散削減手法(モンテカルロ法の形式)です。たとえば、1964年にMethuen Monograph / Chapman and Hallとして出版され、1966年以降に他の出版社によって再版された、Hammersley and Handscombによる書籍Monte Carlo Methodsを 参照してください。本のセクション5.4では、重要度サンプリングについて説明しています。
重要度サンプリングは、積分の近似を目的としたシミュレーションまたはモンテカルロ法です。「サンプリング」という用語は、特定の分布からサンプルを提供することを意図していないため、やや混乱を招きます。
背後にある直感重要度サンプリングは同様に、明確に定義された積分点である の確率分布の広い範囲のための期待のように表すことができる: 私は = Eと Fを [ H (X )] = ∫ X H (X )F (X )
この基本的な特性が理解されると、アイデアの実装は、他のモンテカルロ法と同様に大きな数の法則に依存することです。つまり、[擬似乱数ジェネレーターを介して] iidサンプルから分配Fと近似使用する 私は = 1その
ディストリビューションの選択に応じて、上記の推定は、私がまたは有限差異があってもなくてもよいです。ただし、有限の分散を可能にし、任意の小さな分散を可能にするfの選択肢が常に存在します(実際、これらの選択肢は利用できない場合があります)。そして、もの選択肢が存在するF重点サンプリング推定作る私の非常に貧しい近似私は。ChatterjeeとDiaconisによる最近の論文では、重要度サンプラーを無限分散と比較する方法が研究されていますが、これには分散が無限になるすべての選択肢が含まれます。下の写真は論文に関する私のブログでの議論と、無限分散推定量の不十分な収束を示しています。
重要度分布、Exp(1)分布ターゲット分布、Exp(1/10)分布、および対象関数使用した重要度サンプリング。積分の真の値は10です。
[以下は、私たちの本Monte Carlo Statistical Methodsから複製されたものです。]
それは実際に(元の)分布以外の分布から生成するために支払ってもよい理由リプリー(1987)番組から次の例一体に現れる ∫ X H (X )F (X )興味のある d x、または言い換えれば、与えられた密度に対する期待として積分の表現を変更すること。
例(コーシーテール確率)は 、関心の量は確率であると仮定しコーシーことは、C(0 、1 )変数がより大きい2、すなわち、 P = ∫ + ∞ 2pは経験的な平均によって評価され 、P 1 = 1
この差異は考慮の対称的な性質とることにより低減することができる平均ので、 P 2 = 1 分散p(1−2p) / 2mは0.052 / mに等しくなります。
これらの方法の(相対的な)非効率性は、関心のある領域外側の値の生成によるものであり、ある意味ではpの近似には無関係です。[これは、尾部面積の推定に言及したマイケル・チャーニックに関連しています。] pがp = 1と記述されている 場合
Compared with , the reduction in variance brought by is of order , which implies, in particular, that this evaluation requires times fewer simulations than to achieve the same precision.