パラメトリックおよびノンパラメトリックブートストラップに関する質問


14

私はケビン・マーフィーの本「機械学習-確率論的展望」から頻繁な統計に関する章を読んでいます。ブートストラップのセクションは次のとおりです。

ブートストラップは、サンプリング分布を近似する単純なモンテカルロ法です。これは、推定器が真のパラメーターの複雑な関数である場合に特に役立ちます。

アイデアはシンプルです。真のパラメーターわかっていれば、s = 1の場合、真の分布x_i ^ s \ sim p(・|θ^ ∗)から、それぞれサイズNのθ多くの(たとえばS)偽データセットを生成できます。 S、私は= 1:N。その後、各サンプル\ hat {\ theta ^ s} = f(x ^ s_ {1:N})から推定量を計算し 、結果のサンプルの経験的分布をサンプリング分布の推定値として使用できます。以来、シータが\未知である、という考えパラメトリックブートストラップを使用してサンプルを生成することである{\シータ}(D)\帽子代わり。Nxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

ノンパラメトリックブートストラップと呼ばれる別の方法は、元のデータDからxis(置換あり)をサンプリングし、 以前のように誘導分布を計算することです。大規模なデータセットに適用した場合にブートストラップを高速化する方法については、(Kleiner et al。2011)で説明しています。D

  • 1。テキストは言います:

    真のパラメータ\ theta ^ *がわかっていればθ、各サンプル\ hat {\ theta ^ s}から推定量を計算できθs^ます...

        しかし、本当のパラメータ\ theta ^ *すでに知っている場合、なぜ各サンプルの推定量を使用するのでしょうか?θ

  • 2。また、経験的分布とサンプリング分布の違いは何ですか?

  • 。最後に、私はかなりの違いを理解していませんパラメトリックノンパラメトリックこのテキストからブートストラップを。これらは両方とも、観測セットDからθを推測しますが、正確な違いは何ですか?D

回答:


14

三浦の答えは完全に正確ではありませんので、私は後世のためにこの古い質問に答えています:

(2)。これらは非常に異なるものです。経験的累積分布関数は、データを生成したCDF(分布)の推定値です。正確には、観測された各データポイントに確率を割り当てるのは離散CDF です。、各。この推定器は、真のcdfに収束します:各(実際には均一に)ほぼ確実に。FX = 11/nX FXFX=PXIXXF^(x)=1ni=1nI(Xix)xF^(x)F(x)=P(Xix)x

統計のサンプリング分布は、代わりに、繰り返しの実験で表示されると予想される統計の分布です。つまり、実験を1回実行し、データを収集します。はデータの関数です:。ここで、実験を繰り返し、データを収集するとします。新しいサンプルでTを再計算すると、ます。100個のサンプルを収集した場合、推定値は100個になります。これらの観察サンプリング分布形成X 1X n T T = T X 1X nX 1X n T = T X 1X nT T T E T V a r T TX1,,XnTT=T(X1,,Xn)X1,,XnT=T(X1,,Xn)TTT。それは本当の分布です。実験の数が無限になると、その平均は収束し、その分散は収束します。E(T)Var(T)

もちろん、一般的にこのような実験を繰り返すことはありませんインスタンスは1つしかありません。分散何を考え出すあなたがの基本となる確率関数がわからない場合は、単一の観測からであることは非常に困難であるアプリオリに。ブートストラップは、の分布サンプリングすることを推定する方法である人工的の新しいインスタンス計算する上で、「新実験」を実行して。それぞれの新しいサンプルは、実際には元のデータからの単なるリサンプルです。これにより、元のデータにあるよりも多くの情報が提供されることは、神秘的であり、まったく素晴らしいことです。T T T TTTTTT

(1)。あなたは正しいです-あなたはこれをしないでしょう。著者は、パラメトリックブートストラップの動機付けを「分布を知っていれば何をするのか」と説明するが、分布関数の非常に優れた推定値(経験的累積分布関数)に置き換えようとしています。

たとえば、検定統計量が平均ゼロ、分散1で正規分布していることがわかっているとします。のサンプリング分布をどのように推定しますか?さて、あなたは分布を知っているので、サンプリング分布を推定する愚かで冗長な方法は、Rを使用して10,000程度の標準正規確率変数を生成し、それらのサンプルの平均と分散を取得し、これらを平均の推定として使用し、のサンプリング分布の分散。T TTTT

我々は場合はありません先験的のパラメータを知っているが、我々はそれが正規分布だということを知っています、私たちが代わりに何ができるかを10,000経験累積分布関数からのサンプルように生成され、計算のそれらのそれぞれには、その後、サンプルの平均を取りますこれら万の分散、S、およびの期待値と分散の見積りとしてそれらを使用する。経験的累積分布関数は真の累積分布関数の優れた推定量であるため、サンプルパラメーターは真のパラメーターに収束する必要があります。これはパラメトリックブートストラップです。推定する統計量にモデルを置きます。モデルには、ecdfからの繰り返しサンプリングから推定されるパラメーター(例:によってインデックスが付けられます。TTTT(μ,σ)

(3)。ノンパラメトリックブートストラップでは、が正規分布していることを事前に知る必要さえありません。代わりに、ecdfからサンプルを繰り返し描画し、各サンプルでを計算します。10,000程度のサンプルを描画し、10,000を計算したら、推定値のヒストグラムをプロットできます。これは、サンプリング分布の視覚化ですTTTT。ノンパラメトリックブートストラップでは、サンプリング分布が正規またはガンマなどであることはわかりませんが、サンプリング分布を(通常)必要に応じて正確に推定できます。パラメトリックブートストラップよりも仮定が少なく、情報が少なくなります。パラメーターの仮定が真の場合は精度が低くなりますが、偽の場合は精度が高くなります。発生する各状況でどちらを使用するかは、コンテキストに完全に依存します。確かに、より多くの人がノンパラメトリックブートストラップに精通していますが、しばしばパラメトリックな仮定が弱いため、完全に難解なモデルを推定しやすくなります。


1
パラメトリックブートストラップの説明について混乱しています「代わりにできることは、経験的なcdfから10,000個程度のサンプルを生成することです」。これは、マーフィーの本からの元の引用が説明していることです。誤解している可能性がありますが、データの経験的CDFからサンプリングすると、データポイントが直接サンプリングされ、標準のブートストラップになりますか?
user20160

@ user20160あなたは答えの「代わりに」と誤解しています:彼はノンパラメトリックなブートストラップを記述しているのであって、パラメトリックなブートストラップを記述しているのではありません。
-daknowles

4

guest47の貢献に感謝しますが、いくつかの小さな点で、彼の答えにはまったく同意しません。私は意見の相違を直接提起するのではなく、むしろこの答えに反映します。

  1. 多くの場合、基になる真のパラメーター既にわかっている場合、を計算することは冗長です。ただし、を推定する際に精度と精度を調べたい場合は、依然として有用です。それに、引用された文章の最初の段落は、「パラメトリックブートストラップ」の概念を理解しやすくします。これについては、後ほど触れます。θ^sθθ^sθ

  2. Guest47は良い答えを与えます。これ以上詳しく説明する必要はありません。

  3. パラメトリックブートストラップでは、観測データDがあります。データを近似するパラメトリックモデルを作成し、真のパラメーター推定器(データDの関数)を使用します。次に、を使用してパラメトリックモデルから数千のデータセットを生成し、これらのモデルを推定します。ノンパラメトリックブートストラップでは、生成されたデータからではなく、Dのサンプル(数千回)をDから直接使用します。 θ^θθ^θ^s


2

私は専門家ではありませんが、それが価値があることについては:

  1. 引用の最初の文で述べたように、サンプリング分布に興味があるからです。

  2. 経験的分布は、有限数のサンプルで見られる分布です。サンプリング分布は、無限のサンプルを取得した場合に表示されるものです。

私は答えられません。ここでは、「the」ブートストラップとしてノンパラメトリックブートストラップとして説明されていることを常に理解していました。

サンプリング分布の概念をまだ完全に把握していない場合は、非常にわかりやすい Rコードを備えた非常に優れたスレッドがここにあります。


5
パラメトリックブートストラップとノンパラメトリックブートストラップの違いは、前者は推定パラメーター値を使用してデータの(推定)分布からサンプルを生成するのに対し、後者は観測データからの置換によるサンプリングによってサンプルを生成することです-パラメトリックモデルは想定されていません。
jbowman

@jbowman-「ノンパラメトリック」ブートストラップに、基礎となるモデルがあります-パラメーター推定の動機付けに使用されるモデルとは異なるモデルであるだけです。
確率論的

@miura答えを荒らさないでください。質問者に別の回答を選択させたい場合は、質問の下にコメントしてください。回答を削除する場合は、フラグを立てて質問してください。
Glen_b -Reinstateモニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.