三浦の答えは完全に正確ではありませんので、私は後世のためにこの古い質問に答えています:
(2)。これらは非常に異なるものです。経験的累積分布関数は、データを生成したCDF(分布)の推定値です。正確には、観測された各データポイントに確率を割り当てるのは離散CDF です。、各。この推定器は、真のcdfに収束します:各(実際には均一に)ほぼ確実に。F(X )= 11/nX F(X)→F(X)=P(XI≤X)XF^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x
統計のサンプリング分布は、代わりに、繰り返しの実験で表示されると予想される統計の分布です。つまり、実験を1回実行し、データを収集します。はデータの関数です:。ここで、実験を繰り返し、データを収集するとします。新しいサンプルでTを再計算すると、ます。100個のサンプルを収集した場合、推定値は100個になります。これらの観察サンプリング分布形成X 1、… 、X n T T = T (X 1、… 、X n)X ′ 1、… 、X ′ n T ′ = T (X ′ 1、… 、X ′ n)T T T E (T )V a r (T )TX1,…,XnTT=T(X1,…,Xn)X′1,…,X′nT′=T(X′1,…,X′n)TTT。それは本当の分布です。実験の数が無限になると、その平均は収束し、その分散は収束します。E(T)Var(T)
もちろん、一般的にこのような実験を繰り返すことはありませんインスタンスは1つしかありません。分散何を考え出すあなたがの基本となる確率関数がわからない場合は、単一の観測からであることは非常に困難であるアプリオリに。ブートストラップは、の分布サンプリングすることを推定する方法である人工的の新しいインスタンス計算する上で、「新実験」を実行して。それぞれの新しいサンプルは、実際には元のデータからの単なるリサンプルです。これにより、元のデータにあるよりも多くの情報が提供されることは、神秘的であり、まったく素晴らしいことです。T T T TTTTTT
(1)。あなたは正しいです-あなたはこれをしないでしょう。著者は、パラメトリックブートストラップの動機付けを「分布を知っていれば何をするのか」と説明するが、分布関数の非常に優れた推定値(経験的累積分布関数)に置き換えようとしています。
たとえば、検定統計量が平均ゼロ、分散1で正規分布していることがわかっているとします。のサンプリング分布をどのように推定しますか?さて、あなたは分布を知っているので、サンプリング分布を推定する愚かで冗長な方法は、Rを使用して10,000程度の標準正規確率変数を生成し、それらのサンプルの平均と分散を取得し、これらを平均の推定として使用し、のサンプリング分布の分散。T TTTT
我々は場合はありません先験的のパラメータを知っているが、我々はそれが正規分布だということを知っています、私たちが代わりに何ができるかを10,000経験累積分布関数からのサンプルように生成され、計算のそれらのそれぞれには、その後、サンプルの平均を取りますこれら万の分散、S、およびの期待値と分散の見積りとしてそれらを使用する。経験的累積分布関数は真の累積分布関数の優れた推定量であるため、サンプルパラメーターは真のパラメーターに収束する必要があります。これはパラメトリックブートストラップです。推定する統計量にモデルを置きます。モデルには、ecdfからの繰り返しサンプリングから推定されるパラメーター(例:によってインデックスが付けられます。TTTT(μ,σ)
(3)。ノンパラメトリックブートストラップでは、が正規分布していることを事前に知る必要さえありません。代わりに、ecdfからサンプルを繰り返し描画し、各サンプルでを計算します。10,000程度のサンプルを描画し、10,000を計算したら、推定値のヒストグラムをプロットできます。これは、サンプリング分布の視覚化ですTTTT。ノンパラメトリックブートストラップでは、サンプリング分布が正規またはガンマなどであることはわかりませんが、サンプリング分布を(通常)必要に応じて正確に推定できます。パラメトリックブートストラップよりも仮定が少なく、情報が少なくなります。パラメーターの仮定が真の場合は精度が低くなりますが、偽の場合は精度が高くなります。発生する各状況でどちらを使用するかは、コンテキストに完全に依存します。確かに、より多くの人がノンパラメトリックブートストラップに精通していますが、しばしばパラメトリックな仮定が弱いため、完全に難解なモデルを推定しやすくなります。