ブートストラップされたリサンプルから取得した信頼区間の意味は何ですか？

私はこのサイトでブートストラップと信頼区間に関する多くの質問を見てきましたが、私はまだ混乱しています。混乱の原因の1つは、多くの答えを理解できるほど統計知識が十分に進歩していないことでしょう。私は入門的な統計コースのほぼ半分で、数学のレベルは中世代数II程度であるため、そのレベルを超えると混乱を招きます。このサイトの知識のある人が私のレベルでこの問題を説明できれば、非常に役立ちます。

クラスでは、ブートストラップメソッドを使用してリサンプルを取得し、それらを使用して、測定する統計の信頼区間を構築する方法を学習していました。したがって、たとえば、大規模な母集団からサンプルを取得し、40％が候補者Aに投票すると答えたとします。このサンプルは元の母集団をかなり正確に反映していると仮定します。人口について何かを発見するために。したがって、リサンプルを取得し、（95％の信頼レベルを使用して）結果の信頼区間が35％から45％の範囲であることを見つけます。

私の質問は、この信頼区間は実際にはどういう意味ですか？

（Frequentist）Confidence Intervalsと（Bayesian）Credible Intervalsには違いがあることを読み続けます。正しく理解すれば、信頼できる間隔は、私たちの状況では真のパラメーターが指定された間隔（35％-45％）内にある95％の可能性があると言い、信頼区間はこれに 95％あると言います状況のタイプ（ただし、必ずしも特定の状況である必要はありません）使用しているメソッドは、真のパラメーターが指定された間隔内にあることを正確に報告します。

この定義が正しいと仮定すると、私の質問は次のとおりです。ブートストラップメソッドを使用して構築された信頼区間を使用する場合に話している「真のパラメーター」とは何ですか。（a）元の母集団の真のパラメーター、または（b）サンプルの真のパラメーターを参照していますか？（a）の場合、95％の確率で、ブートストラップメソッドは元の母集団に関する真のステートメントを正確に報告します。しかし、どうしてそれを知ることができるのでしょうか？ブートストラップ方法全体が仮定に基づいていないか元のサンプルは、それが取られた母集団の正確な反映であると？（b）の場合、信頼区間の意味がまったくわかりません。サンプルの真のパラメーターは既にわかっていませんか？それは簡単な測定です！

私はこれを先生と話しましたが、彼女はとても役に立ちました。しかし、私はまだ混乱しています。

confidence-interval bootstrap

— ヤルウェイン
ソース

回答:

ブートストラップ手順と信頼区間の形成が正しく実行された場合、それは他の信頼区間と同じことを意味します。頻繁な視点から見ると、95％CIは、研究全体が無限に同じように繰り返された場合、この方法で形成されたそのような信頼区間の95％に真の値が含まれることを意味します。もちろん、あなたの研究または特定の個々の研究では、信頼区間に真の値が含まれるかどうかがわかりますが、どれが正しいかはわかりません。これらのアイデアをさらに理解するために、ここで私の答えを読むのに役立つかもしれません：95％信頼区間（CI）が95％の平均を含む可能性を意味しないのはなぜですか？

あなたのさらなる質問に関して、「真の値」は関連する母集団の実際のパラメーターを指します。（サンプルにはパラメーターがなく、統計があります。たとえば、サンプル平均はサンプル統計ですが、母平均は母パラメーターです。）しません。私たちがいくつかの仮定に依存していることは正しいです。私たちは常にそうです。これらの仮定が正しい場合、プロパティが保持されていることが証明できます。これは、1970年代後半から1980年代初頭に遡るエフロンの研究のポイントでしたが、ほとんどの人にとって数学は難しいのです。ブートストラップのやや数学的な説明については、ここで@StasKの答えを参照してください：ブートストラップが機能する理由を一般の人々に説明する $\bar x$ $\mu$ 。数学の簡単な簡単なデモンストレーションのために、を使用して次のシミュレーションを検討してRください。

# a function to perform bootstrapping
boot.mean.sampling.distribution = function(raw.data, B=1000){
  # this function will take 1,000 (by default) bootsamples calculate the mean of 
  # each one, store it, & return the bootstrapped sampling distribution of the mean

  boot.dist = vector(length=B)     # this will store the means
  N         = length(raw.data)     # this is the N from your data
  for(i in 1:B){
    boot.sample  = sample(x=raw.data, size=N, replace=TRUE)
    boot.dist[i] = mean(boot.sample)
  }
  boot.dist = sort(boot.dist)
  return(boot.dist)
}

# simulate bootstrapped CI from a population w/ true mean = 0 on each pass through
# the loop, we will get a sample of data from the population, get the bootstrapped 
# sampling distribution of the mean, & see if the population mean is included in the
# 95% confidence interval implied by that sampling distribution

set.seed(00)                       # this makes the simulation reproducible
includes = vector(length=1000)     # this will store our results
for(i in 1:1000){
  sim.data    = rnorm(100, mean=0, sd=1)
  boot.dist   = boot.mean.sampling.distribution(raw.data=sim.data)
  includes[i] = boot.dist[25]<0 & 0<boot.dist[976]
}
mean(includes)     # this tells us the % of CIs that included the true mean
[1] 0.952

— gung-モニカの回復
ソース

どの特定の仮定に依存していますか？

— iarwain 14年

ありがとう。そのスレッドの2番目の答えで探していたものが見つかったと思います。「ブートストラップサンプルの平均を使用して母平均を推定するのではなく、そのためにサンプル平均を使用します（または、関心のある統計is）。しかし、ブートストラップサンプルを使用して、サンプリングプロセスのプロパティ（スプレッド、バイアス）を推定しています。また、既知の母集団（対象の母集団を代表するもの）からのサンプリングを使用して、サンプリングの効果を学習しますあまり円形ではありません。」...

— iarwain

...言い換えると、CIは、私たちとほぼ同じ母集団では、その母集団から採取されたサンプルの95％が真の値+/-誤差を反映することを期待していると言っています。したがって、私たちがしているのは、サンプル統計が実際の母集団パラメーターにどれだけ近いかについて、非常に大まかな手がかり（おそらく、私たちが持っている最高の手がかり）を与えることです。もしそうなら、CIの正確な数字をあまり真剣に受け止めてはいけないように思えます-「サンプル統計はおそらくほぼこの程度までおそらく正確です」というような意味です。私はそれを正しくしましたか？

— iarwain 14年

それは本質的に正しいです。CIによって推定の精度がわかりますが、実際の（実現された）CIに真の値が含まれているかどうかはわかりません。主な仮定は、データが関心のある母集団を代表しているということです。これらはいずれもブートストラップされた CIに固有のものではないことに注意してください。漸近理論によって計算されたCIでも同じ解釈と仮定があります。

— GUNG -復活モニカ

これは素晴らしい説明です。私は、「真の値」が研究デザインの成果物であることだけを付け加えます。政治候補者の投票では、層別化されたサンプルは、ランダムなサンプルよりもはるかに正確で信頼性の高い推定値を提供します。コストは、設計によって間違ったグループをオーバーサンプリングするリスクです。その場合、95％CIは正しい値に集中します。この値は、スタディad infinitumを複製することによって達成されますが、その値は真のパラメーターの他の意味ではありません。推定したいパラメーターです。これが、研究デザインと推論が本質的にリンクしている理由です。

— AdamO

あなたが言っているのは、ブートストラップされたリサンプルから信頼区間を見つける必要がないということです。ブートストラップされたリサンプルから取得した統計（サンプルの平均またはサンプルの割合）に満足している場合、信頼区間が見つからないため、解釈の問題はありません。ただし、ブートストラップされたリサンプルから取得した統計に満足していないか、満足してもまだ信頼区間を見つけたい場合、そのような信頼区間の解釈は他の信頼区間と同じです。ブートストラップされたリサンプルが元の母集団を正確に表している（またはそうであると想定されている）場合、次に、信頼区間の必要性はどこにありますか？ブートストラップされたリサンプルからの統計は元の母集団パラメーターそのものですが、統計を元の母集団パラメーターと見なさない場合、信頼区間を見つける必要があります。だから、それはすべてあなたがどう考えるかについてです。ブートストラップされたリサンプルから95％の信頼区間を計算したとしましょう。現在、解釈は次のとおりです。「95％の確率で、このブートストラップ手法は、真の母集団パラメーターを含む信頼区間を正確にもたらします」。

（これは私が思うことです。間違いがある場合は修正してください）。

— チカトラ・プラシャンス
ソース

-1

元の母集団の真のパラメーターを参照しています。データが元の母集団からランダムに抽出されたと仮定してこれを行うことができます-その場合、少なくともデータセットのサイズが十分に大きくなると、ブートストラップ手順が有効な信頼区間を与えることを示す数学的引数があります。

— ガレス
ソース

だから、なぜそれが機能するのかを理解するには、数学的な証明に従うのに十分な数学を知る必要があるように思えます。あれは正しいですか？

— iarwain 14年

そうだと思う（証拠に精通していない）

— ガレス14年

直観的には、サンプルサイズが大きくなると、サンプルが母集団のように見え始めることがわかります。たとえば、平均と分散を指定して正規分布から100万サンプルを取得するとします。このサンプルをXと呼びます。Xから抽出されたランダムサンプル（置換あり）は、元の分布から抽出されたランダムサンプルによく似ています。これがなぜ機能するかの基本的な考え方だと思います。

— ガレス14年