タグ付けされた質問 「bootstrap」

ブートストラップは、統計のサンプリング分布を推定するためのリサンプリング手法です。

11
ブートストラップが機能する理由を素人に説明する
最近、ブートストラップを使用して、プロジェクトの信頼区間を推定しました。統計についてあまり知らない人が最近、ブートストラップが機能する理由、つまり、同じサンプルを何度もリサンプリングすると良い結果が得られる理由を説明するように頼まれました。使い方を理解するのに多くの時間を費やしましたが、ブートストラップが機能する理由を本当に理解していないことに気付きました。 具体的には、サンプルからリサンプリングしている場合、サンプルだけでなく母集団について何かを学んでいるというのはどうですか?そこには、直観に反する飛躍があるようです。 ここで、この質問に対するいくつかの答えを見つけました。特にこれ。私は統計の「消費者」であり、統計学者ではありません。私は統計よりも統計についてあまり知らない人々と仕事をしています。だから、誰かが、最小限の定理などへの言及で、ブートストラップの背後にある基本的な理由を説明できますか?つまり、隣人に説明しなければならないとしたら、何と言いますか?



3
「単純なブートストラップ」が失敗する例は何ですか?
未知の分布または複雑な分布からのサンプルデータのセットがあり、データの統計に対して何らかの推論を実行するとします。私のデフォルトの傾きはちょうど交換とブートストラップサンプルの束を生成し、そして私の統計を計算することであるための推定分布を作成するために、各ブートストラップ標本に。TTTTTTTTT これが悪い考えである例は何ですか? たとえば、このブートストラップの単純な実行が失敗する場合の1つは、時系列データでブートストラップを使用しようとしている場合です(たとえば、重要な自己相関があるかどうかをテストするため)。上記のナイーブブートストラップ(元のシリーズからの置換でサンプリングすることにより、n番目のブートストラップサンプルシリーズの番目のデータポイントを生成)は、元の時系列の構造を無視するため、お勧めできません。ブロックブートストラップのような、より手の込んだブートストラップテクニックを取得します。iii 別の言い方をすれば、「置換によるサンプリング」以外にブートストラップには何がありますか?

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
リサンプリング/シミュレーション方法:モンテカルロ、ブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、および順列テスト
さまざまなリサンプリング方法(モンテカルロシミュレーション、パラメトリックブートストラップ、ノンパラメトリックブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、置換テスト)とRを使用した独自のコンテキストでの実装の違いを理解しようとしています。 次のような状況があるとしましょう。Y変数(Yvar)とX変数(Xvar)を使用してANOVAを実行します。Xvarカテゴリーです。次のことに興味があります。 (1)p値の重要性–偽発見率 (2)Xvarレベルの 効果サイズ Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) これらのリサンプリング方法がどのように機能するかを明示した実例で、サンプリングの違いを説明してください。 編集: 私の試みは次のとおりです。 ブートストラップ 10ブートストラップサンプル、サンプルのサンプル番号、交換、サンプルを繰り返すことができることを意味します boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] b.df …

4
ブートストラップは、小さなサンプルサイズの「治療」と見なすことができますか?
この質問は、私がこの大学院レベルの統計教科書で読んだものによって引き起こされ、統計セミナーでのこのプレゼンテーション中に(独立して)聞いたこともあります。どちらの場合も、ステートメントは「サンプルサイズがかなり小さいため、このパラメトリックメソッド代わりに(またはそれに沿って)ブートストラップを介して推定を実行する」という行に沿っていました。XXX 彼らは詳細には触れませんでしたが、おそらくその理由は次のとおりでした。メソッドは、データが特定のパラメトリック分布従うと仮定します。実際には、分布は正確にはではありませんが、サンプルサイズが十分に大きければ問題ありません。この場合、サンプルサイズが小さすぎるため、分布を仮定しない(ノンパラメトリック)ブートストラップに切り替えましょう。問題が解決しました!XXXDDDDDD 私の意見では、それはブートストラップの目的ではありません。私がそれを見る方法は次のとおりです:十分なデータがあることが多かれ少なかれ明らかな場合、ブートストラップは1つにエッジを与えることができますが、標準エラー、p値および同様の統計を取得するための閉じた形式のソリューションはありません。古典的な例は、2変量正規分布からサンプルを与えられた相関係数のCIを取得することです。閉形式の解は存在しますが、ブートストラップがより複雑になるほど複雑です。ただし、ブートストラップが小さなサンプルサイズで逃げるのに何らかの形で役立つことを意味するものは何もありません。 私の知覚は正しいですか? この質問がおもしろい場合は、別のより具体的なブートストラップの質問があります。 ブートストラップ:オーバーフィットの問題 PS「ブートストラップアプローチ」のひどい例の1つを共有することはできません。著者の名前は公開していませんが、2004年にクオンティティブファイナンスに関する本を書いた古い世代の「クオンツ」の1人です。例はそこから引用しています。 次の問題を考えてみましょう。4つの資産と、それぞれ120の月次リターン観測値があるとします。目標は、年間収益の結合4次元累積分布関数を構築することです。1つの資産であっても、4次元cdfの推定はもちろんのこと、年10回の観測だけではタスクはほとんど達成できないように見えます。しかし、心配する必要はありません。「ブートストラップ」が役立ちます。利用可能な4次元の観測値をすべて取得し、12を置換でリサンプリングし、それらを組み合わせて、年間収益の単一の「ブートストラップ」4次元ベクトルを構築します。それを1000回繰り返して、見よ、あなたは自分自身に1000年の年次リターンの「ブートストラップサンプル」を得た。これをcdf推定、または1000年の歴史から導き出せるその他の推論のために、サイズ1000のiidサンプルとして使用します。

4
不確実性のブートストラップ推定に関する仮定
不確かさの推定値を取得する際のブートストラップの有用性は高く評価されますが、それについて常に悩まされることの1つは、それらの推定値に対応する分布がサンプルで定義された分布であることです。一般に、サンプル周波数が基礎となる分布とまったく同じであると信じるのは悪い考えのように思えますが、サンプル周波数が基礎となる分布を定義する分布に基づいて不確実性の推定値を導き出すのはなぜ聞こえる/受け入れられるのでしょうか? 一方で、これは私たちが通常行う他の分布の仮定よりも悪いことはないかもしれませんが、正当性をもう少しよく理解したいと思います。

1
ブートストラップとジャックナイフ
ブートストラップ法とジャックナイフ法の両方を使用して、推定値の偏りと標準誤差を推定することができ、両方のリサンプリング法のメカニズムは大きな違いはありません。ただし、ジャックナイフは、研究と実践においてブートストラップほど人気が​​ありません。 ジャックナイフを使用する代わりにブートストラップを使用することの明らかな利点はありますか?

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
ベイジアンの観点からブートストラップを解釈することは可能ですか?
わかりました、これは夜に私を維持する質問です。 ブートストラップ手順は、ベイジアン手順を近似していると解釈できますか(ベイジアンブートストラップを除く)。 私は、統計のベイジアンの「解釈」が本当に好きです。ただし、ブートストラップ手順の弱点もあります。これは非常に単純ですが、多くの状況で妥当な推論を提供します。ただし、ブートストラップが何らかの意味で事後分布に近似していることを知っていれば、ブートストラップにもっと満足するでしょう。 「Bayesian bootstrap」(Rubin、1981)は知っていますが、私の観点からすると、このバージョンのブートストラップは標準のブートストラップと同じくらい問題があります。問題は、古典的なブートストラップとベイジアンブートストラップの両方を行うときに行う、本当に独特なモデルの仮定です。つまり、分布の可能な値は、すでに見た値のみです。これらの奇妙なモデルの仮定は、ブートストラップ手順がもたらす非常に合理的な推論をどのようにしてもたらすことができますか?私はブートストラップの特性を調査した記事を探していました(例えば、Weng、1989)が、満足できる明確な説明が見つかりませんでした。 参照資料 ドナルド・B・ルービン(1981)。ベイジアンブートストラップ。 アン。統計学者。ボリューム9、ナンバー1、130-134。 Chung-Sing Weng(1989)。ベイジアンブートストラップ平均の二次漸近特性について 統計学年報、Vol。17、No.2、pp.705〜710。

5
平均して、各ブートストラップサンプルに約3分の2の観測が含まれているのはなぜですか?
私は、各ブートストラップサンプル(またはバギングされたツリー)に平均約の観測値が含まれるという主張に出くわしました。2/32/32/3 置換されたサンプルからの描画のいずれでも選択されない可能性はであり、選択されない可能性は約になると理解しています。nnnnnn(1−1/n)n(1−1/n)n(1- 1/n)^n1/31/31/3 この式が常にを与える理由の数学的な説明は何ですか?≈1/3≈1/3\approx 1/3
42 bootstrap 

1
ブートストラップまたはモンテカルロアプローチを使用して重要な主成分を決定する方法は?
主成分分析(PCA)または経験的直交関数(EOF)分析から得られる重要なパターンの数を特定することに興味があります。この方法を気候データに適用することに特に興味があります。データフィールドはMxN行列で、Mは時間次元(例:日)、Nは空間次元(例:経度/緯度)です。重要なPCを判別するための可能なブートストラップ方法を読みましたが、より詳細な説明を見つけることができませんでした。これまで、私はこのカットオフを決定するために、Northの経験則(North et al。 例として: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 <- matrix(sp1, length(x), length(y)) image(x,y,tmp1) sp2 <- grd$x^2+grd$y^2 tmp2 <- matrix(sp2, length(x), length(y)) image(x,y,tmp2) sp3 <- 10*grd$y tmp3 <- matrix(sp3, length(x), length(y)) image(x,y,tmp3) #3 respective temporal patterns …
40 r  pca  bootstrap  monte-carlo 


3
ブートストラップされたリサンプルから取得した信頼区間の意味は何ですか?
私はこのサイトでブートストラップと信頼区間に関する多くの質問を見てきましたが、私はまだ混乱しています。混乱の原因の1つは、多くの答えを理解できるほど統計知識が十分に進歩していないことでしょう。私は入門的な統計コースのほぼ半分で、数学のレベルは中世代数II程度であるため、そのレベルを超えると混乱を招きます。このサイトの知識のある人が私のレベルでこの問題を説明できれば、非常に役立ちます。 クラスでは、ブートストラップメソッドを使用してリサンプルを取得し、それらを使用して、測定する統計の信頼区間を構築する方法を学習していました。したがって、たとえば、大規模な母集団からサンプルを取得し、40%が候補者Aに投票すると答えたとします。このサンプルは元の母集団をかなり正確に反映していると仮定します。人口について何かを発見するために。したがって、リサンプルを取得し、(95%の信頼レベルを使用して)結果の信頼区間が35%から45%の範囲であることを見つけます。 私の質問は、この信頼区間は実際にはどういう意味ですか? (Frequentist)Confidence Intervalsと(Bayesian)Credible Intervalsには違いがあることを読み続けます。正しく理解すれば、信頼できる間隔は、私たちの状況では真のパラメーターが指定された間隔(35%-45%)内にある95%の可能性があると言い、信頼区間はこれに 95%あると言います状況のタイプ(ただし、必ずしも特定の状況である必要はありません)使用しているメソッドは、真のパラメーターが指定された間隔内にあることを正確に報告します。 この定義が正しいと仮定すると、私の質問は次のとおりです。ブートストラップメソッドを使用して構築された信頼区間を使用する場合に話している「真のパラメーター」とは何ですか。(a)元の母集団の真のパラメーター、または(b)サンプルの真のパラメーターを参照していますか?(a)の場合、95%の確率で、ブートストラップメソッドは元の母集団に関する真のステートメントを正確に報告します。しかし、どうしてそれを知ることができるのでしょうか?ブートストラップ方法全体が仮定に基づいていないか元のサンプルは、それが取られた母集団の正確な反映であると?(b)の場合、信頼区間の意味がまったくわかりません。サンプルの真のパラメーターは既にわかっていませんか?それは簡単な測定です! 私はこれを先生と話しましたが、彼女はとても役に立ちました。しかし、私はまだ混乱しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.