タグ付けされた質問 「bootstrap」

ブートストラップは、統計のサンプリング分布を推定するためのリサンプリング手法です。

4
ブートストラップ対モンテカルロ、誤差推定
地球化学計算におけるモンテカルロ法によるエラー伝播、アンダーソン(1976)の記事を読んでいますが、私にはよくわかりません。 いくつかの測定データを考慮してとプログラムプロセスそれと戻る所定値こと。記事では、このプログラムを使用して、最初にデータの平均を使用して最良の値を取得します(例:{ A 、B 、C })。{ A ± σあ、B ± σB、C± σC}{A±σA,B±σB,C±σC}\{A\pm\sigma_A, B\pm\sigma_B, C\pm\sigma_C\}{ A 、B 、C}{A,B,C}\{A, B, C\} 著者は、その後、(手段がガウス分布で与えられ、それらの不確定性限界内の入力パラメータを変化させることにより、この最高の値に不確実性を割り当てるためにモンテカルロ法を使用してと標準偏差{ σ A、σ B、σ C }プログラムにそれらを供給する前に)。これを下の図に示します。{ A 、B 、C}{A,B,C}\{A, B, C\}{ σあ、σB、σC}{σA,σB,σC}\{\sigma_A, \sigma_B, \sigma_C\} (著作権:ScienceDirect) ここで、最終的な分布から不確実性を取得できます。ZZZ このモンテカルロ法の代わりに、ブートストラップ法を適用するとどうなりますか?このようなもの: これは、プログラムに送る前に不確実性の範囲内でデータを変化させるのではなく、それらを置き換えてサンプリングします。 この場合、これら2つの方法の違いは何ですか?それらのいずれかを適用する前に、どのような注意事項を知っておくべきですか? 私はこの質問Bootstrap、モンテカルロを知っていますが、この場合、データには割り当てられた不確実性が含まれているため、私の疑問は完全には解決しません。

4
ブートストラップ、モンテカルロ
宿題の一部として次の質問が設定されました。 データの1変量サンプルの平均で95%の信頼区間を取得するためのブートストラップのパフォーマンスを調べるシミュレーションスタディを設計および実装します。RまたはSASで実装できます。 確認したいパフォーマンスの側面は、信頼区間カバレッジ(つまり、信頼区間に真の平均が含まれる割合)とモンテカルロ変動(つまり、シミュレーション間で信頼限界の上限と下限がどれだけ変化するか)です。 誰かがこれのモンテカルロ変動の側面に取り組む方法を知っていますか?アルゴリズムなど何も考えられないようです。それはモンテカルロ統合と関係がありますか?ありがとう!

1
モードの信頼区間を計算していますか?
モード(一般的に)の信頼区間の計算に関するリファレンスを探しています。ブートストラップは自然な最初の選択のように思えるかもしれませんが、Romano(1988)によって説明されているように、標準のブートストラップはモードに対して失敗し、単純なソリューションを提供しません。このペーパー以降、何か変更はありましたか?モードの信頼区間を計算する最良の方法は何ですか?ブートストラップベースの最良のアプローチは何ですか?関連する参照を提供できますか? ロマーノ、JP(1988)。モードのブートストラップ。Institute of Statistical Mathematics、40(3)、565-586。

1
ノンパラメトリックブートストラップのp値と信頼区間
環境 これはこの質問にいくぶん似ていますが、完全に重複しているとは思いません。 ブートストラップ仮説検定の実行方法に関する指示を探すとき、通常、信頼区間には経験分布を使用しても問題はないが、p-値。例として、この質問に対する承認済みの回答をご覧ください。インターネットでの一般的な検索では、ほとんど同じような答えが見つかるようです。 経験分布に基づくp値を使用しない理由は、ほとんどの場合、変換不変性がないためです。 例 短い例を挙げましょう。コインがあり、片側テストを実行して、ヘッドの頻度が0.5より大きいかどうかを確認します 試行を実行し、頭を取得します。この検定の真のp値は、です。n = 20n=20n = 20k = 14k=14k = 14p = 0.058p=0.058p = 0.058 一方、20ヘッドのうち14ヘッドをブートストラップする場合、およびの二項分布から効果的にサンプリングします。0.2を差し引いてこの分布をシフトすると、得られた経験的分布に対して0.7の観測値をテストすると、かろうじて有意な結果が得られます。n = 20n=20n = 20p = 1420= 0.7p=1420=0.7p = \frac{14}{20}=0.7 この場合、差異は非常に小さくなりますが、テストした成功率が1に近づくと大きくなります。 質問 さて、私の質問の真のポイントに行きましょう。まったく同じ欠陥が信頼区間にも当てはまります。実際、信頼区間が指定された信頼水準持つ場合、帰無仮説のもとでパラメーターを含まない信頼区間は、有意水準で帰無仮説を棄却することと同等です。αα\alpha1 - α1−α1- \alpha 経験的分布に基づく信頼区間が広く受け入れられ、p値が受け入れられないのはなぜですか? より深い理由はありますか、それとも人々は信頼区間でそれほど保守的ではありませんか? この答えでピーター・ダルガードは私の議論に同意するように見える答えを出します。彼は言う: この推論の行については特に問題はなく、少なくともCIの計算ほど悪くはありません。 どこから来たのですか?その方法でp値を生成することは少し悪いことを意味しますが、要点については詳しく説明しません。 最終的な考え また、EfronとTibshiraniによるブートストラップの概要では、適切な帰無仮説分布の下で生成されない限り、p値ではなく、信頼区間に多くのスペースを費やしています。ただし、順列検定に関する章の信頼区間とp値。 リンクした最初の質問にも戻りましょう。Michael Chernickの答えには同意しますが、経験的ブートストラップ分布に基づく信頼区間とp値の両方は、いくつかのシナリオでは等しく信頼できないと彼は主張しています。間隔が適切であると多くの人が言う理由を説明していませんが、p値はそうではありません。

2
偏ったブートストラップ:観測された統計を中心にCIを中心にしても大丈夫ですか?
これはブートストラップに似ています:推定は信頼区間外です 母集団の遺伝子型の数を表すデータがいくつかあります。Shannonのインデックスを使用して遺伝的多様性を推定し、ブートストラップを使用して信頼区間も生成したいと考えています。ただし、ブートストラップによる推定は非常に偏りがちであり、信頼区間が私の観察した統計の範囲外にあることに気づきました。 以下に例を示します。 # Shannon's index H <- function(x){ x <- x/sum(x) x <- -x * log(x, exp(1)) return(sum(x, na.rm = TRUE)) } # The version for bootstrapping H.boot <- function(x, i){ H(tabulate(x[i])) } データ生成 set.seed(5000) X <- rmultinom(1, 100, prob = rep(1, 50))[, 1] 計算 H(X) ## [1] 3.67948 …

1
ブートストラップはこの継続的なデータに適していますか?
私は完全な初心者です:) 人口約745,000人のサンプルサイズ10,000で調査を行っています。各サンプルは「類似性の割合」を表します。サンプルの大部分は約97%〜98%ですが、一部は60%〜90%です。つまり、分布は大きくマイナスに歪んでいます。結果の約0.6%は0%ですが、これらはサンプルとは別に処理されます。 すべての10,000個のサンプルの平均は97.7%であり、Excelだけでは、StdDevは3.20です。StdDevは実際には適用されないことを理解しています。これは、結果が正規分布されないためです(+3.20では100%を超えるため!)。 私の質問は: ブートストラップ(私にとっての新しいコンセプト)は適切ですか? 私は正しくブートストラップしていますか?:) 十分なサンプルサイズとは何ですか? 私がやっていることは、私の10,000件の結果を(置き換えて)再サンプリングし、新しい平均を計算することです。私はこれを数千回行い、それぞれの平均を配列に格納します。次に、「平均の平均」を計算します。これが私の統計結果です。99%CIを計算するために、0.5%番目の値と99.5%番目の値を選択すると、非常に狭い範囲(97.4%-98.0%)が生成されます。これは有効な結果ですか、それとも何か問題がありますか? サンプルサイズについては、人口の約1.3%しかサンプリングしていません。これで「十分」かどうかはわかりません。私のサンプルが母集団の代表であるかどうかはどのようにしてわかりますか?理想的には、+ /-0.50%パーセンテージポイント(つまり、97.2%-98.2%)である平均の99%の信頼度を確保したいと考えています。 ヒントを事前にありがとう!

1
Rで実行されるブートストラップの出力を理解する(tsboot、MannKendall)
Rのtsboot呼び出しの解釈について質問があります。Kendallとブートパッケージの両方のドキュメントを確認しましたが、以前ほど賢くありません。 たとえばKendallパッケージの例を使用してブートストラップを実行すると、テスト統計はKendallのタウになります。 library(Kendall) # Annual precipitation entire Great Lakes # The Mann-Kendall trend test confirms the upward trend. data(PrecipGL) MannKendall(PrecipGL) これは上昇傾向を確認します: tau = 0.265, 2-sided pvalue =0.00029206 次に、例は引き続きブロックブートストラップを使用します。 # #Use block bootstrap library(boot) data(PrecipGL) MKtau<-function(z) MannKendall(z)$tau tsboot(PrecipGL, MKtau, R=500, l=5, sim="fixed") 次の結果が表示されます。 BLOCK BOOTSTRAP FOR TIME SERIES Fixed Block Length …
11 r  bootstrap 

2
ブートストラップ仮説検定で帰無仮説の下でデータを再サンプリングする必要があるのはなぜですか?
ブートストラップ法を仮説検定に直接適用することは、ブートストラップされたサンプルで繰り返し計算することにより、検定統計量の信頼区間を推定 することです(ブートストラップからサンプリングされた統計量)。仮説パラメーター(通常は0に等しい)がの信頼区間の外にある場合、を拒否します。 θ ^ θ * H0θ0 ^ θ *θ^θ^\hat{\theta}θ^θ^\hat{\theta}θ∗^θ∗^\hat{\theta^*}H0H0H_0θ0θ0\theta_0θ∗^θ∗^\hat{\theta^*} 私は読んだことがあるが、この方法にはある程度の力がない。Hall P.とWilson SRによる記事「ブートストラップ仮説テストの2つのガイドライン」(1992)は、最初のガイドラインとして書かれており、ではなく、。そして、これは私が理解していない部分です。^ θ * -θ0θ∗^−θ^θ∗^−θ^\hat{\theta^*} - \hat{\theta}θ∗^−θ0θ∗^−θ0\hat{\theta^*} - \theta_0 されていないことを措置推定量のバイアスだけ?不偏推定量の場合、この式の信頼区間は常により小さくなければなりませんが、テストと何が関係しているのかません。に関する情報を置く場所はどこにもありません。^ θ * ^ θ * -θ0 θ =θ0θ0θ∗^−θ^θ∗^−θ^\hat{\theta^*} - \hat{\theta}θ∗^θ∗^\hat{\theta^*}θ∗^−θ0θ∗^−θ0\hat{\theta^*} - \theta_0θ^=θ0θ^=θ0\hat{\theta}=\theta_0θ0θ0\theta_0 この記事にアクセスできないあなたのために、これは論文の直後に来る関連する段落の引用です: これが重要な理由を理解するために、場合、を拒否するテストが含まれることにして 「大きすぎる」です。もしの真の値から長い道のりです (すなわち、場合エラーはなはだしくである)、その後違い ノンパラメトリックブートストラップ分布と比較して、非常に大きく見えることはありません。より意味のある比較は、分布です。実際には、もし真の値 IS| θ - θ 0 | θ 0 θ H 0 | …

1
混合効果モデルの残差をブートストラップすると、なぜ保守的な信頼区間が得られないのですか?
私は通常、複数の個人がそれぞれ2つ以上の条件のそれぞれで複数回測定されるデータを扱います。私は最近、条件間の差異の証拠を評価するために混合効果モデリングを試しindividual、ランダム効果としてモデリングしています。そのようなモデリングからの予測に関する不確実性を視覚化するために、私はブートストラップを使用しており、ブートストラップの各反復で、個体と観測内の条件内の両方が置換でサンプリングされ、新しい混合効果モデルが予測から計算されます取得されます。これは、ガウス誤差を仮定するデータに対しては正常に機能しますが、データが2項式の場合、各反復で比較的計算集中型の2項式混合効果モデルを計算する必要があるため、ブートストラップに非常に長い時間がかかる可能性があります。 私が考えていたのは、元のモデルの残差を使用して、ブートストラップの生データの代わりにこれらの残差を使用できるため、ブートストラップの各反復でガウス混合効果モデルを計算できるというものでした。生データの二項モデルからの元の予測を残差からのブートストラップ予測に追加すると、元の予測の95%CIが生成されます。 ただし、私は最近、このアプローチの簡単な評価をコード化し、2つの条件の差をモデル化せず、95%信頼区間にゼロを含めることができなかった時間の割合を計算しました。上記の残差ベースのブートストラップ手順では、かなり強い反保守的な間隔(ゼロを除外するのは、時間の5%以上)。さらに、元のガウシアンであるデータに適用した場合と同様に、このアプローチの同様の評価をコード化し(以前と同じリンク)、同様に(極端ではないが)反保守的なCIを取得しました。これがなぜなのか、何か考えはありますか?

1
基本的なブートストラップ信頼区間のカバレッジ確率
現在取り組んでいるコースについて次の質問があります。 モンテカルロ研究を実施して、標準の通常のブートストラップ信頼区間と基本的なブートストラップ信頼区間のカバレッジ確率を推定します。正規母集団からサンプリングし、サンプル平均の経験的カバレッジレートを確認します。 標準の通常のブートストラップCIのカバレッジ確率は簡単です。 n = 1000; alpha = c(0.025, 0.975); x = rnorm(n, 0, 1); mu = mean(x); sqrt.n = sqrt(n); LNorm = numeric(B); UNorm = numeric(B); for(j in 1:B) { smpl = x[sample(1:n, size = n, replace = TRUE)]; xbar = mean(smpl); s = sd(smpl); LNorm[j] = xbar + …

1
多変量時系列のブロックブートストラップの代替
私は現在、Rで多変量時系列をブートストラップするために次のプロセスを使用しています。 ブロックサイズの決定- 各シリーズのブロックサイズを生成するパッケージb.star内の関数を実行しますnp 最大ブロックサイズを選択 tsboot選択したブロックサイズを使用して任意のシリーズで実行 ブートストラップ出力のインデックスを使用して、多変量時系列を再構築します 誰かがブロックブートストラップの代わりにmebootパッケージを使用することを提案しましたが、データセット全体を使用してブロックサイズを選択していないため、実行mebootして作成されたインデックスを使用する場合にシリーズ間の相関関係を保持する方法がわかりません1つのシリーズ。多変量設定でmebootの経験がある人がいれば、そのプロセスについてのアドバイスをいただければ幸いです。

1
ブートストラップ方法論。ランダムサブサンプリングの代わりに「置換あり」でリサンプリングするのはなぜですか?
ブートストラップ法はここ数年で大きな普及を見せています。特に背後にある推論が非常に直感的であるため、私もそれを頻繁に使用しています。 しかし、それは私が理解していないことの1つです。なぜエフロンが単一の観測をランダムに含めたり除外したりすることによる単純なサブサンプリングの代わりに、置換を伴うリサンプリングを選択したのですか? ランダムサブサンプリングには1つの非常に優れた品質があると思います。これは、理想的には、私たちの調査で得られた観測が仮想母集団のサブセットである実際の状況を表しています。リサンプリング中に観測値を乗算することの利点はわかりません。実際の状況では、特に複雑な多変量の状況では、他の観測値と類似する観測値はありません。

2
ブートストラップの長所と短所
ブートストラップの概念について学んだところ、素朴な疑問が浮かびました。データの多数のブートストラップサンプルを常に生成できるとしたら、どうしてもっと「実際の」データを取得する必要があるのでしょうか。 説明があると思いますが、私が正しいかどうか教えてください:ブートストラッププロセスにより分散が減少すると思いますが、元のデータセットがバイアスされている場合は、レプリカの数に関係なく、低い分散と高いバイアスに悩まされています私が取っています。

4
リサンプリングされたデータセットの仮説検定でnullが頻繁に拒否されるのはなぜですか?
tl; dr:nullの下で生成されたデータセットから始めて、置換でケースをリサンプリングし、リサンプリングされた各データセットに対して仮説検定を行いました。これらの仮説検定は、ヌルを5%以上の確率で拒否します。 以下の非常に単純なシミュレーションでは、でデータセットを生成し、それぞれに単純なOLSモデルを当てはめます。次に、各データセットについて、元のデータセットの行を置換して再サンプリングすることにより、1000個の新しいデータセットを生成します(Davison&Hinkleyの古典的なテキストで線形回帰に適していると特に説明されているアルゴリズム)。それらのそれぞれについて、私は同じOLSモデルを適合させました。最終的に、ブートストラップサンプル内の仮説テストの約16%がnullを拒否しますが、5%を取得する必要があります(元のデータセットで行うように)。バツ〜N(0 、1 )⨿ Y〜N(0 、1 )X∼N(0,1)⨿Y∼N(0,1)X \sim N(0,1) \amalg Y \sim N(0,1) 私はそれが膨張した関連を引き起こす繰り返しの観察に関係しているのではないかと思ったので、比較のために、以下のコードで他の2つのアプローチを試しました(コメントアウト)。方法2では、を修正してから、を元のデータセットのOLSモデルからのリサンプリングされた残差で置き換えます。方法3では、置換せずにランダムなサブサンプルを描画します。これらの選択肢はどちらも機能します。つまり、それらの仮説テストでは、ヌルが5%の確率で拒否されます。YバツXXYYY 私の質問:繰り返しの観察が原因だと思いますか?もしそうなら、これがブートストラップへの標準的なアプローチであるとすれば、どこで標準的なブートストラップ理論に正確に違反しているのでしょうか? アップデート#1:より多くのシミュレーション さらに単純なシナリオである切片のみの回帰モデルを試しました。同じ問題が発生します。YYY # note: simulation takes 5-10 min on my laptop; can reduce boot.reps # and n.sims.run if wanted # set the number of cores: can change this to match your machine library(doParallel) registerDoParallel(cores=8) …

1
ブートストラップ:推定値が信頼区間外です
私は混合モデル(相互作用を持ついくつかの変数と1つの確率変数)でブートストラップを行いました。私はこの結果を得ました(部分的なのみ): > boot_out ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = a001a1, statistic = bootReg, R = 1000) Bootstrap Statistics : original bias std. error t1* 4.887383e+01 -1.677061e+00 4.362948e-01 t2* 3.066825e+01 1.264024e+00 5.328387e-01 t3* 8.105422e+01 2.368599e+00 6.789091e-01 t4* 1.620562e+02 4.908711e+00 1.779522e+00 ...... 次に、切片の信頼区間を取得したいと思います。 > boot.ci(boot_out,type=c("norm","basic","perc"), index=1) BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.