統計とビッグデータ bootstrap

11

最近、ブートストラップを使用して、プロジェクトの信頼区間を推定しました。統計についてあまり知らない人が最近、ブートストラップが機能する理由、つまり、同じサンプルを何度もリサンプリングすると良い結果が得られる理由を説明するように頼まれました。使い方を理解するのに多くの時間を費やしましたが、ブートストラップが機能する理由を本当に理解していないことに気付きました。具体的には、サンプルからリサンプリングしている場合、サンプルだけでなく母集団について何かを学んでいるというのはどうですか？そこには、直観に反する飛躍があるようです。ここで、この質問に対するいくつかの答えを見つけました。特にこれ。私は統計の「消費者」であり、統計学者ではありません。私は統計よりも統計についてあまり知らない人々と仕事をしています。だから、誰かが、最小限の定理などへの言及で、ブートストラップの背後にある基本的な理由を説明できますか？つまり、隣人に説明しなければならないとしたら、何と言いますか？

326 bootstrap communication

4

ブートストラップの.632+ルールとは何ですか？

ここで、 @ gungは.632+ルールを参照します。Googleで簡単に検索しても、このルールの意味と使用目的について理解しやすい答えは得られません。誰かが.632+ルールを解明していただけますか？

107 bootstrap

5

予測エラーを推定するためのクロス検証とブートストラップの違い

クロスバリデーションとブートストラップの違いについて、予測エラーを推定するためにあなたの考えをお願いします。データセットのサイズが小さい場合や大きなデータセットの場合はうまく機能しますか？

102 cross-validation predictive-models bootstrap

3

「単純なブートストラップ」が失敗する例は何ですか？

未知の分布または複雑な分布からのサンプルデータのセットがあり、データの統計に対して何らかの推論を実行するとします。私のデフォルトの傾きはちょうど交換とブートストラップサンプルの束を生成し、そして私の統計を計算することであるための推定分布を作成するために、各ブートストラップ標本に。TTTTTTTTT これが悪い考えである例は何ですか？たとえば、このブートストラップの単純な実行が失敗する場合の1つは、時系列データでブートストラップを使用しようとしている場合です（たとえば、重要な自己相関があるかどうかをテストするため）。上記のナイーブブートストラップ（元のシリーズからの置換でサンプリングすることにより、n番目のブートストラップサンプルシリーズの番目のデータポイントを生成）は、元の時系列の構造を無視するため、お勧めできません。ブロックブートストラップのような、より手の込んだブートストラップテクニックを取得します。iii 別の言い方をすれば、「置換によるサンプリング」以外にブートストラップには何がありますか？

86 hypothesis-testing confidence-interval bootstrap

3

例：バイナリ結果にglmnetを使用したLASSO回帰

私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

リサンプリング/シミュレーション方法：モンテカルロ、ブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、および順列テスト

さまざまなリサンプリング方法（モンテカルロシミュレーション、パラメトリックブートストラップ、ノンパラメトリックブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、置換テスト）とRを使用した独自のコンテキストでの実装の違いを理解しようとしています。次のような状況があるとしましょう。Y変数（Yvar）とX変数（Xvar）を使用してANOVAを実行します。Xvarカテゴリーです。次のことに興味があります。（1）p値の重要性–偽発見率（2）Xvarレベルの効果サイズ Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) これらのリサンプリング方法がどのように機能するかを明示した実例で、サンプリングの違いを説明してください。編集：私の試みは次のとおりです。ブートストラップ 10ブートストラップサンプル、サンプルのサンプル番号、交換、サンプルを繰り返すことができることを意味します boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] b.df …

74 r bootstrap resampling jackknife permutation-test

4

ブートストラップは、小さなサンプルサイズの「治療」と見なすことができますか？

この質問は、私がこの大学院レベルの統計教科書で読んだものによって引き起こされ、統計セミナーでのこのプレゼンテーション中に（独立して）聞いたこともあります。どちらの場合も、ステートメントは「サンプルサイズがかなり小さいため、このパラメトリックメソッド代わりに（またはそれに沿って）ブートストラップを介して推定を実行する」という行に沿っていました。XXX 彼らは詳細には触れませんでしたが、おそらくその理由は次のとおりでした。メソッドは、データが特定のパラメトリック分布従うと仮定します。実際には、分布は正確にはではありませんが、サンプルサイズが十分に大きければ問題ありません。この場合、サンプルサイズが小さすぎるため、分布を仮定しない（ノンパラメトリック）ブートストラップに切り替えましょう。問題が解決しました！XXXDDDDDD 私の意見では、それはブートストラップの目的ではありません。私がそれを見る方法は次のとおりです：十分なデータがあることが多かれ少なかれ明らかな場合、ブートストラップは1つにエッジを与えることができますが、標準エラー、p値および同様の統計を取得するための閉じた形式のソリューションはありません。古典的な例は、2変量正規分布からサンプルを与えられた相関係数のCIを取得することです。閉形式の解は存在しますが、ブートストラップがより複雑になるほど複雑です。ただし、ブートストラップが小さなサンプルサイズで逃げるのに何らかの形で役立つことを意味するものは何もありません。私の知覚は正しいですか？この質問がおもしろい場合は、別のより具体的なブートストラップの質問があります。ブートストラップ：オーバーフィットの問題 PS「ブートストラップアプローチ」のひどい例の1つを共有することはできません。著者の名前は公開していませんが、2004年にクオンティティブファイナンスに関する本を書いた古い世代の「クオンツ」の1人です。例はそこから引用しています。次の問題を考えてみましょう。4つの資産と、それぞれ120の月次リターン観測値があるとします。目標は、年間収益の結合4次元累積分布関数を構築することです。1つの資産であっても、4次元cdfの推定はもちろんのこと、年10回の観測だけではタスクはほとんど達成できないように見えます。しかし、心配する必要はありません。「ブートストラップ」が役立ちます。利用可能な4次元の観測値をすべて取得し、12を置換でリサンプリングし、それらを組み合わせて、年間収益の単一の「ブートストラップ」4次元ベクトルを構築します。それを1000回繰り返して、見よ、あなたは自分自身に1000年の年次リターンの「ブートストラップサンプル」を得た。これをcdf推定、または1000年の歴史から導き出せるその他の推論のために、サイズ1000のiidサンプルとして使用します。

71 bootstrap small-sample

4

不確実性のブートストラップ推定に関する仮定

不確かさの推定値を取得する際のブートストラップの有用性は高く評価されますが、それについて常に悩まされることの1つは、それらの推定値に対応する分布がサンプルで定義された分布であることです。一般に、サンプル周波数が基礎となる分布とまったく同じであると信じるのは悪い考えのように思えますが、サンプル周波数が基礎となる分布を定義する分布に基づいて不確実性の推定値を導き出すのはなぜ聞こえる/受け入れられるのでしょうか？一方で、これは私たちが通常行う他の分布の仮定よりも悪いことはないかもしれませんが、正当性をもう少しよく理解したいと思います。

62 bootstrap uncertainty

1

ブートストラップとジャックナイフ

ブートストラップ法とジャックナイフ法の両方を使用して、推定値の偏りと標準誤差を推定することができ、両方のリサンプリング法のメカニズムは大きな違いはありません。ただし、ジャックナイフは、研究と実践においてブートストラップほど人気がありません。ジャックナイフを使用する代わりにブートストラップを使用することの明らかな利点はありますか？

49 r confidence-interval bootstrap jackknife

3

対数変換された予測子および/または応答の解釈

従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのかと思います。の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

3

ベイジアンの観点からブートストラップを解釈することは可能ですか？

わかりました、これは夜に私を維持する質問です。ブートストラップ手順は、ベイジアン手順を近似していると解釈できますか（ベイジアンブートストラップを除く）。私は、統計のベイジアンの「解釈」が本当に好きです。ただし、ブートストラップ手順の弱点もあります。これは非常に単純ですが、多くの状況で妥当な推論を提供します。ただし、ブートストラップが何らかの意味で事後分布に近似していることを知っていれば、ブートストラップにもっと満足するでしょう。「Bayesian bootstrap」（Rubin、1981）は知っていますが、私の観点からすると、このバージョンのブートストラップは標準のブートストラップと同じくらい問題があります。問題は、古典的なブートストラップとベイジアンブートストラップの両方を行うときに行う、本当に独特なモデルの仮定です。つまり、分布の可能な値は、すでに見た値のみです。これらの奇妙なモデルの仮定は、ブートストラップ手順がもたらす非常に合理的な推論をどのようにしてもたらすことができますか？私はブートストラップの特性を調査した記事を探していました（例えば、Weng、1989）が、満足できる明確な説明が見つかりませんでした。参照資料ドナルド・B・ルービン（1981）。ベイジアンブートストラップ。アン。統計学者。ボリューム9、ナンバー1、130-134。 Chung-Sing Weng（1989）。ベイジアンブートストラップ平均の二次漸近特性について統計学年報、Vol。１７、Ｎｏ．２、ｐｐ．７０５〜７１０。

43 bayesian bootstrap

5

平均して、各ブートストラップサンプルに約3分の2の観測が含まれているのはなぜですか？

私は、各ブートストラップサンプル（またはバギングされたツリー）に平均約の観測値が含まれるという主張に出くわしました。2/32/32/3 置換されたサンプルからの描画のいずれでも選択されない可能性はであり、選択されない可能性は約になると理解しています。nnnnnn(1−1/n)n(1−1/n)n(1- 1/n)^n1/31/31/3 この式が常にを与える理由の数学的な説明は何ですか？≈1/3≈1/3\approx 1/3

42 bootstrap

1

ブートストラップまたはモンテカルロアプローチを使用して重要な主成分を決定する方法は？

主成分分析（PCA）または経験的直交関数（EOF）分析から得られる重要なパターンの数を特定することに興味があります。この方法を気候データに適用することに特に興味があります。データフィールドはMxN行列で、Mは時間次元（例：日）、Nは空間次元（例：経度/緯度）です。重要なPCを判別するための可能なブートストラップ方法を読みましたが、より詳細な説明を見つけることができませんでした。これまで、私はこのカットオフを決定するために、Northの経験則（North et al。例として： ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 <- matrix(sp1, length(x), length(y)) image(x,y,tmp1) sp2 <- grd$x^2+grd$y^2 tmp2 <- matrix(sp2, length(x), length(y)) image(x,y,tmp2) sp3 <- 10*grd$y tmp3 <- matrix(sp3, length(x), length(y)) image(x,y,tmp3) #3 respective temporal patterns …

40 r pca bootstrap monte-carlo

6

ブートストラップサンプルの数の経験則

データの特性（観測数など）および/または含まれる変数に基づいて、使用すべきブートストラップサンプルの数に関する一般的な経験則を誰かが知っているのだろうか？

40 bootstrap inference monte-carlo

3

ブートストラップされたリサンプルから取得した信頼区間の意味は何ですか？

私はこのサイトでブートストラップと信頼区間に関する多くの質問を見てきましたが、私はまだ混乱しています。混乱の原因の1つは、多くの答えを理解できるほど統計知識が十分に進歩していないことでしょう。私は入門的な統計コースのほぼ半分で、数学のレベルは中世代数II程度であるため、そのレベルを超えると混乱を招きます。このサイトの知識のある人が私のレベルでこの問題を説明できれば、非常に役立ちます。クラスでは、ブートストラップメソッドを使用してリサンプルを取得し、それらを使用して、測定する統計の信頼区間を構築する方法を学習していました。したがって、たとえば、大規模な母集団からサンプルを取得し、40％が候補者Aに投票すると答えたとします。このサンプルは元の母集団をかなり正確に反映していると仮定します。人口について何かを発見するために。したがって、リサンプルを取得し、（95％の信頼レベルを使用して）結果の信頼区間が35％から45％の範囲であることを見つけます。私の質問は、この信頼区間は実際にはどういう意味ですか？（Frequentist）Confidence Intervalsと（Bayesian）Credible Intervalsには違いがあることを読み続けます。正しく理解すれば、信頼できる間隔は、私たちの状況では真のパラメーターが指定された間隔（35％-45％）内にある95％の可能性があると言い、信頼区間はこれに 95％あると言います状況のタイプ（ただし、必ずしも特定の状況である必要はありません）使用しているメソッドは、真のパラメーターが指定された間隔内にあることを正確に報告します。この定義が正しいと仮定すると、私の質問は次のとおりです。ブートストラップメソッドを使用して構築された信頼区間を使用する場合に話している「真のパラメーター」とは何ですか。（a）元の母集団の真のパラメーター、または（b）サンプルの真のパラメーターを参照していますか？（a）の場合、95％の確率で、ブートストラップメソッドは元の母集団に関する真のステートメントを正確に報告します。しかし、どうしてそれを知ることができるのでしょうか？ブートストラップ方法全体が仮定に基づいていないか元のサンプルは、それが取られた母集団の正確な反映であると？（b）の場合、信頼区間の意味がまったくわかりません。サンプルの真のパラメーターは既にわかっていませんか？それは簡単な測定です！私はこれを先生と話しましたが、彼女はとても役に立ちました。しかし、私はまだ混乱しています。

38 confidence-interval bootstrap

タグ付けされた質問 「bootstrap」

タグ付けされた質問「bootstrap」