統計とビッグデータ bootstrap

1

強力なクラスタリングが存在するデータで使用する適切なブートストラップ手法に関する質問があります。私は、最新の請求データに基づいて現在のベースラインモデルをスコアリングすることにより、保険請求データの多変量混合効果予測モデルを評価するタスクを担当しました95パーセンタイル）。モデルの有効性を評価するために、感度、特異性、および正の予測値（PPV）が使用されます。ブートストラップは、感度、特異性、PPVの割合の信頼区間を構築する正しい方法のようです。残念なことに、素朴なブートストラップは、請求データが1）ケア提供者によって相関付けられていること、2）ケアのエピソードの数か月前に頻繁に訪問するケアのエピソードにグループ化されているため、適切ではありません（そのため、自己相関が存在します）。ムービングブロックブートストラップテクニックのバリエーションはここで適切でしょうか？または、3段階のブートストラップ手順が機能する可能性があります：1）データ内の個別のプロバイダーからの置換のサンプル、2）選択したプロバイダーによる個別のケアエピソードの置換のサンプル、3）各内の個別のクレームからの置換のサンプル選択したエピソード。ご提案ありがとうございます！

16 bootstrap random-effects-model mixed-model

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

ブートストラップを使用して、ノンパラメトリックテストを置き換えることはできますか？

私は統計にかなり不慣れです。ブートストラップの概念は私を混乱させています。 t検定などの特定の検定を使用するには、サンプリング分布の正規性が必要であることを知っています。データが正常に配信されない場合、SPSSのt検定で「ブートストラップ」を要求することにより、非正規の問題を回避できますか？ある場合、ブートストラップされたサンプリング分布に基づいて出力で報告されるt統計はありますか？また、非正常なデータがある場合に、Mann-WhitneyやKruskal-Wallisなどのノンパラメトリックテストを使用する場合と比較して、これはより良いテストでしょうか？データが正常ではなく、ブートストラップを使用している状況では、t統計を報告しません。

15 nonparametric bootstrap

2

「ブートストラップ検証」（別名「相互検証の再サンプリング」）の手順は何ですか？

「ブートストラップ検証」/「相互検証の再サンプリング」は私にとっては新しいものですが、この質問に対する答えで議論されました。私が収集するのは、2種類のデータです：実データとシミュレートデータ。シミュレートデータが実データと同じサイズになるまで、置換によるリサンプリングによって実データから与えられたシミュレートデータのセットが生成されます。そのようなデータ型を使用するための2つのアプローチを考えることができます。（2）多くのシミュレートされたデータセットのそれぞれを使用してモデルを何度も適合させ、毎回それを実際のデータに対して評価します。どちらが最適ですか？

15 cross-validation bootstrap validation resampling

2

scikit-learnブートストラップ関数がテストセットをリサンプルするのはなぜですか？

モデルの評価にブートストラップを使用するとき、私は常に、out-of-bagのサンプルがテストセットとして直接使用されると思っていました。ただし、これは非推奨の scikit-learnBootstrapアプローチの場合には当てはまらないようです。これは、out-of-bagデータサブセットからの置き換えで描画からテストセットを構築しているようです。これの背後にある統計的推論は何ですか？この手法が、out-of-bag-sampleで評価するよりも優れている、またはその逆の特定のシナリオはありますか？

15 cross-validation bootstrap random-forest scikit-learn bagging

2

ブートストラップのリサンプリングに関する最高の推奨教科書？

私は、あなたの意見では、ブートストラップに関する最も入手可能な本がどれであるかを尋ねたかっただけです。これにより、必ずしもその開発者によって書かれたものを意味するわけではありません。次の基準をカバーするブートストラップに最適な教科書を教えてください。適用可能性、長所と短所、モデル選択の重要性のドメインをリストする技術の哲学的/認識論的基礎？実装、哲学的基盤、できればMatlabを使用した簡単な例

14 sampling model-selection bootstrap references resampling

3

ブートストラップ：オーバーフィットの問題

元の観測値からそれぞれサイズサンプルを置き換えて描画することにより、いわゆるノンパラメトリックブートストラップを実行するとします。この手順は、経験累積分布関数による累積分布関数の推定と同等であると思います。BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function そして、連続した推定累積分布関数回から回の観測値をシミュレートして、ブートストラップサンプルを取得します。nnnBBB 私がこれに正しければ、経験的累積分布関数には約N個のパラメーターがあるため、過剰適合の問題に対処する必要があります。もちろん、漸近的に母集団cdfに収束しますが、有限サンプルについてはどうでしょうか？たとえば、100個の観測値があり、2つのパラメーターを使用してcdfをとして推定する場合、心配する必要はありません。ただし、パラメーターの数が100に達する場合、まったく妥当とは思えません。N(μ,σ2)N(μ,σ2)N(\mu, \sigma^2) 同様に、標準の多重線形回帰を使用する場合、誤差項の分布はとして推定されます。残差のブートストラップに切り替えることにした場合、エラー項の分布を処理するためだけに約 n個のパラメーターが使用されることに気づかなければなりません。N(0,σ2)N(0,σ2)N(0, \sigma^2)nnn この問題に明示的に対処しているいくつかの情報源を教えてもらえますか、間違っていると思われる場合はなぜ問題ではないのか教えてください。

14 bootstrap sample-size sample small-sample finite-population

3

パラメトリックおよびノンパラメトリックブートストラップに関する質問

私はケビン・マーフィーの本「機械学習-確率論的展望」から頻繁な統計に関する章を読んでいます。ブートストラップのセクションは次のとおりです。ブートストラップは、サンプリング分布を近似する単純なモンテカルロ法です。これは、推定器が真のパラメーターの複雑な関数である場合に特に役立ちます。アイデアはシンプルです。真のパラメーターわかっていれば、s = 1の場合、真の分布x_i ^ s \ sim p（・|θ^ ∗）から、それぞれサイズNのθ∗θ∗θ^∗多くの（たとえばSSS）偽データセットを生成できます。 S、私は= 1：N。その後、各サンプル\ hat {\ theta ^ s} = f（x ^ s_ {1：N}）から推定量を計算し、結果のサンプルの経験的分布をサンプリング分布の推定値として使用できます。以来、シータが\未知である、という考えパラメトリックブートストラップを使用してサンプルを生成することである{\シータ}（D）\帽子代わり。NNNxsi∼p(⋅|θ∗)xis∼p(·|θ∗)x_i^s \sim p (·| θ^∗ )s=1:S,i=1:Ns=1:S,i=1:Ns = 1 : S, i = 1 : Nθs^=f(xs1:N)θs^=f(x1:Ns)\hat{\theta^s}=f (x^s_{1:N})θθ\thetaθ^(D)θ^(D)\hat{\theta}(D) ノンパラメトリックブートストラップと呼ばれる別の方法は、元のデータDからxsixisx^s_i（置換あり）をサンプリングし、以前のように誘導分布を計算することです。大規模なデータセットに適用した場合にブートストラップを高速化する方法については、（Kleiner et al。2011）で説明しています。DDD 1。テキストは言います：真のパラメータ\ theta ^ *がわかっていればθ∗θ∗\theta^*、各サンプル\ hat {\ …

14 bootstrap frequentist

2

方法：ブートストラップによる線形回帰の予測間隔

使い方がわからないブートストラップをして線形回帰モデルの予測間隔を計算。誰かがステップバイステップの手順を概説できますか？私はグーグルで検索しましたが、何も本当に意味がありません。モデルパラメータの信頼区間を計算するためにブートストラップを使用する方法を理解しています。

14 regression bootstrap prediction-interval

1

時系列をリサンプリングするこの方法は文献で知られていますか？名前はありますか？

私は最近、時系列をリサンプリングする方法を探していました。長いメモリプロセスの自己相関をほぼ維持します。観測のドメインを保持します（たとえば、整数のリサンプリングされた時系列は、整数の時系列のままです）。必要に応じて、一部のスケールのみに影響する場合があります。長さ時系列に対して次の順列スキームを思い付きました。2N2N2^N 連続する観測値のペアで時系列をビン化します（このようなビンは個あります2N−12N−12^{N-1}）。それらの各（フリップフロッすなわちからインデックス1:2の2:1独立確率で）1/21/21/2。得られた時系列を連続した444観測値でビン化します（個の2N−22N−22^{N-2}ビンがあります）。（それらの各々逆、すなわちからインデックスを1:2:3:4する4:3:2:1確率でindependelty）1/21/21/2。サイズのビンと同じ手順を繰り返し888、161616、...、2N−12N−12^{N-1}常に確率でビンを逆転させる1/21/21/2。このデザインは純粋に経験に基づいたものであり、この種の順列で既に公開されているであろう作品を探しています。また、他の順列やリサンプリングスキームの提案も受け付けています。

14 time-series bootstrap resampling permutation-test

1

bcaメソッドを使用して信頼区間を計算すると、Rブートパッケージから「推定調整 'a'はNA」というエラーが生成されるのはなぜですか？

dputを使用してここにアップロードした数値のベクトル（... / code / MyData.Rdata）があります。 bca ciを取得したいので、次のコードを記述しました。 my.mean <- function(dat, idx){ return (mean(dat[idx], na.rm = TRUE)) } boot.out<-boot(data=my.data, statistic = my.mean, R=1000) しかし、私が以下を実行すると、これが得られます： > boot.ci(boot.out) Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o, : estimated adjustment 'a' is NA In addition: Warning message: In …

14 r bootstrap

3

ブートストラップが便利なのはなぜですか？

あなたがしているのが経験的分布から再サンプリングするだけなら、なぜ経験的分布を研究するだけではありませんか？たとえば、繰り返しサンプリングによって変動性を調べる代わりに、経験的分布から変動性を定量化するだけではどうですか？

13 machine-learning mathematical-statistics sampling bootstrap resampling

4

機械学習アルゴリズムの予測間隔

以下に説明するプロセスが有効/許容可能であり、正当な理由があるかどうかを知りたい。考え方：教師あり学習アルゴリズムは、データの基礎となる構造/分布を想定していません。一日の終わりに、彼らはポイント推定値を出力します。推定の不確実性を何らかの形で定量化したいと考えています。現在、MLモデルの構築プロセスは本質的にランダムです（たとえば、ハイパーパラメーターチューニングの相互検証のサンプリングや、確率論的GBMのサブサンプリングなど）。したがって、モデリングパイプラインは、異なる予測子ごとに異なるシードの異なる出力を生成します。私の（素朴な）アイデアは、このプロセスを何度も繰り返して予測の分布を考え出すことであり、予測の不確実性について声明を出すことができれば幸いです。問題があれば、私が扱うデータセットは通常非常に小さい（〜200行）。これは理にかなっていますか？明確にするために、私は実際には伝統的な意味でデータをブートストラップしていません（つまり、データを再サンプリングしていません）。すべての反復で同じデータセットが使用されます。xvalと確率的GBMのランダム性を利用しています。

13 machine-learning confidence-interval bootstrap supervised-learning gbm

1

パラメトリックブートストラップを使用する理由

現在、パラメトリックブートストラップに関するいくつかの問題を回避しようとしています。ほとんどのことはおそらくささいなことですが、私はまだ何かを見逃しているかもしれません。パラメトリックブートストラップ手順を使用してデータの信頼区間を取得するとします。そのため、私はこのサンプルを入手し、その正規分布を仮定しています。私はその後、分散推定ますVと平均値Mを、私の分布推定値取得Pだけ明らかにされ、N （M、Vを）。v^v^\hat{v}m^m^\hat{m}P^P^\hat{P}N(m^,v^)N(m^,v^)N(\hat{m},\hat{v}) その分布からサンプリングする代わりに、分位数を分析的に計算して実行することができます。 a）結論：この些細なケースでは、パラメトリックブートストラップは正規分布の仮定で物事を計算するのと同じでしょうか？理論的には、計算を処理できる限り、すべてのパラメトリックブートストラップモデルに当てはまります。 b）結論：特定の分布の仮定を使用すると、ノンパラメトリックブートストラップよりもパラメトリックブートストラップの精度が向上します（もちろん正しい場合）。しかし、それ以外は、分析計算を処理できず、それから抜け出す方法をシミュレートしようとするためです。 c）計算が「通常」何らかの近似を使用して行われる場合にも使用します。これにより、おそらくより正確になります...？私にとって、（ノンパラメトリック）ブートストラップの利点は、ディストリビューションを想定する必要がないという事実にあるように見えました。パラメトリックブートストラップの場合、その利点は失われますか、それとも私が見逃したものがあり、パラメトリックブートストラップが上記のものよりも利点があるのでしょうか。

13 nonparametric bootstrap simulation monte-carlo parametric

1

ブートストラップ標準誤差と信頼区間は、等分散性の仮定に違反する回帰で適切ですか？

標準のOLS回帰で2つの仮定（エラーの正規分布、等分散性）に違反する場合、標準誤差と信頼区間のブートストラップは、リグレッサ係数の有意性に関して意味のある結果を得るための適切な代替手段ですか？ブートストラップされた標準誤差と信頼区間を使用した有意性検定は、依然として不均一分散で「機能」していますか？「はい」の場合、このシナリオで使用できる適用可能な信頼区間は何ですか（パーセンタイル、BC、BCA）。最後に、このシナリオでブートストラップが適切な場合、この結論に到達するために読んで引用する必要がある関連文献は何でしょうか？ヒントは大歓迎です！

13 regression bootstrap least-squares heteroscedasticity

タグ付けされた質問 「bootstrap」

タグ付けされた質問「bootstrap」