タグ付けされた質問 「bootstrap」

ブートストラップは、統計のサンプリング分布を推定するためのリサンプリング手法です。

2
クラスターレベルまたは個別レベルでブートストラップする必要がありますか?
私は病院に入れ子にされた患者の生存モデルを持っています。これには病院のランダム効果が含まれます。ランダム効果はガンマ分布であり、私はこの用語の「関連性」を簡単に理解できる尺度で報告しようとしています。 中央ハザード比(中央値オッズ比に少し似ています)を使用する次の参照を見つけ、これを計算しました。 Bengtsson T、Dribe M:歴史的方法43:15、2010 ただし、ここで、ブートストラップを使用してこの推定に関連する不確実性を報告したいと思います。データは生存データであるため、患者ごとに複数の観測値があり、病院ごとに複数の患者があります。再サンプリング時に患者の観察をクラスタリングする必要があることは明らかです。しかし、病院をクラスタ化する必要があるかどうかもわかりません(つまり、患者ではなく病院をリサンプルしますか? 答えが関心のあるパラメーターに依存するかどうか疑問に思っています。したがって、ターゲットが病院レベルではなく患者レベルで関連性のあるものである場合、結果は異なりますか? それが役立つ場合に備えて、以下のstataコードをリストしました。 cap program drop est_mhr program define est_mhr, rclass stcox patient_var1 patient_var2 /// , shared(hospital) /// noshow local twoinvtheta2 = 2 / (e(theta)^2) local mhr = exp(sqrt(2*e(theta))*invF(`twoinvtheta2',`twoinvtheta2',0.75)) return scalar mhr = `mhr' end bootstrap r(mhr), reps(50) cluster(hospital): est_mhr

2
ブートストラップを使用できますか、それはなぜですか?
現在、衛星画像を使用してバイオマス推定に取り組んでいます。質問の背景を簡単に定義してから、取り組んでいる統計的な質問について説明します。 バックグラウンド 問題 フランスのある地域のバイオマスを推定しようとしています。私の応答はスチームウッドの体積密度()で、これはバイオマスにほぼ比例します(木材の密度によって異なります...)。m3/ham3/ham^3/ha 私が持っている独立変数は、この領域で測定された反射率から導き出された植生指数です(調査で使用された衛星は、それを知っている人のためのMODISです)。これらのインデックスは、たとえばNDVI、EVIなどです。インデックスのマップがあり、マップの解像度は250mです。 これらの指標と同じ森林タイプ(バイオームと気候)のボリュームとの間には強い相関があります。したがって、ボリュームがわかっている在庫プロットで、これらのインジケーター(実際にはそれらの時系列)に対してボリューム密度を後退させようとしています。 森林目録 これらのプロットのボリュームは、次のサンプリング方法で推定されます。 在庫ノードは、エリアをカバーする通常のグリッドに配置されます。 プロットは各ノードにアタッチされ、インベントリプロセス(ツリータイプ、ボリューム、キャノピーの高さなど)がこのプロットで発生します。もちろん、私はインベントリプロットだけに関心があり、植生インデックスの値は、プロットを含むピクセルの値です。 プロットのインベントリプロセスは次のとおりです。 半径15mの円の中で直径が37.5cmを超える木の測定 半径9mの円で直径が22.5cmを超える木の測定 半径6mの円で直径が7.5cmを超える木の測定 次に、体積密度は膨張係数を使用して計算されます。 各プロットについて、測定されたすべてのツリーのデータにアクセスできます。 さらに、単一のツリーごとに、相対成長方程式(10%としましょう)を使用しているため、ボリュームが不確実です。 統計が重要な場合... 回帰をより正確にするために、ボリュームの各推定値に対して、この測定の分散/ CIが必要です。これは、IMOで、サンプリングされた木の数と見つかったボリューム密度に依存します。 だから私は2つの問題があります: 私の植生指数が250mのピクセルで測定されているという事実を説明するにはどうすればよいですか? 体積密度は1ピクセルで一定であり、1つのインベントリプロットでこのピクセルをサンプリングすると想定できます。 体積密度の変動性を推定する方法は? 私は木の人口にブートストラップを使うことができると思います。しかし、測定した木の総数はかなり少なくなる可能性があります(7から20 ...)。さらに、サイズに応じて異なる円上の木を測定しているという事実をどのように考慮できますか?また、ピクセル全体を見ていると、変動性はどのように変化しますか? また、モンテカルロシミュレーションを使用して森をシミュレートし、この森をプロットでランダムにサンプリングして、何が起こっているのかを確認できると考えていました... 私は強い統計的背景を持っていないので、少し迷っています!
10 bootstrap 

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
リサンプリングに適したテキストですか?
グループは、適用されたリサンプリング手法に適切な紹介テキスト/リソースを推奨できますか?具体的には、正規性などの仮定に明らかに違反している場合にグループを比較するために、従来のパラメトリック検定(t検定、ANOVA、ANCOVAなど)の代替案に興味があります。 解決するためのより良い方法について自分自身を教育したい問題の種類の例には、次のようなものが含まれます。 I) 2グループ:治療と管理 依存変数:介入後の口座残高の変化 共変量:介入前勘定残高のドル。 ANCOVAの適用に関する問題:多くの被験者には変化がありません(多くのゼロ)。 II) 2グループ:治療と管理 依存変数:新しいアカウントが追加されました 共変量:介入前のアカウント数。 *多くの被験者にはアカウントが追加されません(多くのゼロ)。 ブートストラップを使用できますか?順列検定?これは、ノンパラメトリックリサンプリング手法を適用したいタイプの分析です。

2
階層データからのブートストラップ信頼区間の取得と解釈
数量Xのブートストラップされた信頼区間を取得することに興味があります。この数量が10人の個人ごとに10回測定される場合です。 1つのアプローチは、個人ごとの平均を取得し、平均をブートストラップすることです(たとえば、置換で平均を再サンプリングする)。 別のアプローチは、ブートストラップ手順の各反復で次のことを行うことです。各個人内で、その個人の10個の観測値を置き換えてリサンプリングし、その個人の新しい平均を計算し、最後に新しいグループ平均を計算します。このアプローチでは、元のデータセットで観察された各個人が、ブートストラップ手順の各反復で常にグループ平均に寄与します。 最後に、3番目のアプローチは、上記の2つのアプローチを組み合わせることです。個体をリサンプリングしてから、それらの個体内でリサンプリングします。このアプローチは、同じ個人が各反復でグループ平均に乗算することを可能にするという点で、前述のアプローチとは異なりますが、各寄与は独立したリサンプリング手順によって生成されるため、これらの寄与は互いにわずかに異なると予想される場合があります。 実際には、これらのアプローチでは信頼区間の推定値が異なることがわかります(たとえば、1つのデータセットを使用すると、3番目のアプローチは最初の2つのアプローチよりもはるかに大きな信頼区間をもたらすことがわかります)。表現すると解釈されます。

3
ブートストラップ回帰から係数のp値を取得するにはどうすればよいですか?
Robert KabacoffのQuick-Rから # Bootstrap 95% CI for regression coefficients library(boot) # function to obtain regression weights bs <- function(formula, data, indices) { d <- data[indices,] # allows boot to select sample fit <- lm(formula, data=d) return(coef(fit)) } # bootstrapping with 1000 replications results <- boot(data=mtcars, statistic=bs, R=1000, formula=mpg~wt+disp) # view …

3
残差のブートストラップ:私はそれを正しく行っていますか?
まず、 私が理解したことから、残差のブートストラップは次のように機能します。 モデルをデータに合わせる 残差を計算する 残差を再サンプリングし、それらを1に追加します。 モデルを3からの新しいデータセットに適合させます。 n時間を繰り返しますが、常にリサンプリングされた残差を1からの近似に追加します。 これまでのところ正しいですか? 私がやりたいことは少し違うものです: 環境変数を推定するアルゴリズムのパラメーターと予測の不確実性を推定したい。 私が持っているのは、その変数の(シミュレーションからの)エラーのない時系列です。合成データセットを生成するために、x_trueそれにノイズを追加します。次に、アルゴリズムを二乗和(!ではなく!)を目的関数としてフィッティングして、最適なパラメーターを見つけようとします。アルゴリズムの動作を確認し、パラメーターの分布のサンプルを作成するために、を再サンプリングし、それをに追加し、モデルを再度フィッティングし、リンスして繰り返します。それはパラメータの不確実性を評価するための有効なアプローチですか?ブートストラップされたデータセットへの適合を予測の不確実性として解釈できますか、それとも上に投稿した手順に従う必要がありますか?x_noisexsum((x_estimate - x_true)^2)x_estimate - xx_noisex_true / edit:私は自分のモデルが何をしているのか明確にしていないと思います。それは本質的にノイズ除去方法のようなものと考えてください。これは予測モデルではなく、ノイズの多い時系列の環境データの根本的な信号を抽出しようとするアルゴリズムです。 / edit ^ 2:そこにいるMATLAB-Usersのために、私が何を意味するのかについての簡単で汚い線形回帰の例を書き留めました。 これは、「通常の」残差のブートストラップが正しいと私が信じていることです(間違っている場合は修正してください):http : //pastebin.com/C0CJp3d1 これは私がしたいことです:http://pastebin.com/mbapsz4c

1
ブートストラップ有意性検定の2つの方法
ブートストラップを使用して、2つの方法を使用して有意差検定のp値を計算します。 帰無仮説の下でリサンプリングし、元のデータからの結果と少なくとも同じくらい極端な結果をカウントする 対立仮説の下でリサンプリングし、帰無仮説に対応する値と少なくとも元の結果から離れた結果​​をカウントする 最初のアプローチは、p値の定義に従っているため、完全に正しいと思います。2番目についてはよくわかりませんが、通常は非常によく似た結果が得られ、Waldテストを思い出させます。 私は正しいですか?どちらの方法も正しいですか?それらは同じですか(大きなサンプルの場合)? 2つの方法の例(DWinの質問とErikの回答の後に編集): 例1. 2つのサンプルのT検定に似たブートストラップ検定を作成してみましょう。方法1は、1つのサンプルからリサンプリングします(元の2つをプールすることによって取得されます)。方法2では、両方のサンプルから個別にリサンプリングします。 例2.x₁…xₐとy₁…yₐ間の相関のブートストラップテストを作成してみましょう。方法1は、相関がないと仮定し、(xₑ、yₔ)ペアを考慮してリサンプリングします。ここでe≠əです。方法2は、元の(x、y)ペアのブートストラップサンプルをコンパイルします。 例3.コインが公正かどうかを確認するブートストラップテストを作成してみましょう。方法1では、Pr(head)= Pr(tail)=½を設定してランダムサンプルを作成します。方法2は、実験的なヘッド/テール値のサンプルをリサンプリングし、比率をtoと比較します。

1
どのブートストラップ回帰モデルを選択すればよいですか?
私は、DV(病気:はい/いいえ)と5つの予測因子(人口統計[年齢、性別、喫煙(はい/いいえ)]、医療指標(通常)、1つのランダムな処理[はい/いいえ]のバイナリロジスティック回帰モデルを持っています])。また、すべての両側相互作用項をモデル化しました。主な変数は中央に配置され、多重共線性の兆候はありません(すべてのVIF <2.5)。 いくつか質問があります。 ブートストラップは私の単一のモデルよりも有利ですか?もしそうなら、 どのブートストラップモデルを選択すればよいですか?私は、ブートストラップアルゴリズムが新しいサンプルを作成するためのランダムな方法に従っているかどうか、または厳密なアルゴリズムがあるかどうかを確認したかっただけです。したがって、私は各試行で1000回リサンプリングしました(そのため、ブートストラップされたモデルがいくつかあり、それぞれに1000回の試行があります)。ただし、ブートストラップモデルの係数は毎回異なります(ただし、試行回数は常に1000です)。だから私は私のレポートのためにどちらを選ぶべきかと思いますか?一部の変更はわずかであり、係数の有意性に影響を与えませんが、一部の係数は重要ではなくなります(たとえば、元のモデルで0.05に近いP値が0.06に変化するもののみ)。 10,000のようなより大きな数を選択する必要がありますか?この制限をどのように決定できますか? ここでも、最初にブートストラップする必要がありますか?結果が毎回異なる場合、その結果を信頼できますか? 私のケースで私を助けることができる他の考えを覚えていますか? 大変感謝します。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
回帰予測からの信頼区間のブートストラップ
宿題では、投げ縄回帰を使用する予測子を作成/トレーニングするためのデータが与えられました。予測子を作成し、scikit learnのlasso pythonライブラリを使用して予測子をトレーニングします。 だから今私は与えられた入力が出力を予測できるというこの予測因子を持っています。 2番目の質問は、「ブートストラップメソッドを使用して予測の信頼区間を報告するように予測子を拡張する」ことでした。 私は周りを見回して、平均や他のことのためにこれをしている人々の例を見つけました。 しかし、私は予測のためにそれを行うにはどうすればよいのか全くわからない。scikit-bootstrapライブラリを使用しようとしています。 コースのスタッフは非常に無反応なので、どんな助けでもありがたいです。ありがとうございました。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
ブートストラップサンプルが元のサンプルとまったく同じである可能性
何らかの理由を確認したいだけです。 私の元のサンプルがサイズあり、それをブートストラップする場合、私の思考プロセスは次のとおりです。nnn は、元のサンプルから得られた観測の確率です。次の描画が以前にサンプリングされた観測ではないことを確認するために、サンプルサイズをn−1に制限します。したがって、次のパターンが得られます。1n1n\frac{1}{n}n−1n−1n-1 1n⋅1n−1⋅1n−2⋯1n−(n−1)=1n!.1n⋅1n−1⋅1n−2⋯1n−(n−1)=1n!. \frac{1}{n} \cdot \frac{1}{n-1} \cdot \frac{1}{n-2} \cdots \frac{1}{n-(n-1)} = \frac{1}{n!}. これは正しいです?それができない理由につまずく代わりに。(1n)n(1n)n(\frac{1}{n})^n

2
ブートストラップサンプルのサイズ
サンプル統計の分散を推定する手段として、ブートストラップについて学習しています。基本的な疑問が1つあります。 http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdfからの引用: •いくつの観測をリサンプリングする必要がありますか?良い提案は、元のサンプルサイズです。 元のサンプルと同じ数の観測をリサンプリングするにはどうすればよいですか? サンプルサイズが100で、平均の分散を推定しようとしています。合計サンプルサイズ100からサイズ100の複数のブートストラップサンプルを取得するにはどうすればよいですか?この場合、ブートストラップサンプルは1つだけ可能です。これは、元のサンプルと同じですか。 私は明らかに非常に基本的なことを誤解しています。私はあることを理解数の理想的なブートストラップサンプルは常に無限である、と心の中で自分の必要な精度を保ち、私は収束のためにテストする必要があると思います私のデータのために必要なブートストラップサンプルの数を決定します。 しかし、私は個々のブートストラップサンプルのサイズがどうあるべきかについて本当に混乱しています。

2
線形回帰でx切片の信頼区間を計算する方法は?
線形回帰の標準誤差は、通常、応答変数に対して与えられるため、他の方向の信頼区間を取得する方法を考えています。たとえば、x切片の場合です。私はそれが何であるかを視覚化することができますが、これを行う簡単な方法があるはずだと確信しています。以下は、これを視覚化する方法のRの例です。 set.seed(1) x <- 1:10 a <- 20 b <- -2 y <- a + b*x + rnorm(length(x), mean=0, sd=1) fit <- lm(y ~ x) XINT <- -coef(fit)[1]/coef(fit)[2] plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y))) abline(h=0, lty=2, col=8); abline(fit, col=2) points(XINT, 0, col=4, pch=4) newdat <- data.frame(x=seq(-2,12,len=1000)) # CI pred <- …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.