タグ付けされた質問 「bootstrap」

ブートストラップは、統計のサンプリング分布を推定するためのリサンプリング手法です。


1
ブートストラップを使用して1パーセンタイルのサンプリング分布を取得する
母集団からのサンプル(サイズ250)があります。人口の分布はわかりません。 主な質問:母集団の1パーセンタイルの点推定が必要です。次に、点推定の周りに95%の信頼区間が必要です。 私の点推定値は、サンプル1になり番目のパーセンタイル。私はそれをと表します。xxx その後、ポイント推定値の周囲に信頼区間を構築しようとします。ここでブートストラップを使用するのは理にかなっているのでしょうか。私はブートストラップに非常に慣れていないので、適切な用語を使用できない場合などはご容赦ください。 ここに私がそれをやろうとした方法があります。元のサンプルから置き換えて、ランダムなサンプルを1000個描画します。それぞれから1パーセンタイルを取得します。したがって、私は1000ポイントを持っている- "1 stは -percentiles"。これらの1000ポイントの経験的分布を見てみましょう。その平均ます。次のように「バイアス」を示します:。私は2.5とり番目のパーセンタイルと97.5 番目の下、私は1の周りの95%信頼区間と呼ぶもののハイエンド得るために、1000ポイントのパーセンタイルをSTパーセンタイル元のサンプルのを。これらの点をおよびます。xmeanxmeanx_{mean}bias=xmean−xbias=xmean−x\text{bias}=x_{mean}-xx0.025x0.025x_{0.025}x0.975x0.975x_{0.975} 最後のステップは、この信頼区間を、元のサンプルの1パーセンタイル付近ではなく、母集団の1パーセンタイル付近になるように調整することです。したがって、を下限とし、を上限とします人口の1つの点推定値の周りの95%信頼区間の番目のパーセンタイル。この最後のインターバルが私が求めていたものです。x−bias−(xmean−x0.025)x−bias−(xmean−x0.025)x-\text{bias}-(x_{mean}-x_{0.025})x−bias+(x0.975−xmean)x−bias+(x0.975−xmean)x-\text{bias}+(x_{0.975}-x_{mean}) 重要な点は、私の意見では、それは1つのために使用するブートストラップに理にかなっているかどうかであるSTのかなり近い人口の未知の根本的な分布のテールにあるパーセンタイル。問題があるのではないかと思います。ブートストラップを使用して、最小値(または最大値)の信頼区間を構築することを検討してください。 しかし、おそらくこのアプローチには欠陥がありますか?私にお知らせください。 編集: もう少し問題についての考えを持って、私は私の解決策は、以下のことを意味していることがわかり:経験1 番目のパーセンタイル元のサンプルの1の偏った推定かもしれSTパーセンタイル人口の。もしそうなら、ポイント推定はバイアス調整されるべきです:。そうでない場合、バイアス調整された信頼区間は、バイアス未調整のポイント推定と互換性がありません。ポイント推定値と信頼区間の両方を調整するか、どちらも調整しない必要があります。x−biasx−biasx-\text{bias} 一方、見積もりにバイアスをかけることを許可しなかった場合は、バイアス調整を行う必要はありません。つまり、をポイント推定値として、を下限として、を95%の上限として信頼区間。この間隔が意味を成しているかどうかはわかりません...xxxx−(xmean−x0.025)x−(xmean−x0.025)x-(x_{mean}-x_{0.025})x+(x0.975−xmean)x+(x0.975−xmean)x+(x_{0.975}-x_{mean}) だから、サンプル1と仮定することは何の意味も持たないSTはパーセンタイル人口1の偏った推定値である番目のパーセンタイル?そうでない場合、私の代替ソリューションは正しいですか?

1
投げ縄モデルから除外または含まれている変数を解釈するにはどうすればよいですか?
他の投稿から、ラッソーモデルに入る予測変数に「重要度」または「重要度」を帰属させることはできないと述べました。これらの変数のp値または標準偏差の計算はまだ進行中であるためです。 その推論の下で、投げ縄モデルから除外された変数は「無関係」または「重要ではない」とは言えないと断言するのは正しいですか? もしそうなら、ラッソーモデルに除外または含まれている変数について実際に何を主張できますか?私の特定のケースでは、ランダム値を減らし、エラー曲線を平均化するために、10倍の交差検証を100回繰り返すことにより、調整パラメーターlambdaを選択しました。 UPDATE1:以下の提案に従い、ブートストラップサンプルを使用して投げ縄を再実行しました。100個のサンプルを試してみました(その量は私のコンピューターの電源で一晩で管理できる量でした)と、いくつかのパターンが現れました。41の変数のうち2つがモデルに95%以上入り、3つの変数が90%を超え、5つの変数が85%を超えました。これらの5つの変数は、元のサンプルで実行したときにモデルに入力された9つの変数の1つであり、そのとき係数値が最も高かったものです。1000のブートストラップサンプルを使用してLassoを実行し、それらのパターンが維持されている場合、私の結果を提示する最良の方法は何ですか? 1000のブートストラップサンプルで十分ですか?(私のサンプルサイズは116です) すべての変数とそれらがモデルに入力される頻度をリストし、より頻繁に入力される変数が有意である可能性が高いと主張する必要がありますか? それは私の主張でできる限りですか?仕掛品ですので(上記参照)カットオフ値は使えませんよね? UPDATE2:以下の提案に従って、私は以下を計算しました。平均して、元のモデルの変数の78%が100のブートストラップサンプルに対して生成されたモデルに入りました。一方、その逆では41%に過ぎません。これは、ブートストラップサンプル用に生成されたモデルには、元のモデル(9)よりもはるかに多くの変数(平均17)が含まれる傾向があるという事実に大きく関係しています。 UPDATE3:ブートストラップとモンテカルロシミュレーションから得た結果の解釈を手伝っていただけるなら、この他の投稿をご覧ください。

1
ブートストラップリサンプリングを使用して、データセットの分散の信頼区間を計算できますか?
データセットから何回も再サンプリングし、そのたびに平均を計算すると、これらの平均は(CLTによる)正規分布に従います。したがって、データセットの確率分布を仮定せずに、データセットの平均の信頼区間を計算できます。 分散についても同様のことができるかどうか疑問に思っていました。つまり、データセットから何度も再サンプリングし、そのたびに分散を計算した場合、これらの分散は特定の分布に従います(データセットの元の確率分布に関係なく)? その元のデータセットが正常であれば、分散はカイ2乗分布に従うことを知っています。しかし、それが正常でない場合はどうですか?

2
ブートストラップ標本の標本平均の分散
ましょは別個の観測値です(関係なし)。ましょX * 1、。。。、X * n個のブートストラップ標本(経験的CDFからのサンプル)を示すとせˉ X * N = 1X1,...,XnX1,...,XnX_{1},...,X_{n}X∗1,...,X∗nX1∗,...,Xn∗X_{1}^{*},...,X_{n}^{*}。検索E( ˉ X * N)とVR( ˉ X * Nを)。X¯∗n=1n∑ni=1X∗iX¯n∗=1n∑i=1nXi∗\bar{X}_{n}^{*}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{*}E(X¯∗n)E(X¯n∗)E(\bar{X}_{n}^{*})Var(X¯∗n)Var(X¯n∗)\mathrm{Var}(\bar{X}_{n}^{*}) これまでのところ、はX 1、です。。。、X nそれぞれ確率1X∗iXi∗X_{i}^{*}X1,...,XnX1,...,XnX_{1},...,X_{n}したがって E(X ∗ i)=11n1n\frac{1}{n}および E(X ∗ 2 i)=1E(X∗i)=1nE(X1)+...+1nE(Xn)=nμn=μE(Xi∗)=1nE(X1)+...+1nE(Xn)=nμn=μ E(X_{i}^{*})=\frac{1}{n}E(X_{1})+...+\frac{1}{n}E(X_{n})=\frac{n\mu}{n}=\mu 与える VをR(X * I)= E (X * 2 I)- (E (X * I))2 = μ 2 + σ 2 - μ …

1
反復ブートストラップとは何ですか?使い方は?
私は最近、「ダブル/トリプルブートストラップ」または「反復ブートストラップ」について言及しました。私が理解しているように、各ブートストラップサンプルは再度ブートストラップされます。 ポイントは?使い方は?
9 bootstrap 

3
データをテスト/証明する方法はゼロになっていますか?
簡単だと思うが、それを完全に理解できない問題があります。私は種子受粉を見ています。私はクラスターで花を咲かせる植物(n = 36)を持っています。各植物から3つの花クラスターをサンプリングし、各クラスターから6つの種子ポッド(各植物から合計18の種子ポッド)をサンプリングします。鞘は受粉する0から多くても4つの種子を持つことができます。したがって、データは上限付きでカウントされます。種子の平均約10%が受粉していることがわかりましたが、特定の植物では1から30%の範囲にあるため、分散したデータを超えています。もちろん、3つの植物で4つのクラスターの欠落の複製があるため、完全に対称的ではありません。 。 私が尋ねている質問は、このデータがこの植物が種子セットに花粉媒介者を必要とするという考えを支持するかどうかです。 ポッド内の種子数の分布が、受粉種子ポッド0個(16個のうち6〜9個のポッド)と受粉種子ポッド3個および4個(それぞれ2〜4個)があるように見える集団の種子が無作為に受粉した場合に予想される。基本的に、これはゼロインフレーションデータの古典的な例だと思います。最初に昆虫が花を訪問するか、まったく訪問しません(1つのゼロジェネレーター)。訪問した場合、別の分布で0〜4個の種子を受粉します。対立仮説は、植物が部分的に自殖しているため、すべての種子が受粉する確率が同じになると予想されます(このデータは、およそ0.1の確率、つまり同じポッド内の2つの種子が0.01の確率である、などを示唆しています)。 。 しかし、私は単にデータがどちらか一方の分布に最適であることを実証したいだけであり、実際にデータに対してZIPまたはZINBを実行するのではありません。私が使用する方法はすべて、受粉した種子の実際の数と、各植物でサンプリングされた鞘の数を考慮に入れるべきだと思います。私が思いついた最良のことは、ある種の受粉した種子の数をサンプリングした種子の鞘の数にランダムに割り当て、その10,000回を実行して、それがどれほど可能性が高いかを確認することです与えられた植物の実験データは、そのランダムな分布から得られました。 私はこれについてブルートフォースブートストラップよりもはるかに簡単なはずがあることを感じていますが、何日も考えて検索した後、私はあきらめています。上限であるため、ポアソン分布と比較することはできません。予想される分布を何らかの方法で1番目に生成する必要があるため、二項分布ではありません。何かご意見は?そして、私はRを使用しているので、アドバイス(特に、それぞれ最大4つのボールを含むことができる16のボックスにn個のボールの10,000個のランダム分布を最もエレガントに生成する方法)が最も歓迎されます。 追加9/07/2012最初に、すべての関心と助けに感謝します。答えを読んで、質問を少し言い換えるようになりました。私が言っているのは、種子がポッド全体でランダムに受粉しているという仮説があり(今のところ、これはnullと考えています)、私の別の仮説は、少なくとも1つの受粉種子を持つシードポッドは、ランダムなプロセスで予想されるよりも複数の受粉種子を持っています。私が話していることを説明するために、例として3つのプラントからの実際のデータを提供しました。最初の列はポッド内の受粉種子の数、2番目の列はその種子数を持つポッドの頻度です。 植物1(合計3種子:4%受粉) 種子の数:: pod.freq 0 :: 16 1 :: 1 2 :: 1 3 :: 0 4 :: 0 植物2(合計19種子:26%受粉) num.seeds :: pod.freq 0 :: 12 1 :: 1 2 :: 1 3 :: 0 4 :: 4 植物3(合計16種子:22%受粉) num.seeds :: …

2
混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ
以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコード これが私のRコードです: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
回帰係数の逆数の分布
我々は、線形モデルがあるとしすべての標準回帰(ガウス-マルコフ)前提条件を満たしています。我々は、に興味があるθ = 1 / β 1。y私= β0+ β1バツ私+ ϵ私yi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_iθ = 1 / β1θ=1/β1\theta = 1/\beta_1 質問1:どのような仮定を配信するために必要であるθを明確に定義されるべき?β 1 ≠ 0重要であろう---他のもの?θ^θ^\hat{\theta}β1≠ 0β1≠0\beta_1 \neq 0 質問2:エラーが正規分布に従うという仮定を追加します。場合我々は、それを知っているβ 1は、 MLEであり、Gは、(⋅ )単調関数であり、次に、G (β 1 )のためのMLEであるG (β 1)。単調性は近傍にのみ必要であるβ 1?言い換えれば、あるθ = 1 / β MLE?連続マッピング定理は、少なくともこのパラメーターが一貫していることを示しています。β^1β^1\hat{\beta}_1g(⋅ )g(⋅)g(\cdot)g(β^1)g(β^1)g\left(\hat{\beta}_1\right)g(β1)g(β1)g(\beta_1)β1β1\beta_1θ^= 1 / β^θ^=1/β^\hat{\theta} = 1/\hat{\beta} …

1
ブートストラップt法または単にブートストラップによって平均の信頼区間を推定しますか?
平均の信頼区間を推定するとき、ブートストラップt法とノンパラメトリックブートストラップ法の両方を適用できると思いますが、前者はもう少し計算が必要です。 通常のノンパラメトリックブートストラップに対するブートストラップtの長所と短所は何ですか?どうして? これを説明するための参考資料はありますか?

4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

1
このタイプのブートストラップの名前はありますか?
それぞれが2つの条件で複数回測定された、複数の人間の参加者による実験を考えます。混合効果モデルは、次のように定式化できます(lme4構文を使用)。 fit = lmer( formula = measure ~ (1|participant) + condition ) ここで、このモデルの予測に対してブートストラップされた信頼区間を生成したいとします。簡単で計算効率の高い方法を思いついたと思います。最初に考えたのは私ではないと思いますが、このアプローチを説明している以前の出版物を見つけるのに苦労しています。ここにあります: (上記のように)モデルを適合させ、これを「オリジナルモデル」と呼びます。 元のモデルから予測を取得し、これらを「元の予測」と呼びます 各参加者からの各応答に関連付けられた元のモデルから残差を取得します 残差を再サンプリングし、置換で参加者をサンプリングする ガウス誤差のある線形混合効果モデルを残差に近似し、これを "中間モデル"と呼びます 各条件の暫定モデルから予測を計算し(これらの予測はゼロに非常に近くなります)、これらを「暫定予測」と呼びます 中間予測を元の予測に追加し、結果を「リサンプル予測」と呼びます 手順4から7を何度も繰り返し、CIを計算できる条件ごとにリサンプル予測の分布を生成します。 単純な回帰(つまり、混合モデルではない)のコンテキストで「残差ブートストラップ」手順を見て、残差がリサンプリングの単位としてサンプリングされてから、元のモデルの予測に追加されてから、ブートストラップですが、これは、残差がリサンプリングされない、人々がリサンプリングされる、そしてその後だけに説明するアプローチとはかなり異なるようです暫定モデルは、元のモデルの予測が機能するときに取得されます。この最後の機能には、元のモデルの複雑さに関係なく、暫定モデルが常にガウス線形混合モデルとして適合できるという非常に優れた副次的利点があります。これは、場合によってはかなり高速になる可能性があります。たとえば、最近2項データと3つの予測子変数があり、そのうちの1つが非常に非線形の影響を引き起こすと疑われたため、2項リンク関数を使用した一般化加法混合モデリングを使用する必要がありました。この場合の元のモデルの適合には1時間以上かかりましたが、各反復でのガウスLMMの適合には数秒しかかかりませんでした。 これがすでに既知の手順である場合、私はこれに優先権を主張したくないので、これが以前に説明された可能性のある場所に関する情報を誰かが提供できれば非常に感謝します。(また、このアプローチで明白な問題がある場合は、私に知らせてください!)

1
データを再シャッフルする必要がありますか?
入手するのにかなり高額だった生物学的サンプルのセットがあります。これらのサンプルを一連のテストに通して、予測モデルの構築に使用されるデータを生成します。この目的のために、サンプルをトレーニングセット(70%)とテストセット(30%)に分けました。モデルを正常に作成し、テストセットに適用して、パフォーマンスが「最適ではない」ことを発見しました。実験家は、より良いモデルを作成するために生物学的試験を改善したいと考えています。新しいサンプルを入手できない場合は、サンプルを再シャッフルして新しいトレーニングと検証セットを作成するか、元の分割を使用することを提案してください。(この分割が問題のある分割だったことを示すものはありません)。

3
順列検定のパラメーターの信頼区間をどのように作成しますか?
順列検定は、元のデータからランダムに抽出された順列リサンプルに基づく有意性検定です。置換で描画されるブートストラップサンプルとは対照的に、置換リサンプルは置換なしで描画されます。ここで私はRで行った例、単純な並べ替え検定のは。(あなたのコメントは大歓迎です) 順列テストには大きな利点があります。正規性などの特定の母集団の形状は必要ありません。これらは、帰無仮説の下で単純な分布を持つ統計だけでなく、さまざまな統計に適用されます。母集団の形状とサイズに関係なく、非常に正確なp値を提供できます(十分な順列が使用されている場合)。 また、テストと共に信頼区間を与えることがしばしば役立つことも読んだ。これは、順列再サンプリングではなくブートストラップ再サンプリングを使用して作成される。 信頼区間がどのように構成されているか(つまり、上記の例の2つのサンプルの平均値の差について)説明できますか(または、Rコードを指定してください)? 編集 グーグルで調べた後、この興味深い読み物を見つけました。

7
ブートストラップ-誰かが私を始めるための簡単な説明を提供できますか?
ブートストラップについて読む試みはいくつかありますが、私はいつもレンガの壁にぶつかるようです。誰かがブートストラップの非技術的な合理的な定義を与えることができるのだろうか? 私は私は完全にそれを理解するために有効にするために十分な詳細を提供するために、このフォーラムでは不可能です知っているが、主な目的とブートストラップのメカニズムと右方向に緩やかなプッシュをされるだろう多くの感謝します!ありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.