タグ付けされた質問 「bootstrap」

ブートストラップは、統計のサンプリング分布を推定するためのリサンプリング手法です。

2
中央値間の差の95%信頼区間を作成する方法は?
私の問題:主要な結果の非常に右斜めの分布を持つ並行グループ無作為化試験。正規性を前提とせず、正規ベースの95%CIを使用します(1.96 X SEを使用) 中心傾向の尺度を中央値として表現するのは問題ありませんが、私の質問は、2つのグループ間の中央値の差の95%CIをどのように構築するかです。 最初に思い浮かぶのは、ブートストラップです(置換でリサンプリングし、2つのグループそれぞれの中央値を決定し、一方を他方から減算し、1000回繰り返し、バイアス補正済み95%CIを使用します)。これは正しいアプローチですか?他の提案はありますか?

4
RANSACが統計で最も広く使用されていないのはなぜですか?
コンピュータービジョンの分野から来て、私はRANSAC(ランダムサンプルコンセンサス)メソッドを使用して、多くの外れ値を持つデータにモデルを適合させてきました。 ただし、統計学者によって使用されるのを見たことはなく、「統計的に健全な」方法とは見なされていないとの印象を受けていました。どうしてこんなことに?本質的にランダムであるため、分析が難しくなりますが、ブートストラップ方法も同様です。 または、単に学術的なサイロが互いに話し合っていない場合ですか?

1
統計が滑らかな場合にのみ、ブートストラップが有効であるという結果がありますか?
全体を通して、統計量θ(⋅)θ(⋅)\theta(\cdot)は、分布関数Fから得られるデータ関数であると仮定します。サンプルの経験的分布関数はです。したがって、は確率変数として表示される統計であり、は統計のブートストラップバージョンです。KS距離としてを使用しますX1,…XnX1,…XnX_1, \ldots X_nFFF θ(F)θ( F)Dを∞F^F^\hat{F}θ(F)θ(F)\theta(F)θ(F^)θ(F^)\theta(\hat{F})d∞d∞d_\infty 統計が単純な線形統計である場合、ブートストラップの有効性に対して「if and only if」結果があります。たとえば、Mammenの定理1「ブートストラップはいつ機能しますか?」 もしいくつかの任意の機能のためのHNことその後ブートストラップは意味で動作するD∞[L(θ( F) - T N)、L(θ(F)-TN)]→P0が存在する場合にのみσNおよびTNとなるようにθ(F)=1n∑ni−1hn(Xi)θ(F)=1n∑i−1nhn(Xi)\theta(F) = \frac{1}{n} \sum_{i-1}^n h_n(X_i)hnhnh_nd∞[L(θ(F^)−t^n),L(θ(F)−tn)]→p0d∞[L(θ(F^)−t^n),L(θ(F)−tn)]→p0d_\infty\big[\mathscr{L}(\theta(\hat{F})-\hat{t}_n), \mathscr{L}(\theta(F)-t_n)\big] \underset{p}{\rightarrow} 0σnσn\sigma_ntntnt_n 我々は定義することができる ^ T N我々のサンプルの一部機能として、T N = E(T N)d∞[L(θ(F)−tn),N(0,σ2n)]→p0d∞[L(θ(F)−tn),N(0,σn2)]→p0d_\infty\big[\mathscr{L}(\theta(F)-t_n), N(0, \sigma_n^2)\big]\underset{p}{\rightarrow} 0tn^tn^\hat{t_n}tn=E(t^n)tn=E(t^n)t_n = \mathbb{E}(\hat{t}_n) また、Politis RomanoとWolfによるSubsamplingの定理1.6.3など、一般的な統計に対してブートストラップが機能するより一般的な結果もあります。 は、有限のサポートを持つすべての分布のクラスから引き出されると仮定します。統計量θ (⋅ )がFで極値ノルムに関して微分可能であり、微分g Fが0 < Var F [ g F(x )] < ∞を満たすと仮定します。次に、θ (F …

1
Multinomial(1 / n、…、1 / n)は、離散化されたディリクレ(1、..、1)として特徴付けられますか?
そのため、この質問は少し厄介ですが、それを補うためにカラフルなグラフを含めます!最初に背景、次に質問。 バックグラウンド あなたが持っていると言う以上の等しいprobailitesと次元の多項分布カテゴリを。してみましょう正規化数(可能:つまり、その分布から)、N π = (π 1、... 、π N)Cnnnnnnπ= (π1、… 、πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1、… 、cn)〜多項(1 / n 、… 、1 / n )π私= c私n(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} 現在、を介した分布は -simplexをサポートしていますが、個別のステップがあります。たとえば、場合、この分布には次のサポートがあります(赤い点):N 、N = 3ππ\pinnnn = 3n=3n = 3 同様のサポートを備えた別の分布は、次元の分布、つまり単位シンプレックス上の均一な分布です。たとえば、次は3次元の 1、1、1)からのランダムな描画です。ディリクレ(1 、... 、1 …

3
分類性能を評価するための相互検証またはブートストラップ?
特定のデータセットで分類器のパフォーマンスを評価し、他の分類器と比較するための最も適切なサンプリング方法は何ですか?クロスバリデーションは標準的なプラクティスのようですが、.632ブートストラップなどの方法の方が良い選択だと読みました。 フォローアップとして:パフォーマンスメトリックの選択は回答に影響しますか(精度ではなくAUCを使用する場合)? 私の最終的な目標は、特定のデータセットについて、ある機械学習法が別の機械学習法よりも優れているとある程度自信を持って言えるようにすることです。

2
Rのブートストラップは実際にどのように機能しますか?
私はRのブートパッケージを調査してきましたが、その使用方法に関する多くの優れた入門書を見つけましたが、「舞台裏」で何が起こっているかを正確に説明するものはまだ見つけていません。たとえば、この例では、ガイドは標準の回帰係数をブートストラップ回帰の開始点として使用する方法を示していますが、ブートストラップ回帰係数を導出するためにブートストラップ手順が実際に何をしているのかについては説明しません。何らかの反復プロセスが行われているように見えますが、何が起こっているのかを正確に把握できないようです。

1
ブートストラップとベイジアンブートストラップの概念は?
ベイジアンブートストラッププロセスとは何か、それが通常のブートストラップとどのように異なるかを理解するのに苦労しています。誰かが両方の直感的/概念的なレビューと比較を提供できれば、それは素晴らしいことです。 例を見てみましょう。 [1,2,5,7,3]であるデータセットXがあるとします。 置換で複数回サンプリングして、Xのサイズに等しいサンプルサイズ([7,7,2,5,7]、[3,5,2,2,7]など)を作成し、その後、それぞれの平均を計算し、サンプルのブートストラップ分布は平均ですか? そのベイジアンブートストラップ分布は何でしょうか? そして、他のパラメーター(分散など)のベイジアンブートストラップ分布は同じ方法でどのように行われますか?

1
ブートストラップを使用して回帰の係数の信頼区間を推定する2つの方法
私は自分のデータに線形モデルを適用しています: yi=β0+β1xi+ϵi,ϵi∼N(0,σ2).yi=β0+β1xi+ϵi,ϵi∼N(0,σ2). y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). Iは、係数の信頼区間(CI)(推定したいβ0β0\beta_{0}、β1β1\beta_{1}、ブートストラップ法を使用します)。ブートストラップ方式を適用できる方法は2つあります。 ペアの応答予測子のサンプル:ペアをランダムにリサンプリングし、各実行に線形回帰を適用します。後は、m個の実行、我々は、推定された係数の集合得る^ β J、J = 1 、。。。メートル。最後に、の分位数を計算^ β jは。yi−xiyi−xiy_{i}-x_{i}mmmβj^,j=1,...mβj^,j=1,...m{\hat{\beta_{j}}}, j=1,...mβj^βj^{\hat{\beta_{j}}} サンプルエラー:まず、我々は入手このモデルから、元の観測データに線形回帰を適用とエラーε I。その後、ランダムエラーリサンプリングεを* Iとを使用して新しいデータを計算^ β O及び yは* I = ^ β O X I + ε * I。もう一度線形回帰を適用します。後は、m個の実行、我々は推定coefficeintsのコレクションを取得^ βのJ、J = 1 、βo^βo^\hat{\beta_{o}}ϵiϵi\epsilon_{i}ϵ∗iϵi∗\epsilon^{*}_{i}βo^βo^\hat{\beta_{o}}y∗i=βo^xi+ϵ∗iyi∗=βo^xi+ϵi∗y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}mmm。最後に、の分位数を計算 ^ β jは。βj^,j=1,...,mβj^,j=1,...,m{\hat{\beta_{j}}}, j=1,...,mβj^βj^{\hat{\beta_{j}}} 私の質問は: これら2つの方法はどのように違いますか? これらの2つの方法は、どの仮定の下で同じ結果をもたらしますか?

2
ブートストラップ-最初に外れ値を削除する必要がありますか?
新しい製品機能の分割テストを実行し、収益の増加が著しいかどうかを測定したいと考えています。私たちの観察結果は間違いなく正規分布ではありません(ほとんどのユーザーは使いません、そしてそうする人の中では、多くの小さな消費者といくつかの非常に大きな消費者に大きく偏っています)。 ブートストラップを使用して手段を比較し、データが正常に配信されないという問題を回避することにしました(サイド質問:これはブートストラップの合法的な使用ですか?) 私の質問は、ブートストラップを実行する前に、データセット(例:非常に大きな支出者)から外れ値を削除する必要がありますか、それとも問題ではありませんか?

1
ブートストラップ配布の標準エラーの使用
(私の主な質問は言語に依存しないため、必要に応じてRコードを無視します) 単純な統計(例:平均)の変動性を調べたい場合、次のような理論を介してそれを行うことができます。 x = rnorm(50) # Estimate standard error from theory summary(lm(x~1)) # same as... sd(x) / sqrt(length(x)) または次のようなブートストラップで: library(boot) # Estimate standard error from bootstrap (x.bs = boot(x, function(x, inds) mean(x[inds]), 1000)) # which is simply the standard *deviation* of the bootstrap distribution... sd(x.bs$t) しかし、私が疑問に思っているのは、特定の状況でブートストラップディストリビューションの標準エラーを調べることは有用/有効ですか?私が扱っている状況は、次のような比較的ノイズの多い非線形関数です。 # Simulate dataset set.seed(12345) …

3
非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか?
非正規分布サンプルの平均の信頼区間を計算するにはどうすればよいですか? ここではブートストラップ方式が一般的に使用されていることを理解していますが、他のオプションも受け入れています。ノンパラメトリックオプションを探していますが、パラメトリックソリューションが有効であることを誰かが私に納得させることができれば、それは問題ありません。サンプルサイズは400を超えています。 誰かがRでサンプルを提供できれば、とてもありがたいです。

1
H0の下でブートストラップを使用して、2つの手段の違いのテストを実行します。グループ内またはプールされたサンプル内の置換
2つの独立したグループを持つデータがあるとします。 g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …

2
ブートストラップサンプルの平均とサンプルの統計
サンプルと、このサンプルのスタスティック(平均など)のブートストラップサンプルがあるとします。我々はすべて知っているように、このブートストラップサンプルは推定標本分布統計の推定のを。χχ\chi さて、このブートストラップサンプルの平均は、元のサンプルの統計よりも母集団統計のより良い推定値ですか?どのような条件下でそれが当てはまりますか?

1
ブートストラップベースの信頼区間
ブートストラップベースの信頼区間を勉強しているときに、私はかつて次の声明を読みました。 ブートストラップ分布が右に歪んでいる場合、ブートストラップベースの信頼区間には、エンドポイントをさらに右に移動する補正が組み込まれています。これは直観に反するように思えるかもしれませんが、正しいアクションです。 上記の声明の根底にあるロジックを理解しようとしています。

3
なぜブートストラップが必要なのですか?
私は現在、Larry Wassermanの「統計のすべて」を読んでいて、ノンパラメトリックモデルの統計関数の推定に関する章で彼が書いたものに困惑しています。 彼が書きました 「いくつかの計算を行うことで、統計関数の推定標準誤差を見つけることができます。しかし、他の場合では、標準誤差を推定する方法が明らかではありません。」 次の章で彼はこの問題に対処するためのブートストラップについて語っていますが、この声明を本当に理解していないので、ブートストラップの背後にあるインセンティブを十分に得られませんか? 標準誤差を推定する方法が明らかでない場合、どのような例がありますか? thenように、これまで見てきたすべての例は「明白」^ S 、E(P N)= √X1,...Xn Ber(p)X1,...Xn Ber(p)X_1,...X_n ~Ber(p)se^(p^n)=p^⋅(1−p^)/n−−−−−−−−−−√se^(p^n)=p^⋅(1−p^)/n \hat{se}(\hat{p}_n )=\sqrt{\hat{p}\cdot(1-\hat{p})/n}

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.