統計とビッグデータ resampling

3

Rでは、set.seed（）を実行してから、サンプル関数を使用してリストをランダム化した場合、同じ順列を生成しないことを保証できますか？つまり... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } これにより [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 1 [1] 0 1 3 2 …

12 r sampling combinatorics resampling

1

ブートストラップはこの継続的なデータに適していますか？

私は完全な初心者です:) 人口約745,000人のサンプルサイズ10,000で調査を行っています。各サンプルは「類似性の割合」を表します。サンプルの大部分は約97％〜98％ですが、一部は60％〜90％です。つまり、分布は大きくマイナスに歪んでいます。結果の約0.6％は0％ですが、これらはサンプルとは別に処理されます。すべての10,000個のサンプルの平均は97.7％であり、Excelだけでは、StdDevは3.20です。StdDevは実際には適用されないことを理解しています。これは、結果が正規分布されないためです（+3.20では100％を超えるため！）。私の質問は：ブートストラップ（私にとっての新しいコンセプト）は適切ですか？私は正しくブートストラップしていますか？:) 十分なサンプルサイズとは何ですか？私がやっていることは、私の10,000件の結果を（置き換えて）再サンプリングし、新しい平均を計算することです。私はこれを数千回行い、それぞれの平均を配列に格納します。次に、「平均の平均」を計算します。これが私の統計結果です。99％CIを計算するために、0.5％番目の値と99.5％番目の値を選択すると、非常に狭い範囲（97.4％-98.0％）が生成されます。これは有効な結果ですか、それとも何か問題がありますか？サンプルサイズについては、人口の約1.3％しかサンプリングしていません。これで「十分」かどうかはわかりません。私のサンプルが母集団の代表であるかどうかはどのようにしてわかりますか？理想的には、+ /-0.50％パーセンテージポイント（つまり、97.2％-98.2％）である平均の99％の信頼度を確保したいと考えています。ヒントを事前にありがとう！

11 bootstrap sample-size resampling

1

ジニ係数と誤差範囲

各時点でN = 14カウントの時系列データがあり、Gini係数と各時点でのこの推定の標準誤差を計算したいと考えています。私は各時点でN = 14カウントしかないので、ジャックナイフの分散、つまりvar （G ）= n − 1を計算しました。トムソンOgwangの式7から標準誤差」ジニ指数とを計算する便利な方法」。ここで、G（N、kは）要素なしでN値のジニ係数であり、K及び ˉ G（X）の平均値であるG（N、K）。var（G ）= n − 1ん× Σんk = 1（G （n 、k ）− G¯（n ））2var⁡(G)=n−1n×∑k=1n(G(n,k)−G¯(n))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G （n 、k ）G(n,k)G(n,k)kkkG¯（x ）G¯(x)\bar{G}(x)G （n 、k ）G(n,k)G(n,k) 上記の分散の式の直接の単純な実装。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested …

11 r variance econometrics resampling gini

1

ブートストラップ方法論。ランダムサブサンプリングの代わりに「置換あり」でリサンプリングするのはなぜですか？

ブートストラップ法はここ数年で大きな普及を見せています。特に背後にある推論が非常に直感的であるため、私もそれを頻繁に使用しています。しかし、それは私が理解していないことの1つです。なぜエフロンが単一の観測をランダムに含めたり除外したりすることによる単純なサブサンプリングの代わりに、置換を伴うリサンプリングを選択したのですか？ランダムサブサンプリングには1つの非常に優れた品質があると思います。これは、理想的には、私たちの調査で得られた観測が仮想母集団のサブセットである実際の状況を表しています。リサンプリング中に観測値を乗算することの利点はわかりません。実際の状況では、特に複雑な多変量の状況では、他の観測値と類似する観測値はありません。

11 bootstrap resampling subsampling

4

リサンプリングされたデータセットの仮説検定でnullが頻繁に拒否されるのはなぜですか？

tl; dr：nullの下で生成されたデータセットから始めて、置換でケースをリサンプリングし、リサンプリングされた各データセットに対して仮説検定を行いました。これらの仮説検定は、ヌルを5％以上の確率で拒否します。以下の非常に単純なシミュレーションでは、でデータセットを生成し、それぞれに単純なOLSモデルを当てはめます。次に、各データセットについて、元のデータセットの行を置換して再サンプリングすることにより、1000個の新しいデータセットを生成します（Davison＆Hinkleyの古典的なテキストで線形回帰に適していると特に説明されているアルゴリズム）。それらのそれぞれについて、私は同じOLSモデルを適合させました。最終的に、ブートストラップサンプル内の仮説テストの約16％がnullを拒否しますが、5％を取得する必要があります（元のデータセットで行うように）。バツ〜N（0 、1 ）⨿ Y〜N（0 、1 ）X∼N(0,1)⨿Y∼N(0,1)X \sim N(0,1) \amalg Y \sim N(0,1) 私はそれが膨張した関連を引き起こす繰り返しの観察に関係しているのではないかと思ったので、比較のために、以下のコードで他の2つのアプローチを試しました（コメントアウト）。方法2では、を修正してから、を元のデータセットのOLSモデルからのリサンプリングされた残差で置き換えます。方法3では、置換せずにランダムなサブサンプルを描画します。これらの選択肢はどちらも機能します。つまり、それらの仮説テストでは、ヌルが5％の確率で拒否されます。YバツXXYYY 私の質問：繰り返しの観察が原因だと思いますか？もしそうなら、これがブートストラップへの標準的なアプローチであるとすれば、どこで標準的なブートストラップ理論に正確に違反しているのでしょうか？アップデート＃1：より多くのシミュレーションさらに単純なシナリオである切片のみの回帰モデルを試しました。同じ問題が発生します。YYY # note: simulation takes 5-10 min on my laptop; can reduce boot.reps # and n.sims.run if wanted # set the number of cores: can change this to match your machine library(doParallel) registerDoParallel(cores=8) …

10 r bootstrap simulation resampling

2

クラスターレベルまたは個別レベルでブートストラップする必要がありますか？

私は病院に入れ子にされた患者の生存モデルを持っています。これには病院のランダム効果が含まれます。ランダム効果はガンマ分布であり、私はこの用語の「関連性」を簡単に理解できる尺度で報告しようとしています。中央ハザード比（中央値オッズ比に少し似ています）を使用する次の参照を見つけ、これを計算しました。 Bengtsson T、Dribe M：歴史的方法43：15、2010 ただし、ここで、ブートストラップを使用してこの推定に関連する不確実性を報告したいと思います。データは生存データであるため、患者ごとに複数の観測値があり、病院ごとに複数の患者があります。再サンプリング時に患者の観察をクラスタリングする必要があることは明らかです。しかし、病院をクラスタ化する必要があるかどうかもわかりません（つまり、患者ではなく病院をリサンプルしますか？答えが関心のあるパラメーターに依存するかどうか疑問に思っています。したがって、ターゲットが病院レベルではなく患者レベルで関連性のあるものである場合、結果は異なりますか？それが役立つ場合に備えて、以下のstataコードをリストしました。 cap program drop est_mhr program define est_mhr, rclass stcox patient_var1 patient_var2 /// , shared(hospital) /// noshow local twoinvtheta2 = 2 / (e(theta)^2) local mhr = exp(sqrt(2*e(theta))*invF(`twoinvtheta2',`twoinvtheta2',0.75)) return scalar mhr = `mhr' end bootstrap r(mhr), reps(50) cluster(hospital): est_mhr

10 stata bootstrap multilevel-analysis resampling frailty

2

リサンプリングに適したテキストですか？

グループは、適用されたリサンプリング手法に適切な紹介テキスト/リソースを推奨できますか？具体的には、正規性などの仮定に明らかに違反している場合にグループを比較するために、従来のパラメトリック検定（t検定、ANOVA、ANCOVAなど）の代替案に興味があります。解決するためのより良い方法について自分自身を教育したい問題の種類の例には、次のようなものが含まれます。 I） 2グループ：治療と管理依存変数：介入後の口座残高の変化共変量：介入前勘定残高のドル。 ANCOVAの適用に関する問題：多くの被験者には変化がありません（多くのゼロ）。 II） 2グループ：治療と管理依存変数：新しいアカウントが追加されました共変量：介入前のアカウント数。 *多くの被験者にはアカウントが追加されません（多くのゼロ）。ブートストラップを使用できますか？順列検定？これは、ノンパラメトリックリサンプリング手法を適用したいタイプの分析です。

10 references bootstrap resampling

1

相互に排他的でないカテゴリを分類できる深層学習モデル

例：仕事の説明に「英国のJavaシニアエンジニア」という文があります。私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい：English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか？「編集」：従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます例：3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか？それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか？

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

ブートストラップサンプルのサイズ

サンプル統計の分散を推定する手段として、ブートストラップについて学習しています。基本的な疑問が1つあります。 http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdfからの引用： •いくつの観測をリサンプリングする必要がありますか？良い提案は、元のサンプルサイズです。元のサンプルと同じ数の観測をリサンプリングするにはどうすればよいですか？サンプルサイズが100で、平均の分散を推定しようとしています。合計サンプルサイズ100からサイズ100の複数のブートストラップサンプルを取得するにはどうすればよいですか？この場合、ブートストラップサンプルは1つだけ可能です。これは、元のサンプルと同じですか。私は明らかに非常に基本的なことを誤解しています。私はあることを理解数の理想的なブートストラップサンプルは常に無限である、と心の中で自分の必要な精度を保ち、私は収束のためにテストする必要があると思います私のデータのために必要なブートストラップサンプルの数を決定します。しかし、私は個々のブートストラップサンプルのサイズがどうあるべきかについて本当に混乱しています。

9 sampling bootstrap resampling

1

カテゴリー変数を使用したオーバーサンプリング

データセットと2つのグループに分けられた約4000人の顧客のバランスをとるために、オーバーサンプリングとアンダーサンプリングの組み合わせを実行します。グループの1つは約15％の割合です。私はSMOTE（http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE）とROSE（http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf）ですが、これらはどちらも既存の観測結果（kNNなど）を使用して新しい合成サンプルを作成します。ただし、顧客に関連付けられている属性の多くはカテゴリー的であるため、これが正しい方法だとは思いません。たとえば、Region_AやRegion_Bなどの多くの変数は相互に排他的ですが、kNNを使用すると、新しい観測値がRegion_AとRegion_Bの両方に配置される場合があります。これが問題であることに同意しますか？その場合-単に既存の観測を複製することによって、Rでオーバーサンプリングをどのように実行しますか？それともこれは間違った方法ですか？

9 unbalanced-classes resampling oversampling

1

ブートストラップリサンプリングを使用して、データセットの分散の信頼区間を計算できますか？

データセットから何回も再サンプリングし、そのたびに平均を計算すると、これらの平均は（CLTによる）正規分布に従います。したがって、データセットの確率分布を仮定せずに、データセットの平均の信頼区間を計算できます。分散についても同様のことができるかどうか疑問に思っていました。つまり、データセットから何度も再サンプリングし、そのたびに分散を計算した場合、これらの分散は特定の分布に従います（データセットの元の確率分布に関係なく）？その元のデータセットが正常であれば、分散はカイ2乗分布に従うことを知っています。しかし、それが正常でない場合はどうですか？

9 distributions confidence-interval bootstrap resampling

1

制御機能アプローチとブートストラップ

のは、私は断面データを持っていると仮定してみましょう上、、（については以下を参照してください、、）。yyyバツ1バツ1x_1バツ2バツ2x_2yyyバツ1バツ1x_1バツ2バツ2x_2 変数と影響と、制御関数アプローチを使用して変数に対するそれらの相互作用（）を推定したいのですが、とは内生的である可能性が高いです。と 2つのインストゥルメントがあり。次の2つの第1ステージの方程式を推定し、次の方法で予測残差を保存します。バツ1バツ1x_1バツ2バツ2x_2バツ３= x1∗ x2バツ３=バツ1∗バツ2x_3= x_1*x_2yyyバツ1バツ1x_1バツ2バツ2x_2z1z1z_1z2z2z_2 ivreg2 x1 z1 z2 predict error1hat, residuals ivreg2 x2 z1 z2 predict error2hat, residuals 予測された残差を保存したら、次の方法で第2段階の方程式を推定します。 ivreg2 y x1 x2 x3 error1hat error2hat 、、およびの推定された係数は理にかなっていますが、標準誤差はOKではないことを知っています（http://eml.berkeley.edu/~train/petrintrain.pdfの 8ページを参照）。バツ1バツ1x_1バツ2バツ2x_2バツ３バツ３x_3 http://eml.berkeley.edu/~train/petrintrain.pdfの 8ページで、著者はブートストラップを使用して、、修正された標準エラーを取得することをます。バツ1バツ1x_1バツ2バツ2x_2バツ３バツ３x_3 私の質問は：ブートストラップはどのように設定すればよいですか？ブートストラップは第2段階の方程式にのみ適用されますか、それとも第1段階と第2段階の両方の方程式に適用されますか？ここで、、、およびパネルデータがあるとします。まず、グループ内差異を使用して、観察されていない異質性を削除し、次に、データが断面データであるかのように、制御関数アプローチを使用してパラメーターを推定します（上記を参照）。上記のケースに関してパネルデータを使用する場合、追加の調整を行う必要がありますか？yyyバツ1バツ1x_1バツ2バツ2x_2

8 econometrics bootstrap instrumental-variables resampling errors-in-variables

1

順列ベースのp値に必要な順列の数

有意水準順列ベースの値を計算する必要がある場合pppαα\alpha、いくつの順列が必要ですか？ 5ページの記事「分類子のパフォーマンスを研究するための順列テスト」から：実際には、上限は通常、テストの望ましい精度を達成するために必要なサンプル数を決定するために使用されます。1/(2k−−√)1/(2k)1/(2\sqrt{k}) ...ここで、は順列の数です。kkk この式から必要な順列の数を計算するにはどうすればよいですか？

8 hypothesis-testing p-value permutation-test resampling

1

データから再サンプリングしてp値をシミュレートする方法

しばらく前に、タイムスタンプ間の時間の相関について質問し、コード間の平均距離を計算できるとピーターエリスから返信を受けました ... これにより、どのビヘイビアーがクラスター化されているかがある程度わかりますが、これが偶然によるものではないことも確認する必要があります。これを確認するために、関係がないという帰無仮説の下でモデルによって生成されたシミュレーションデータを作成します。これを行うには、おそらく各イベント間の時間（たとえば、各あくびの間）の時間のリサンプリングに基づいて、可能性のあるnullモデルから各動作の時間のデータを生成し、架空のnullモデルイベントの新しいタイムスタンプのセットを作成する必要があります。次に、このnullモデルの同じインジケーター統計を計算し、本物のデータのインジケーターと比較します。このシミュレーションを何度も繰り返すことにより、データのインジケーターがnullモデルのシミュレーションデータと十分に異なるかどうか（各あくびから最も近いストレッチまでの平均時間が短いなど）を統計的に有意な証拠としてカウントできます。あなたの帰無仮説。私はようやくこれを行うためのスキルセットを所有し、Rでこれを行いましたが、（a）詳細について学ぶ（b）私の背後にある理論についてインテリジェントに話すことができるように、このメソッドまたはテクニックが何と呼ばれるかわかりませんやってるこれは順列検定と呼ばれることを示唆している人もいれば、ブートストラップと似ているが同じではないと言う人もいれば、モンテカルロ再サンプリングに関連していると私が言った人もいます。 NULLがTRUEの場合、このリサンプリング方法は何と呼ばれますか？回答をバックアップするためのリファレンスが1つまたは2つある場合は、役立つかもしれませんが必要ではありません。

8 bootstrap monte-carlo resampling quasi-monte-carlo

2

ランダムサンプルのサブサンプル：ランダムサンプル？

ヨーロッパのサッカー選手のランダムなサンプルが多数あるが、スペインで何が起こっているかにのみ関心があるとします。サンプルをスペインのプレーヤーに減らしても、それをランダムなサンプルと呼びますか（ただし、人口は異なります）？そうでない場合、そのサブサンプルをどのように呼び、スペインのサッカー選手の人口を推測できるようにするためにどのような予防策を講じる必要がありますか？十分な大きさであれば、そのサブサンプルを使用しても問題ないと思いますが、何か不足している可能性があります。

8 sampling sample resampling

タグ付けされた質問 「resampling」

タグ付けされた質問「resampling」