タグ付けされた質問 「resampling」

リサンプリングとは、サンプルからサンプルを取得することです。一般的な用途は、ジャックナイフ処理(サブサンプル、たとえば1以外のすべての値を取る)とブートストラップ(置換付きのサンプリング)です。これらの手法は、分析的に導出することが困難または不可能である場合に、サンプリング分布のロバストな推定を提供できます。

2
リサンプリング/シミュレーション方法:モンテカルロ、ブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、および順列テスト
さまざまなリサンプリング方法(モンテカルロシミュレーション、パラメトリックブートストラップ、ノンパラメトリックブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、置換テスト)とRを使用した独自のコンテキストでの実装の違いを理解しようとしています。 次のような状況があるとしましょう。Y変数(Yvar)とX変数(Xvar)を使用してANOVAを実行します。Xvarカテゴリーです。次のことに興味があります。 (1)p値の重要性–偽発見率 (2)Xvarレベルの 効果サイズ Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) これらのリサンプリング方法がどのように機能するかを明示した実例で、サンプリングの違いを説明してください。 編集: 私の試みは次のとおりです。 ブートストラップ 10ブートストラップサンプル、サンプルのサンプル番号、交換、サンプルを繰り返すことができることを意味します boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] b.df …

5
CV / Bootstrapを使用して機械学習アルゴリズムをトレーニングすることでオーバーフィットできますか?
この質問は、決定的な答えを得るにはあまりにもオープンエンドかもしれませんが、そうでないことを願っています。 SVM、GBM、ランダムフォレストなどの機械学習アルゴリズムには、一般に、いくつかの経験則を超えて、各データセットに合わせて調整する必要があるいくつかの無料のパラメーターがあります。これは、一般的に、ある種の再サンプリング手法(ブートストラップ、CVなど)で行われ、最良の一般化エラーを与えるパラメーターのセットに適合します。 私の質問は、あなたがここにすぎ行くことができるのですか?人々はグリッド検索を行うことなどについて話しますが、なぜこれを最適化問題として扱い、可能な限り最良のパラメータセットにドリルダウンしないのですか?私はこのいくつかの仕組みについて尋ね、この質問が、それは多くの注目を集めていません。質問はひどく聞かれたかもしれませんが、おそらく質問自体は人々が一般にしない悪いアプローチを表しているのでしょうか? どのような私を気にすることは正則の欠如です。再サンプリングすると、このデータセットのGBMで成長するのに最適なツリーの数は647で、相互作用の深さは4ですが、これが新しいデータに当てはまることをどのように確認できますか(新しい母集団を仮定して) )トレーニングセットと同一ですか?「縮小」する合理的な価値がない場合(または、情報を提供する事前情報がない場合)、リサンプリングは私たちができる最善の方法のようです。私はこのことについて何も話を聞いていないので、何か足りないものがあるのではないかと思います。 明らかに、多くの反復を行ってモデルの予測力の最後のビットを絞り出すことに関連する大きな計算コストがあるため、これは明らかに、最適化とすべてのビットを行うための時間/うなりを持っている場合にあなたがすることですパフォーマンスの改善は貴重です。

2
ブートストラップは、推定量のサンプリング分布にどれくらい近似していますか?
最近ブートストラップを研究した後、私はまだ私を困惑させる概念的な質問を思いつきました: 人口があり、人口属性、つまりを知りたい場合、ここで人口を表すためにを使用します。このは、たとえば平均です。通常、母集団からすべてのデータを取得することはできません。したがって、母集団からサイズサンプルを描画します。簡単にするためにiidサンプルがあると仮定します。次に、推定器を取得します。あなたは利用したいについて推論を行うためにあなたがの変動知っていただきたいと思いますので、 。θ=g(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXNNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θθ\thetaθ^θ^\hat{\theta} まず、真のサンプリング分布があります。概念的には、母集団から多くのサンプル(それぞれのサイズが)を描画できます。毎回異なるサンプルを取得するため、毎回実現します。最後に、真の分布を回復することができます。OK、これは少なくとも分布を推定するための概念的なベンチマークです。言い換えると、最終的な目標は、さまざまな方法を使用して真の分布を推定または近似することです。θ^θ^\hat{\theta}NNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X) θθ^θ^\hat{\theta}θ^θ^\hat{\theta}θ^θ^\hat{\theta} さて、質問が来ます。通常、データポイントを含む1つのサンプルのみがあります。次に、このサンプルから何度もリサンプリングすると、ブートストラップ分布が作成されます。私の質問は、このブートストラップ分布はの真のサンプリング分布にどれだけ近いかということです。それを定量化する方法はありますか?XXXNNNθ^θ^\hat{\theta}θ^θ^\hat{\theta}

2
階層化されたクロス検証を使用する理由 なぜこれが分散に関連する利益に損害を与えないのですか?
特に応答クラスのバランスが取れていない場合は、階層化されたクロス検証を使用すると有益だと言われています。交差検証の目的の1つが元のトレーニングデータサンプルのランダム性を説明することである場合、元のトレーニングセットに代表的なクラス分布があることが確実でない限り、各フォールドに同じクラス分布を持たせることはこれに対して確実に機能します。 私の論理に欠陥はありますか? 編集 この方法がCVの利益を損なうかどうかに興味があります。フォールドにマイナークラスの単一の代表者がいないことを回避するために、小さなサンプル/非常に不均衡なクラス/両方がある場合に必要な理由がわかります。 論文クロスバリデーション研究におけるApples-to-Apples:Classifier Performance Measurementの落とし穴は、層別化のケースをうまく提唱していますが、すべての議論は「層別化が保護と一貫性を提供する」に等しいようですが、十分な保護は必要ありませんデータ。 答えは単に「データが十分にあることはめったにないので、不必要に使用します」です。?

2
順列検定の前提は何ですか?
置換テストには前提がないとよく言われますが、これは確かに真実ではありません。たとえば、サンプルが何らかの形で相関している場合、ラベルを並べ替えることは正しいことではないと想像できます。この問題について私が見つけたと思うのは、ウィキペディアの次の文章です。「置換テストの背後にある重要な仮定は、帰無仮説の下で観測値が交換可能であるということです。」私には分かりません。 順列検定の前提は何ですか?そして、これらの仮定は、考えられるさまざまな置換スキームにどのように関連していますか?

2
キャレットの再サンプリング方法
caretR のライブラリを使用して、さまざまなモデリング手順をテストしています。 trainControlオブジェクトは、1つの再サンプリング方法を指定することを可能にします。方法は、に記載されている文書のセクション2.3を含む:boot、boot632、cv、LOOCV、LGOCV、repeatedcvおよびoob。これらのいくつかは推測が容易ですが、これらの方法のすべてが明確に定義されているわけではありません。 これらのリサンプリング方法に対応する手順は何ですか?
20 r  resampling  caret 

2
オーバーサンプリングされた不均衡データの分類のテスト
私はひどく不均衡なデータに取り組んでいます。文献では、いくつかの方法を使用して、再サンプリング(オーバーサンプリングまたはアンダーサンプリング)を使用してデータのバランスを再調整しています。2つの優れたアプローチは次のとおりです。 SMOTE:合成マイノリティオーバーサンプリングTEchnique(SMOTE) ADASYN:不均衡学習のための適応合成サンプリングアプローチ(ADASYN) ADASYNを実装したのは、その適応性とマルチクラス問題への拡張の容易さからです。 私の質問は、ADASYN(またはその他のオーバーサンプリング手法)によって生成されたオーバーサンプリングデータをテストする方法です。前述の2つの論文では、彼らがどのように実験を行ったかは明らかではありません。2つのシナリオがあります。 1-データセット全体をオーバーサンプリングし、それをトレーニングセットとテストセットに分割します(または相互検証)。 2-元のデータセットを分割した後、トレーニングセットのみでオーバーサンプリングを実行し、元のデータテストセットでテストします(クロス検証で実行できます)。 最初のケースでは、結果はオーバーサンプリングを行わない場合よりもはるかに優れていますが、オーバーフィットがあるかどうか心配です。2番目の場合、結果はオーバーサンプリングなしの場合よりわずかに良く、最初の場合よりもはるかに悪いです。しかし、2番目のケースに関する懸念は、少数クラスのすべてのサンプルがテストセットに送られた場合、オーバーサンプリングでは利点が得られないことです。 そのようなデータをテストする他の設定があるかどうかはわかりません。

2
IIDサンプリングのテスト
サンプリングがIID(独立および同一分散)であることをどのようにテストまたはチェックしますか?ガウス分布および同一分布を意味するのではなく、単にIIDであることに注意してください。 そして、思い浮かぶのは、サンプルを同じサイズの2つのサブサンプルに繰り返し分割し、Kolmogorov-Smirnov検定を実行して、p値の分布が均一であることを確認することです。 そのアプローチに関するコメント、および提案を歓迎します。 バウンティを開始した後の明確化: 非時系列データに適用できる一般的なテストを探しています。

2
「ブートストラップ検証」(別名「相互検証の再サンプリング」)の手順は何ですか?
「ブートストラップ検証」/「相互検証の再サンプリング」は私にとっては新しいものですが、この質問に対する答えで議論されました。私が収集するのは、2種類のデータです:実データとシミュレートデータ。シミュレートデータが実データと同じサイズになるまで、置換によるリサンプリングによって実データから与えられたシミュレートデータのセットが生成されます。そのようなデータ型を使用するための2つのアプローチを考えることができます。(2)多くのシミュレートされたデータセットのそれぞれを使用してモデルを何度も適合させ、毎回それを実際のデータに対して評価します。どちらが最適ですか?

2
ブートストラップのリサンプリングに関する最高の推奨教科書?
私は、あなたの意見では、ブートストラップに関する最も入手可能な本がどれであるかを尋ねたかっただけです。これにより、必ずしもその開発者によって書かれたものを意味するわけではありません。 次の基準をカバーするブートストラップに最適な教科書を教えてください。 適用可能性、長所と短所、モデル選択の重要性のドメインをリストする技術の哲学的/認識論的基礎? 実装、哲学的基盤、できればMatlabを使用した簡単な例

1
時系列をリサンプリングするこの方法は文献で知られていますか?名前はありますか?
私は最近、時系列をリサンプリングする方法を探していました。 長いメモリプロセスの自己相関をほぼ維持します。 観測のドメインを保持します(たとえば、整数のリサンプリングされた時系列は、整数の時系列のままです)。 必要に応じて、一部のスケールのみに影響する場合があります。 長さ時系列に対して次の順列スキームを思い付きました。2N2N2^N 連続する観測値のペアで時系列をビン化します(このようなビンは個あります2N−12N−12^{N-1})。それらの各(フリップフロッすなわちからインデックス1:2の2:1独立確率で)1/21/21/2。 得られた時系列を連続した444観測値でビン化します(個の2N−22N−22^{N-2}ビンがあります)。(それらの各々逆、すなわちからインデックスを1:2:3:4する4:3:2:1確率でindependelty)1/21/21/2。 サイズのビンと同じ手順を繰り返し888、161616、...、2N−12N−12^{N-1}常に確率でビンを逆転させる1/21/21/2。 このデザインは純粋に経験に基づいたものであり、この種の順列で既に公開されているであろう作品を探しています。また、他の順列やリサンプリングスキームの提案も受け付けています。


1
サンプルのブートストラップ時にセンタリングが必要ですか?
サンプル平均の分布を近似する方法について読んでいると、ノンパラメトリックブートストラップ法に出くわしました。明らかに一つの分布近似することができるの分布によってˉ X * N - ˉ X N、ˉ X * nは、ブートストラップサンプルのサンプルの平均を意味します。X¯n−μX¯n−μ\bar{X}_n-\muX¯∗n−X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯∗nX¯n∗\bar{X}_n^* 私の質問は、「センタリングが必要ですか?」です。何のために? 私だけでおおよそのことができませんでしたによるP (ˉ X * N ≤ X )?P(X¯n≤x)P(X¯n≤x)\mathbb{P}\left(\bar{X}_n \leq x\right)P(X¯∗n≤x)P(X¯n∗≤x)\mathbb{P}\left(\bar{X}_n^* \leq x\right)

1
なぜブートストラップCIを常に使用しないのですか?
ブートストラップCI(およびバーティキュラーのBCa)が通常の分散データに対してどのように機能するのか疑問に思っていました。さまざまなタイプのディストリビューションでのパフォーマンスを調査する多くの作業があるようですが、通常の分布データでは何も見つかりませんでした。最初に勉強するのは明らかなことのように思えるので、私は論文が古すぎると思います。 Rブートパッケージを使用していくつかのモンテカルロシミュレーションを行ったところ、ブートストラップCIは正確なCIと一致していることがわかりましたが、小さなサンプル(N <20)の場合、少し寛大な(小さなCI)傾向があります。サンプルが十分に大きい場合、それらは本質的に同じです。 これは、ブートストラップを常に使用しない理由があるのではないかと思います。分布が正常であるかどうかの評価の難しさ、およびこの背後にある多くの落とし穴を考えると、分布に関係なくブートストラップCIを決定および報告しないことは理にかなっています。ノンパラメトリックテストは電力が少ないため、体系的に使用しないことの動機を理解していますが、シミュレーションではブートストラップCIの場合はそうではないことがわかります。彼らはさらに小さいです。 私を悩ませる同様の質問は、なぜ中心傾向の尺度として中央値を常に使用しないのかということです。多くの場合、非正規分布データの特性評価に使用することをお勧めしますが、中央値は正規分布データの平均と同じなので、なぜ区別するのですか?分布が正規であるかどうかを決定する手順を取り除くことができれば、非常に有益と思われます。 これらの問題についてのあなたの考えと、それらが以前に議論されたかどうかについて、私は非常に興味があります。参考文献をいただければ幸いです。 ありがとう! ピエール

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.