タグ付けされた質問 「sampling」

確率論的方法を使用して、指定された母集団からサンプルを作成し、指定された分布から乱数を生成します。このタグがあいまいなので、前者には[調査サンプリング]、後者には[モンテカルロ]または[シミュレーション]を検討してください。既知の分布からランダムサンプルを作成することに関する質問については、[random-generation]タグの使用を検討してください。

2
MCMCを使用した既知の密度の2変量分布からのサンプリング
RのMetropolisアルゴリズムを使用して2変量密度からシミュレーションを試みましたが、うまくいきませんでした。密度はとして表すことができます 。ここで、はSingh-Maddala分布です。p (y | x )p (x )p (x )p (x 、y)p(x,y)p(x,y)p (y| x)p(x)p(y|x)p(x)p(y|x)p(x)p (x )p(x)p(x) p (x )= a qバツa − 1ba(1 + (xb)a)1 + qp(x)=aqxa−1ba(1+(xb)a)1+qp(x)=\dfrac{aq x^{a-1}}{b^a (1 + (\frac{x}{b})^a)^{1+q}} パラメータ、、、およびは対数正規であり、対数平均は分数であり、log-sdは定数です。私のサンプルが私が欲しいものかどうかをテストするために、の限界密度を見ました。これはであるはずです。RパッケージのMCMCpack、mcmc、dreamとは異なるMetropolisアルゴリズムを試しました。バーンイン、シンニング、サイズ100万までのサンプルを廃棄しましたが、結果として得られる限界密度は、提供したものではありませんでした。qaaaqqqp (y | x )x x p (x )bbbp (y| x)p(y|x)p(y|x)バツxxバツxxp (x )p(x)p(x) これが私が使用した私のコードの最終版です: logvrls <- function(x,el,sdlog,a,scl,q.arg) { if(x[2]>0) …

3
時系列モデルのサンプリング効果
私は主にAR(I)MAとカルマンの財務時系列モデルで広範囲に取り組んでいます。 私が直面している1つの問題は、サンプリング周波数です。最初は、基礎となるプロセスからより頻繁にサンプリングする可能性が提供された場合、できるだけ多くのサンプルを収集する必要があるため、サンプルの数を大幅に増やすため、モデルパラメーターの変動が少なくなると考えていました。 実際には、このアイデアは良いものにはなりませんでした。何が起こったかというと、基礎となるプロセスが十分な変動を示さない場合、サンプリング周波数を上げると、実際には多くの繰り返し(同じ)値を取得することになります。そして、そのような値に基づいてモデルを構築すると、モデル係数が非常に小さく、将来予測が不十分なモデルになります(もちろん、「よく」の定義は主観的であり、頻度の増加により、より多くのサンプルステップを予測する必要があります。低い周波数設定で同じタイムステップを実現します)。モデルは、最も遭遇するもの、つまりフラットラインを学習します。 アダプティブサンプリングアプローチを実行したいと思いました。つまり、変動がある場合はより頻繁にサンプリングし、変動がない場合はより少ないサンプリングを行いました。しかし、これは簡単ではありません。まず最初に、そうすることでどのようなバイアスを導入しているのかが明確ではありません(サンプル/スキップをトリガーする方法によって異なります)。次に、ARIMAのような時系列モデルは、不均一なサンプルステップにはあまり適していません。 この問題に対処する良い方法はありますか?また、モデルがサンプリング周波数の影響を大きく受けている場合(特に、時間ステップが次第に小さくなる場合)、連続時間モデルと離散時間モデルの間のシームレスな遷移を実現するにはどうすればよいのでしょうか。外部リソースへのポインタも歓迎されます。 ありがとう

2
拒否サンプリングの証明はどのように意味がありますか?
私はモンテカルロ法のコースを受講しており、前回の講義で拒否サンプリング(またはAccept-Reject Sampling)方法を学びました。この方法の証明を示す多くのリソースがウェブ上にありますが、どういうわけか私はそれらに確信が持てません。 したがって、Rejection Samplingには、サンプリングが難しい分布あります。サンプリングしやすい分布を選択し、とような係数を見つけます。次に、からサンプリングし、各描画について、標準の一様分布からaもサンプリングします。f(x)f(x)f(x)g(x)g(x)g(x)cccf(x)≤cg(x)f(x)≤cg(x)f(x) \leq cg(x)g(x)g(x)g(x)xixix_iuuuU(u|0,1)U(u|0,1)U(u|0,1) サンプルは、場合は受け入れられ、それ以外の場合は拒否されます。xixix_icg(xi)u≤f(xi)cg(xi)u≤f(xi)cg(x_i)u \leq f(x_i) 私が出会った証明は通常、であることを示し、そこで停止します。p(x|Accept)=f(x)p(x|Accept)=f(x)p(x|Accept) = f(x) このプロセスについて私が考えるのは、一連の変数あり、ペアはi。番目のサンプル()に対応し、それが受け入れられるかどうかということです。 ()。各ペアは、次のように互いに独立していることがわかります。バツ1、A c c e p t1、x2、A c c e p t2、。。。、xん、A c c e p tんx1,Accept1,x2,Accept2,...,xn,Acceptnx_1,Accept_1,x_2,Accept_2,...,x_n,Accept_nバツ私、A c c e p t私xi,Acceptix_i,Accept_iバツ私xix_iA c c e p t私AcceptiAccept_iバツ私、A c c e p t私xi,Acceptix_i,Accept_i P(x1、A c c e p t1、x2、A …

2
ヌル分布とサンプリング分布の違い
「null分布」と「サンプリング分布」の間の用語を明確にするために、この質問をします。ある人がnull分布と言ったとき、実際には他の人がサンプリング分布と言ったときと同じことを意味します。 この仮説テストの記事[1]では、次の例の説明を見ることができます 正規分布する確率変数Yを考えます。(これはモデルの仮定の1つです。) 帰無仮説は次のとおりです。確率変数Yの母平均µは特定の値µ0です。簡単にするために、片側対立仮説について説明します。確率変数Yの母平均µはµ0より大きいです。(すなわち、µ> µ0) 別のモデル仮定では、サンプルは単純なランダムサンプルであるとしています。サイズnの単純なランダムサンプルの形式のデータがあります。 仮説検定の背後にある考えを理解するために、データのサンプルをしばらくの間保留し、確率変数Yから同じサイズnのすべての可能な単純なランダムサンプルを考慮する必要があります。 そのようなサンプルの場合、そのサンプル平均ȳとそのサンプル標準偏差sを計算できます。次に、ȳとsを使用してt統計量t =(ȳ-µ0)/(s /√n)を計算します Yからサイズnのすべての可能な単純なランダムサンプルに対してこれを行うと、新しいランダム変数Tnが得られます。その分布は、サンプリング分布と呼ばれます。 この推論手順(人口平均の片側t検定)に関連する数学的定理は、帰無仮説が真の場合、サンプリング分布はn自由度のt分布と呼ばれるものを持っていることを示しています。 私は内容の理解に問題はありませんが、私の最大の関心事は「サンプリング分布」という用語についてです。ここでは、帰無仮説が真である場合、いわゆるサンプリング分布は検定統計量分布を指します。理論的な分布です。ウィキペディア[2]によれば、帰無仮説は同じことを意味するようです。統計に関する講義ノートをたくさん読みましたが、両方の用語が共存しています。しかし、標本分布を検索すると、さらに多くの結果が得られます。 誰かが私の疑問を明確にできますか?null分布とサンプリング分布は同じ意味ですか? リファレンス:[1] http://www.ma.utexas.edu/users/mks/statmistakes/hyptest.html [2] http://en.wikipedia.org/wiki/Null_distribution

2
低差異シーケンスは離散空間で機能しますか?
実空間()の低差異シーケンスは、サンプル空間を均等にサンプリングするための非常に優れたツールのようです。私が知る限り、適切なマップ(たとえば、線形マップ)を使用すれば、実際の空間に一般化されます。[0,1]n[0,1]n[0,1]^n[0,1]→[a,b][0,1]→[a,b][0,1]\to[a,b] そのようなシーケンスは離散空間に一般化されますか?例えば。各次元に要素が2つしかないスペースがある場合(たとえば、ブールスイッチ)、マッピングできますか?より多くの要素を持つ次元についてはどうですか? (例えば、4状態スイッチ?)そして、各次元で状態の数が異なるスペースのために?[0,0.5]→0; (0.5,1]→1[0,0.5]→0; (0.5,1]→1[0,0.5]\to 0;\ (0.5,1]\to 1 私の直感は、これは特にサブシーケンスが長い場合は問題なく機能するが、状態の数によっては他のシーケンスよりも適切に機能する可能性があることを示しています(たとえば、Haltonシーケンスは、素数の状態、またはSobolシーケンスは、要素の次元でのみ機能します)。しかし、私はテストをしていません。2n2n2^n これが機能しない場合は、なぜでしょうか?
9 sampling 

2
信頼区間はクォータサンプリングに適用されますか?
フランスの投票機関は最近、2012年の大統領選挙の競馬レースでこれまでで最もばかげた投票としか呼べないものを発表した後、現在大きな危機に直面しています。フランス上院は現在、特に投票所に結果の信頼区間を公開するよう強制することにより、この問題を立法化することを検討しています。 ただし、一部の世論調査員はこの対策に反対しており、信頼区間はフランスの投票所で使用されている割り当てのサンプリングには適用されないと主張しています。割り当てのサンプリングは正式には非確率論的サンプリングであるため、主張にはいくつかの真実があります。しかし、割り当てサンプリングは基本的に層別サンプリングであるため、信頼区間を適用する必要がありますよね? フランス以外で、世論調査担当者も割り当てのサンプリングを使用している国で、この問題についての経験をお願いしてもよいですか

1
MCMCの反復ごとに大きなデータセットをサブサンプリングできますか?
問題:ギブスサンプリングを実行して、大規模なデータセットの事後を推測したい。残念ながら、私のモデルはそれほど単純ではないため、サンプリングが遅すぎます。私は変分的または並列的なアプローチを検討しますが、その前に... 質問:すべてのステップで学習するインスタンスが少なくなるように、ギブスの反復ごとにデータセットからランダムに(置き換えて)サンプリングできるかどうか知りたいのですが。 私の直感は、サンプルを変更しても確率密度を変更しないため、ギブスサンプルはトリックに気付かないはずです。私は正しいですか?これを行った人々の言及はありますか?


3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
プロポーザル配布-Metropolis Hastings MCMC
メトロポリス-ヘイスティングスマルコフチェーンモンテカルロでは、提案の分布はガウシアン(Wikipediaによると)を含めて何でもかまいません。 Q:Gaussian以外のものを使用する動機は何ですか?Gaussianは機能し、評価が簡単で、高速で、誰もが理解しています。なぜ他のことを検討するのですか? Q:プロポーザル分布は何でもかまいませんが、均一分布を使用できますか?

2
制約の影響を受ける複数の離散変数からランダムに均一にサンプルを生成する方法は?
壷をI色のN個のボールC [i]で満たすモンテカルロプロセスを生成したいと思います。各色C [i]には、骨壷に配置する必要のあるボールの最小数と最大数があります。 たとえば、私はつぼに100個のボールを入れようとしていて、4つの色で満たすことができます。 赤-最小0、最大100#NB、実際の最大は実現できません。 青-最小50、最大100 黄色-最小0、最大50 緑-最小25、最大75 可能な結果全体に均一に分散されることが保証されているNサンプルをどのように生成できますか? ボールに最小値も最大値もない、または同じ暗黙の最小値と最大値があるというこの問題の解決策を見てきました。たとえば、少し異なる主題に関するこの議論を参照してください。 合計が1になる均一に分散された重みを生成しますか? しかし、私はこの解決策を一般化することに問題を抱えています。

2
カーネル密度推定からのシミュレーション(経験的PDF)
グローバル帯域幅カーネル密度推定器(動的混合モデルを含むパラメトリックモデルは適切に適合しないことが判明しました)によって最適にモデル化された観測ベクトルがXありN=900ます。 さて、このKDEからシミュレーションしたいと思います。これはブートストラップによって実現できることを知っています。 Rでは、すべてがこの単純なコード行(ほぼ疑似コード)にx.sim = mean(X) + { sample(X, replace = TRUE) - mean(X) + bw * rnorm(N) } / sqrt{ 1 + bw^2 * varkern/var(X) }帰着します。ここで、分散補正付きの平滑化されたブートストラップが実装され、varkern選択されたカーネル関数の分散です(たとえば、ガウスカーネルの場合は1 )。 500回の繰り返しで得られるのは次のとおりです。 それは機能しますが、観測値のシャッフル(ノイズを追加したもの)が確率分布からのシミュレーションと同じであることを理解するのに苦労していますか?(分布はここではKDEです)、標準のモンテカルロと同様です。さらに、ブートストラップはKDEからシミュレーションする唯一の方法ですか? 編集:分散補正付きの平滑化されたブートストラップの詳細については、以下の私の回答を参照してください。

3
均一分布を使用したRでの相関ランダムサンプルの生成
[最近の質問で、Rでランダムなベクトルを生成することを検討しており、その「研究」を特定のポイントに関する独立したQ&Aとして共有したいと思いました。] 相関してランダムなデータを生成する相関行列のコレスキー分解を用いて行うことができるここでの前記事に反映されるように、ここで及びここ。C= L LTC=LLTC = LL^{T} 私が対処したいのは、Rの異なる周辺分布から相関乱数を生成するために均一分布を使用する方法です。

1
データテーブルのレコードの正誤を検証するためのサンプルサイズを計算する方法
CrossValidatedで既存の回答を読みましたが(オンラインで他の場所でも)、探しているものが見つかりませんが、見逃した場合は既存のソースを参照してください。 N = 1000レコードのデータセットがあるとします。各レコードは手動でサンプリングし、「有効」または「無効」(または真/偽、右/間違っなど)としてラベル付けできます。 データセット内のすべてのレコードが有効であるという一定のレベルの信頼を実現したいと考えています。レコードをサンプリングするときに、無効なレコードが1つ見つかった場合は、戻ってデータセットの作成方法を修正し、その問題と同様の問題を修正します。 したがって、無効なものを特定し、データセットを修正して再作成した後、有効なレコードのみを含むサンプリングを行います。すべてのレコードが有効であることを(たとえば)99%または95%確認したい場合、サンプルはどのくらいの大きさでなければなりませんか?(理想的にはNの関数として。) 私は超幾何テスト(http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test)をいじってみました-そのコンテキストではkが何であるか知りたいのですが、Kの固定値を持っていません。むしろ、KがNに等しくなるようにkを選択したいのですが、K = Nを設定すると、明らかに1の確率になります。ベイジアンアプローチを使用する必要があるかどうかも疑問に思っていますが、ベイジアン統計を十分に理解していません。

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.