統計とビッグデータ simulation

2

グローバル帯域幅カーネル密度推定器（動的混合モデルを含むパラメトリックモデルは適切に適合しないことが判明しました）によって最適にモデル化された観測ベクトルがXありN=900ます。さて、このKDEからシミュレーションしたいと思います。これはブートストラップによって実現できることを知っています。 Rでは、すべてがこの単純なコード行（ほぼ疑似コード）にx.sim = mean(X) + { sample(X, replace = TRUE) - mean(X) + bw * rnorm(N) } / sqrt{ 1 + bw^2 * varkern/var(X) }帰着します。ここで、分散補正付きの平滑化されたブートストラップが実装され、varkern選択されたカーネル関数の分散です（たとえば、ガウスカーネルの場合は1 ）。 500回の繰り返しで得られるのは次のとおりです。それは機能しますが、観測値のシャッフル（ノイズを追加したもの）が確率分布からのシミュレーションと同じであることを理解するのに苦労していますか？（分布はここではKDEです）、標準のモンテカルロと同様です。さらに、ブートストラップはKDEからシミュレーションする唯一の方法ですか？編集：分散補正付きの平滑化されたブートストラップの詳細については、以下の私の回答を参照してください。

8 distributions sampling bootstrap simulation kernel-smoothing

1

MCMC for PDFのcdfsに相当するものは何ですか？

特定のコピュラ、つまりで定義された多変量cdfからのシミュレーションに関する相互検証された質問と共に、私はより大きな図、つまり、そのような関数が与えられた場合、対応する確率分布からシミュレーションする一般的なアルゴリズムを計算できますか？、[ 0 、1 ]C(u1,…,uk)C(u1,…,uk)C(u_1,\ldots,u_k)[0,1]k[0,1]k[0,1]^k 明らかに、一つの解決策は、区別することである対応するPDF生成するために時間をし、その後からのサンプルを生成するメトロポリス・ヘイスティングスような一般的なMCMCアルゴリズムを呼び出す（又は）。k個のκ （U 1、... 、U K）C κCCC kkkκ(u1,…,uk)κ(u1,…,uk)\kappa(u_1,\ldots,u_k)CCCκκ\kappa 余談：別の解決策は、シミュレーションにラプラススティエルス変換を使用して、アルキメデスのコピュラに固執することですが、これは実際には常に可能であるとは限りません。上記の質問を解決しようとしたときに私が見つけたように。私の質問は、可能であれば、この差別化ステップを一般的な方法で回避することです。

8 multivariate-analysis simulation mcmc copula

1

与えられた相関関係を持つ二項確率変数の生成

独立した二項確率変数を生成する方法を知っているとします。どのように生成することができる2つのランダム変数とようにXXXYYYX∼Bin(8,23),Y∼Bin(18,23) and Corr(X,Y)=0.5X∼Bin(8,23),Y∼Bin(18,23) and Corr(X,Y)=0.5X\sim \text{Bin}(8,\dfrac{2}{3}),\quad Y\sim \text{Bin}(18,\dfrac{2}{3})\ \text{ and }\ \text{Corr}(X,Y)=0.5 とは独立しているという事実を使おうと考えましたが、が二項分布であるため、この方法は使用できません。これが機能した場合、2つの二項確率変数、たとえばと、とつまり、、ペア。しかし、は二項分布ではないためこれを行うことはできません。Y - ρ X ρ = C O R R （X 、Y ）X - ρ Y A B X = A Y - ρ X = B Y = B + ρ A （X 、Y ）Y - ρ …

8 self-study correlation multivariate-analysis binomial simulation

1

低いサンプルサイズ：LR vs F-テスト

皆さんの中には、この素晴らしい論文を読んだことがあるかもしれません。 O'Hara RB、Kotze DJ（2010）カウントデータをログ変換しません。生態学と進化の方法1：118–122。クリック。現在、私は、変換されたデータの負の二項モデルをガウスモデルと比較しています。O'Hara RBとは異なり、Kotze DJ（2010）は、サンプルサイズが低く、仮説検定のコンテキストでの特殊なケースを調べています。両方の違いを調査するために使用されたシミュレーション。タイプIエラーシミュレーションすべての計算はRで行われました。 1つのコントロールグループ（μcμcμ_c）と5つの処理グループ（μ1−5μ1−5μ_{1−5}）を含む要因計画のデータをシミュレーションしました。存在量は、固定分散パラメーター（θ= 3.91）の負の二項分布から抽出されました。存在量はすべての処理で同等でした。シミュレーションでは、サンプルサイズ（3、6、9、12）とアバンダンス（2、4、8、...、1024）を変化させました。100のデータセットが生成され、負の二項GLM（MASS:::glm.nb()）、準ポアソンGLM（glm(..., family = 'quasipoisson'）およびガウスGLM +対数変換データ（lm(...)）を使用して分析されました。尤度比検定（lmtest:::lrtest()）（ガウスGLMおよび否定ビンGLM）とF検定（ガウスGLMおよび準ポアソンGLM）（anova(...test = 'F')）を使用して、モデルをnullモデルと比較しました。必要に応じてRコードを提供できますが、私の関連する質問についてはこちらもご覧ください。結果サンプルサイズが小さい場合、LRテスト（緑-負のビン;赤-ガウス）により、Type-Iエラーが増加します。F検定（青-ガウス、紫-準ポアソン）は、小さいサンプルサイズでも機能するようです。 LRテストでは、LMとGLMの両方で同様の（増加した）タイプIエラーが発生します。興味深いことに、準ポアソンはかなりうまく機能します（ただし、F検定でも機能します）。予想どおり、サンプルサイズが増加すると、LR-Testも適切に実行されます（漸近的に正しい）。サンプルサイズが小さい場合、GLMにはいくつかの収束の問題（表示されていません）がありましたが、存在量が少ない場合のみであるため、エラーの原因は無視できます。ご質問データがneg.binから生成されたことに注意してください。モデル-したがって、GLMが最高のパフォーマンスを発揮することを期待していました。ただし、この場合、変換された存在量の線形モデルのパフォーマンスが向上します。準ポアソン（F検定）についても同様です。これは、F検定が小さいサンプルサイズでよりよく機能しているためと考えられます。これは正しいですか、なぜですか LR-Testは、症状がないため、うまく機能しません。改善の可能性はありますか？ GLMのパフォーマンスが向上する可能性のある他のテストはありますか？GLMのテストを改善するにはどうすればよいですか？サンプルサイズが小さいカウントデータには、どのタイプのモデルを使用する必要がありますか？編集：興味深いことに、二項GLMのLR-Testはかなりうまく機能します。ここで、上記と同様の設定で、二項分布からデータを描画します。赤：ガウスモデル（LRテスト+アルクシン変換）、黄土色：二項GLM（LRテスト）、緑：ガウスモデル（Fテスト+アルクシン変換）、青：準二次GLM（Fテスト）、紫：非パラメトリック。ここでは、ガウスモデル（LR-Test + arcsin変換）のみがType Iエラーの増加を示していますが、GLM（LR-Test）はType Iエラーの点でかなり優れています。そのため、ディストリビューションにも違いがあるようです（または、glmとglm.nbの違いはありますか？）。

8 hypothesis-testing generalized-linear-model simulation negative-binomial type-i-and-ii-errors

4

確率変数の合計の条件付けを含むシミュレーション

8 r simulation monte-carlo conditional-expectation

1

多変量ガウスのコンターのハイパーボリューム

から抽出されたサイズサンプルで、原点までのユークリッド距離が最小の観測値の％の（行列式の対数）の共分散の（）値の値を探しています、二変量標準ガウス。α Nn→∞n→∞n\rightarrow \inftyαα\alphannn -楕円のハイパーボリュームは、その共分散行列の行列式に比例するため、タイトルに比例します- 標準変量ガウス--By、Iは平均長さ2の0のベクトルであり、ランク2単位行列であるが.--- 0 2 IN2(02,II2)N2(02,II2)\mathcal{N}_2(0_2,\pmb I_2)02020_2II2II2\pmb I_2 、数値が前後の場合よりも、シミュレーションで簡単に確認でき。α=52/70α=52/70\alpha=52/70≈−1.28≈−1.28\approx -1.28 library(MASS) n<-10000 p<-2 x<-mvrnorm(n,rep(0,p),diag(2)) h<-ceiling(0.714286*n) p<-ncol(x) w<-mahalanobis(x,rep(0,p),diag(p),inverted=TRUE) #These are eucledian distances, because the covariance used is the identity matrix s<-(1:n)[order(w)][1:h] log(det(cov(x[s,]))) しかし、これについて正確な式を取得する方法（または失敗した場合、より良い近似）を思い出しません。

8 r mathematical-statistics simulation

1

従属変数が非正規分布である回帰データをシミュレートします

回帰分析の場合、データ生成プロセスを理解して、使用した方法がどのように機能するかを確認すると便利な場合があります。単純な線形回帰でこれを行うのはかなり簡単ですが、従属変数が特定の分布に従う必要がある場合は、これは当てはまりません。単純な線形回帰を考えます。 N <- 100 x <- rnorm(N) beta <- 3 + 0.4*rnorm(N) y <- 1 + x * beta + .75*rnorm(N) 同じアプローチを使用する方法はありますがy、通常とは異なる方法があると思いますか？

8 r regression simulation random-generation

1

リサンプリングシミュレーションの中心的な傾向が観測値と著しく異なるのはなぜ/なぜですか？

ブートストラップされたサンプルの中心傾向（つまり、平均値および/または中央値）が観測値に類似していることを常に期待する必要がありますか？この特定のケースでは、被験者の2つの条件に指数関数的に分布する応答があります（私は実験を実行せず、データしかありません）。私は効果サイズをブートストラップするタスクを課されました（コーエンのdの観点から、1サンプルの式、つまりは、母標準偏差のサンプル推定です。これのフォーラムはRosenthal＆Rosnow（2008）のpg 398、式13.27で提供されています。これらは分母にを使用しています。これは歴史的に正しいためですが、標準的な実務ではdをを使用するように誤って定義しているため、上記の計算でそのエラーを続けています。MD¯sDMD¯sD\bar{M_D}\over{s_D}σσ\sigmasss 参加者内（つまり、参加者のRTが複数回サンプリングされる場合がある）と被験者全体（参加者が複数回サンプリングされる場合がある）の両方をランダム化したため、参加者1が2回サンプリングされても、両方のサンプルの平均RTはありそうにありません完全に等しい。ランダム化/リサンプリングされたデータセットごとに、dを再計算します。この場合、です。私が観察しているのは、コーエンのdの観測値が、シミュレートされた観測値の2.5パーセンタイルよりも通常97.5パーセンタイルに近い傾向です。また、ブートストラップの中央値よりも0に近い傾向があります（シミュレートされた分布の密度の5％〜10％）。Nsim=10000Nsim=10000N_{sim} = 10000 これを説明できるものは何ですか（私が観察している効果の大きさを覚えておいてください）？それは、リサンプリングの際の平均値の端部と比較して観察されたものよりも極端な分散を取得するほうが、リサンプリングの際に「簡単」であるためですか？これは、過度にマッサージ/選択的にトリミングされたデータを反映しているのでしょうか？このリサンプリングアプローチはブートストラップと同じですか？そうでない場合、CIを作成するために他に何をする必要がありますか？

8 bootstrap simulation effect-size cohens-d

2

MCMCシミュレーションでの有効なサンプルサイズは、実際のサンプルサイズよりも大きくできますか？

私effectiveSize()は、MCMCシミュレーションの有効なサンプルサイズを見つけるためにcodaパッケージを使用しました。実際のサンプルサイズが実際のサンプルサイズよりも大きい（9813.626が9501よりも大きいなど）。これは理にかなっているのでしょうか。私の理解では、有効なサンプルサイズは実際のサンプルサイズを超えることはできず、より多くの自己相関がある場合は小さくなります。

8 simulation mcmc

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

事前ヒストグラムによるベイズ分析。なぜ後方からシミュレーションを描くのですか？

これは、ジムアルバートの「Rを使用したベイジアン計算」の演習に関する初心者の質問です。これは宿題かもしれませんが、私の場合はそうではないことに注意してください。私はRでベイズ法を学んでいるので、将来の分析でそれを使用するかもしれないと思うからです。とにかく、これは特定の質問ですが、おそらくベイズ法の基本的な理解が関係しています。したがって、エクササイズ2.2では、ジムアルバートがペニースローの実験を分析するように求めています。こちらをご覧ください。事前ヒストグラムを使用します。つまり、可能なp値のスペースを10の長さの間隔で分割し.1、事前確率をこれらに割り当てます。私は真の確率がになることを知っており.5、宇宙が確率の法則を変更したり、ペニーが頑丈である可能性は非常に低いと思うので、私の事前確率は次のとおりです。 prior <- c(1,5,20,100,5000,5000,100,20,5,1) prior <- prior/sum(prior) 区間中点に沿って midpt <- seq(0.05, 0.95, by=0.1) ここまでは順調ですね。次に、ペニーを20回スピンし、成功（ヘッド）と失敗（テール）の数を記録します。簡単にできます： y <- rbinom(n=20,p=.5,size=1) s <- sum(y==1) f <- sum(y==0) 私の支出では、s == 7そしてf == 13。次に私が理解していない部分があります：（1）（0,1）の値のグリッドでpの事後密度を計算し、（2）グリッドから置き換えてシミュレートしたサンプルを取得することにより、事後分布からシミュレートします。（関数 histpriorとsampleはこの計算に役立ちます）。データに基づいて間隔確率はどのように変化しましたか？これがどのように行われるかです： p <- seq(0,1, length=500) post <- histprior(p,midpt,prior) * dbeta(p,s+1,f+1) post <- post/sum(post) ps <- sample(p, replace=TRUE, …

8 r bayesian simulation

4

計算能力のないCDFを含むディストリビューションからサンプリングするにはどうすればよいですか？

セミコンピューターサイエンスシミュレーション関連の問題はこちら。私はディストリビューションを持っています P（x）=(eb−1)eb(n−x)ebn+b−1(eb−1)eb(n−x)ebn+b−1\frac{(e^b-1) e^{b (n-x)}}{e^{b n+b}-1} 一部の定数bおよびnの場合、xはような整数です。0≤x≤n0≤x≤n0\leq x \leq n 今、私はこの分布からサンプリングする必要があります。それは可逆CDFを持っているので、理論的にはこれを直接行うことが可能です。問題は、関係する数値が大きいことです。実際には非常に大きいため、どちらも従来の形式の変数をオーバーフローし、任意の精度の形式を使用して計算するには少なくとも数分かかります（ある時点で私はあきらめました...）。基本的に、逆CDF には、依然としてが含まれます。これにもかかわらず、出力数はの範囲のままなので、これを行う方法があるはずです。eb(n+1)eb(n+1)e^{b(n+1)}350<n<3500350<n<3500 350 < n < 35000−n0−n0-n 私が探している約この分布からのサンプリングの方法である計算。サンプリングの代替方法はありますか？彼らは何ですか？

8 sampling simulation monte-carlo

2

tbatsモデルから予測サンプルパスをシミュレートする

Rob Hyndmanによる優れた予測パッケージを使用して、予測間隔を設けるだけでなく、複雑な季節性を持つ時系列の過去の観測を考慮して、将来のパスをシミュレートする必要性に遭遇しました。季節性が1つまたは2つしかない、それほど複雑ではない時系列用のものがあります（forecastパッケージのSimulate.ets（））。ただし、私の場合、より複雑なtbatsモデルには、simulate.ets（）と同等のものが必要になります。そのようなパスを作成するために必要なデータは既にフィットオブジェクトに存在していると思いますが、サンプルパスを作成する可能性には直接アクセスできないようです。したがって、私は素朴な解決策を考え出し、このアプローチが正しいかどうかを知りたいと思います。 require(forecast) fit = bats(test,use.parallel=T,use.damped.trend=F,use.trend=T,seasonal.periods=seasonal.periods) 単純に、からのポイント予測を使用してサンプルパスを構築できると思います fit > forecast(fit) Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 1960.016 24.48576 23.82518 25.14633 23.47550 25.49602 1960.032 24.79870 23.88004 25.71735 23.39374 26.20366 1960.048 25.31743 24.39878 26.23608 23.91247 26.72239 1960.065 25.69254 24.77389 26.61120 24.28759 27.09750 1960.081 26.06863 25.14998 26.98729 24.66367 …

8 r time-series forecasting simulation tbats

2

指数関数的に減衰する共分散関数を使用したガウス（Ornstein Uhlenbeck）プロセスのシミュレーション

ガウス過程、平均0と共分散関数。1 ≤ T ≤ T γ （S 、T ）= EXP （- | T - S |）ei(t)ei(t)e_i(t)1≤t≤T1≤t≤T1\leq t \leq Tγ(s,t)=exp(−|t−s|)γ(s,t)=exp⁡(−|t−s|)\gamma(s,t)=\exp(-|t-s|) 共分散行列の平方根の計算を含まない、これを行う効率的な方法はありますか？または、誰でもこれを行うためのパッケージを推奨できますか？T×TT×TT \times TR

8 r probability simulation stochastic-processes gaussian-process

1

Silver＆Dunlap 1987の複製がうまくいかないのはなぜですか？

Silver＆Dunlap（1987）を複製しようとしています。私は単に平均相関を比較している、または平均z変換相関と逆変換を比較しています。彼らが見つけたバイアスの非対称性を再現していないようです（逆変換されたzはrsよりも母集団の値に近くありません）。何かご意見は？1987年のコンピューティング能力が十分に空間を探索しなかった可能性はありますか？ # Fisher's r2z fr2z <- atanh # and back fz2r <- tanh # a function that generates a matrix of two correlated variables rcor <- function(n, m1, m2, var1, var2, corr12){ require(MASS) Sigma <- c(var1, sqrt(var1*var2)*corr12, sqrt(var1*var2)*corr12, var2) Sigma <- matrix(Sigma, 2, 2) return( mvrnorm(n, c(m1,m2), Sigma, empirical=FALSE) ) …

8 r correlation data-transformation simulation normalization

タグ付けされた質問 「simulation」

タグ付けされた質問「simulation」