統計とビッグデータ simulation

2

私は、次元のpノルムボールから来る均一に分布したノイズを生成する関数を書こうとしています：nnn ||x||p≤r||x||p≤r\begin{equation} ||x||_p \leq r \end{equation} 円（）（http://mathworld.wolfram.com/DiskPointPicking.html）の可能な解決策を見つけましたが、異なる値に対してこれを拡張するのに問題があります。p=2p=2p = 2ppp 私は、一様な分布からランダムなサンプルを描画し、それが指定された制約を満たさない場合に再描画することでそれを試みました。しかし、醜い解決策であることに加えて、高次元では計算的に実行不可能になります。

10 simulation noise

4

これは正しいです？（Truncated-norm-multivariate-Gaussianの生成）

もし、すなわち、 F X（X ）= 1X∈Rn, X∼N(0–,σ2I)X∈Rn, X∼N(0_,σ2I)X\in\mathbb{R}^n,~X\sim \mathcal{N}(\underline{0},\sigma^2\mathbf{I})fX(x)=1(2πσ2)n/2exp(−||x||22σ2)fX(x)=1(2πσ2)n/2exp⁡(−||x||22σ2) f_X(x) = \frac{1}{{(2\pi\sigma^2)}^{n/2}} \exp\left(-\frac{||x||^2}{2\sigma^2}\right) 多変量の場合の切り捨て正規分布の類似バージョンが必要です。より正確には、ノルムに制約された（値）多変量ガウスY st f Y（y ）= { cを生成します。F X（Y ）、もし | | y | | ≥ 0を、そうでありません。ここで、c = 1≥a≥a\geq aYYYfY(y)={c.fX(y), if ||y||≥a0, otherwise .fY(y)={c.fX(y), if ||y||≥a0, otherwise . f_Y(y) = \begin{cases} c.f_X(y), \text{ …

10 normal-distribution simulation random-generation

4

統計シミュレーションの説明

私は統計学者ではありません。ですから、もしあれば、私の失敗に耐えてください。シミュレーションがどのように行われるかを簡単な方法で説明していただけますか？正規分布からランダムなサンプルを選び、シミュレーションに使用することは知っています。しかし、明確に理解しないでください。

10 simulation

1

とサンプリングコスト

次のシミュレーション問題に遭遇しました：既知の実数のセットが与えられた場合、分布はここで、は正の部分を示します。この分布をターゲットとするMetropolis-Hastingsサンプラーを考えることもできますが、アルゴリズムの次数をから。{ω1,…,ωd}{ω1,…,ωd}\{\omega_1,\ldots,\omega_d\}{−1,1}d{−1,1}d\{-1,1\}^dP(X=(x1,…,xd))∝(x1ω1+…+xdωd)+P(X=(x1,…,xd))∝(x1ω1+…+xdωd)+\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+(z)+(z)+(z)_+zzzO(2d)O(2d)O(2^d)O(d)O(d)O(d)

9 simulation algorithms random-generation computational-statistics metropolis-hastings

1

シミュレーションによる重要度サンプリングのカバレッジが予想より低い

私はRの重要性サンプリング法と積分を評価する質問に答えようとしていました。基本的に、ユーザーは計算する必要があります ∫π0f(x)dx=∫π01cos(x)2+x2dx∫0πf(x)dx=∫0π1cos⁡(x)2+x2dx\int_{0}^{\pi}f(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}dx 指数分布を重要度分布として使用する q(x)=λ exp−λxq(x)=λ exp−λxq(x)=\lambda\ \exp^{-\lambda x} そして、積分のより良い近似を与えるの値を見つけます（それはです）。私は、平均値の評価などの問題を書き直すμのF （X ）上に[ 0 、π ]：積分次いでだけでπ μ。 λλ\lambdaself-studyμμ\muf(x)f(x)f(x)[0,π][0,π][0,\pi]πμπμ\pi\mu このように、聞かせてのPDFであるX 〜U（0 、π ）、およびlet Y 〜のF （X ）の目標は、現在推定することです。p(x)p(x)p(x)X∼U(0,π)X∼U(0,π)X\sim\mathcal{U}(0,\pi)Y∼f(X)Y∼f(X)Y\sim f(X) μ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫π01cos(x)2+x21πdxμ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫0π1cos⁡(x)2+x21πdx\mu=\mathbb{E}[Y]=\mathbb{E}[f(X)]=\int_{\mathbb{R}}f(x)p(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}\frac{1}{\pi}dx 重要性サンプリングを使用します。Rでシミュレーションを実行しました。 # clear the environment and set the seed for reproducibility rm(list=ls()) gc() graphics.off() set.seed(1) # function to be integrated f <- function(x){ 1 …

9 r simulation exponential importance-sampling

2

異分散性で線形回帰をシミュレーションする

私が持っている経験的データと一致するデータセットをシミュレートしようとしていますが、元のデータのエラーを推定する方法がわかりません。経験的データには不等分散性が含まれていますが、私はそれを変換することに興味はありません。むしろ、経験的データのシミュレーションを再現するために誤差項をもつ線形モデルを使用します。たとえば、いくつかの経験的データセットとモデルがあるとします。 n=rep(1:100,2) a=0 b = 1 sigma2 = n^1.3 eps = rnorm(n,mean=0,sd=sqrt(sigma2)) y=a+b*n + eps mod <- lm(y ~ n) 使用plot(n,y)すると、次のようになります。ただし、データをシミュレートしようとするsimulate(mod)と、異分散性は削除され、モデルによってキャプチャされません。一般化された最小二乗モデルを使用できます VMat <- varFixed(~n) mod2 = gls(y ~ n, weights = VMat) AICに基づいてより適切なモデルフィットを提供しますが、出力を使用してデータをシミュレートする方法がわかりません。私の質問は、元の経験的データ（上記のnおよびy）に一致するようにデータをシミュレートできるモデルをどのように作成するかです。具体的には、いずれかのモデルを使用して、エラーであるsigma2を推定する方法が必要ですか？

9 r simulation heteroscedasticity gamlss dglm

1

複数の期待を計算するときにドローを最適に分散する方法

期待値を計算したいとします。 EYEバツ| Y[ f（X、Y）]EYEX|Y[f(X,Y)]E_YE_{X|Y}[f(X,Y)] モンテカルロシミュレーションを使用してこれを近似したいとします。 EYEバツ| Y[ f（X、Y）] ≈ 1R SΣr = 1RΣs = 1Sf（xr 、s、yr）EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)E_YE_{X|Y}[f(X,Y)] \approx \frac1{RS}\sum_{r=1}^R\sum_{s=1}^Sf(x^{r,s},y^r) しかし、両方の分布からサンプルを抽出するのはコストがかかるため、固定数のみを抽出する余裕があると想定します。 KKK どのようにを割り当てるべきですか？例には、各分布へのK / 2ドロー、または極端な場合、外側の1ドローと内側のK − 1ドロー、その逆などが含まれます。KKKK/ 2K/2K/2K− 1K−1K-1 私の直感は、それが互いに対する分布の分散/エントロピーと関係があるはずだと私に教えてくれます。外側の点が質点であるとすると、MCエラーを最小化するの除算は、Yの 1を描画し、XのK − 1を描画します。Y。 KKKYYYK−1K−1K-1X|YX|YX|Y うまくいけば、これは明確でした。

9 optimization conditional-probability simulation expected-value monte-carlo

3

バイアスされたコインを使用して、ベルヌーイ変数を確率シミュレートします

誰かがどのようにシミュレートするために、私に教えてもらえます、（あなたが必要な回数だけ）コインを使用しては、投げると？、B∈NP（H）=PBernoulli(ab)Bernoulli(ab)\mathrm{Bernoulli}\left({a\over b}\right)a,b∈Na,b∈Na,b\in \mathbb{N}P(H)=pP(H)=pP(H)=p 拒否のサンプリングを使用することを考えていましたが、それを明確にすることはできませんでした。

9 probability simulation bernoulli-distribution rejection-sampling

1

マルチレベルのロジスティック回帰モデルの推定

レベル1（個別レベル）に1つの説明変数とレベル2（グループレベル）に1つの説明変数を持つ次のマルチレベルロジスティックモデル： logit(pij)=π0j+π1jxij…(1)logit(pij)=π0j+π1jxij…(1)\text{logit}(p_{ij})=\pi_{0j}+\pi_{1j}x_{ij}\ldots (1) π0j=γ00+γ01zj+u0j…(2)π0j=γ00+γ01zj+u0j…(2)\pi_{0j}=\gamma_{00}+\gamma_{01}z_j+u_{0j}\ldots (2) π1j=γ10+γ11zj+u1j…(3)π1j=γ10+γ11zj+u1j…(3)\pi_{1j}=\gamma_{10}+\gamma_{11}z_j+u_{1j}\ldots (3) ここで、グループレベルの残差およびは、期待値がゼロの多変量正規分布であると想定されます。残差誤差の分散はとして指定され、残差誤差の分散はとして指定されます。u0ju0ju_{0j}u1ju1ju_{1j}u0ju0ju_{0j}σ20σ02\sigma^2_0u1ju1ju_{1j}σ21σ12\sigma^2_1 モデルのパラメーターを推定したいのですが、Rcommand を使用したいと思います glmmPQL。式（1）に式（2）と（3）を代入すると、 logit(pij)=γ00+γ10xij+γ01zj+γ11xijzj+u0j+u1jxij…(4)logit(pij)=γ00+γ10xij+γ01zj+γ11xijzj+u0j+u1jxij…(4)\text{logit}(p_{ij})=\gamma_{00}+\gamma_{10}x_{ij}+\gamma_{01}z_j+\gamma_{11}x_{ij}z_j+u_{0j}+u_{1j}x_{ij}\ldots (4) 30のグループと各グループに5つの個人があります。(j=1,...,30)(j=1,...,30)(j=1,...,30) Rコード： #Simulating data from multilevel logistic distribution library(mvtnorm) set.seed(1234) J <- 30 ## number of groups n_j <- rep(5,J) ## number of individuals in jth group N <- sum(n_j) g_00 <- -1 g_01 …

9 r logistic generalized-linear-model simulation multilevel-analysis

2

混合分布の逆CDFサンプリング

コンテキスト外のショートバージョンましょうyyy CDFを有する確率変数である F(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = 0 y > 0F(⋅)≡{θ y = 0 θ+(1−θ)×CDFlog-normal(⋅;μ,σ) y > 0 F(\cdot) \equiv \cases{\theta & y = 0 \\ \theta + (1-\theta) \times \text{CDF}_{\text{log-normal}}(\cdot; \mu, \sigma) & y > 0} 逆CDF法を使用して描画をシミュレートしたいとしましょうyyy。それは可能ですか？この関数は、厳密には逆を持ちません。次に、2つの正規分布の混合分布の逆変換サンプリングがあります。これは、ここで逆変換サンプリングを適用する既知の方法があることを示唆しています。 2ステップの方法は知っていますが、自分の状況に適用する方法がわかりません（以下を参照）。背景付きロングバージョン MCMC（具体的には、Stan）を使用して、ベクトル値応答yi=(y1,…,yK)iyi=(y1,…,yK)iy^i = \left( y_1 , \dots , y_K \right)^iに次のモデルを適合させました。 θik≡logit−1(αkxi),μik≡βkxi−σ2k2F(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y …

9 r distributions sampling simulation copula

1

投げ縄モデルから除外または含まれている変数を解釈するにはどうすればよいですか？

他の投稿から、ラッソーモデルに入る予測変数に「重要度」または「重要度」を帰属させることはできないと述べました。これらの変数のp値または標準偏差の計算はまだ進行中であるためです。その推論の下で、投げ縄モデルから除外された変数は「無関係」または「重要ではない」とは言えないと断言するのは正しいですか？もしそうなら、ラッソーモデルに除外または含まれている変数について実際に何を主張できますか？私の特定のケースでは、ランダム値を減らし、エラー曲線を平均化するために、10倍の交差検証を100回繰り返すことにより、調整パラメーターlambdaを選択しました。 UPDATE1：以下の提案に従い、ブートストラップサンプルを使用して投げ縄を再実行しました。100個のサンプルを試してみました（その量は私のコンピューターの電源で一晩で管理できる量でした）と、いくつかのパターンが現れました。41の変数のうち2つがモデルに95％以上入り、3つの変数が90％を超え、5つの変数が85％を超えました。これらの5つの変数は、元のサンプルで実行したときにモデルに入力された9つの変数の1つであり、そのとき係数値が最も高かったものです。1000のブートストラップサンプルを使用してLassoを実行し、それらのパターンが維持されている場合、私の結果を提示する最良の方法は何ですか？ 1000のブートストラップサンプルで十分ですか？（私のサンプルサイズは116です）すべての変数とそれらがモデルに入力される頻度をリストし、より頻繁に入力される変数が有意である可能性が高いと主張する必要がありますか？それは私の主張でできる限りですか？仕掛品ですので（上記参照）カットオフ値は使えませんよね？ UPDATE2：以下の提案に従って、私は以下を計算しました。平均して、元のモデルの変数の78％が100のブートストラップサンプルに対して生成されたモデルに入りました。一方、その逆では41％に過ぎません。これは、ブートストラップサンプル用に生成されたモデルには、元のモデル（9）よりもはるかに多くの変数（平均17）が含まれる傾向があるという事実に大きく関係しています。 UPDATE3：ブートストラップとモンテカルロシミュレーションから得た結果の解釈を手伝っていただけるなら、この他の投稿をご覧ください。

9 statistical-significance bootstrap simulation lasso regression-strategies

1

確率への収束の定数へのシミュレーション

漸近的な結果は、無限の概念を含むステートメントであるため、コンピュータシミュレーションでは証明できません。しかし、理論が教えているように、物事が実際に進んでいるという感覚を得ることができるはずです。理論的な結果を検討リムn → ∞P（| Xん| >ϵ）=0、ϵ > 0limn→∞P(|Xn|>ϵ)=0,ϵ>0\lim_{n\rightarrow\infty}P(|X_n|>\epsilon) = 0, \qquad \epsilon >0 ここで、はn個の確率変数の関数であり、同一かつ独立して分布していると言います。これは、X nが確率でゼロに収束することを示しています。ここで私が推測する典型的な例は、X nがサンプルの平均からサンプルのiidrvの一般的な期待値を引いた場合です。バツんXnX_nんnnバツんXnX_nバツんXnX_n バツん= 1んΣi = 1んY私− E[ Y1]Xn=1n∑i=1nYi−E[Y1]X_n = \frac 1n\sum_{i=1}^nY_i - E[Y_1] 質問：必ずしも有限サンプルからのコンピュータシミュレーション結果を使用して、上記の関係が「現実の世界で具体化する」ことを誰かに説得力をもって示すにはどうすればよいでしょうか。特に定数への収束を選択したことに注意してください。以下に私のアプローチを回答として示します。より良いものを望んでいます。更新：頭の後ろの何かが気になりました-そして私は何を見つけました。私は古い質問を掘り起こし、最も興味深い議論が回答の1つに対するコメントで行われました。そこでは、@ Cardinalは一貫しているが、その分散は漸近的にゼロではなく有限であるという推定量の例を提供しました。したがって、私の質問のより難しい変形は次のようになります：この統計が非ゼロで有限の分散を漸近的に維持する場合、統計によって確率が定数に収束することをシミュレーションでどのように示すのですか？

9 mathematical-statistics simulation convergence asymptotics

3

正規性テストの力の評価（R）

Rのさまざまなサンプルサイズでの正規性検定の精度を評価したい（正規性検定が誤解を招く可能性があることを理解しています）。たとえば、Shapiro-Wilkテストを確認するために、次のシミュレーション（および結果のプロット）を実行しています。サンプルサイズが増加すると、nullを拒否する確率が減少すると予想されます。 n <- 1000 pvalue_mat <- matrix(NA, ncol = 1, nrow = n) for(i in 10:n){ x1 <- rnorm(i, mean = 0, sd = 1) pvalue_mat[i,] <- shapiro.test(x1)$p.value } plot(pvalue_mat) 私の考えでは、サンプルサイズが大きくなると、拒否率は低くなるはずですが、かなり均一に見えます。私はこれを誤解していると思います-どんな考えでも歓迎します。

9 r simulation power-analysis normality-assumption

2

メディエーションモデルに適合するようにデータをシミュレーションする

特定のメディエーションモデルと一致するデータをシミュレートする手順を見つけることに興味があります。Barron and Kenny（1986）によって最初に概説され、Judd、Yzerbyt、＆Muller（2013）などの他の場所で説明されたメディエーションモデルをテストするための一般的な線形構造方程式モデルフレームワークによると、結果メディエーションモデル、メディエーター、および予測子あり、次の3つの回帰方程式によって管理されます： YYYmedmed\newcommand{\med}{\rm med} \medXXXYmedY=b11+b12X+e1=b21+b22X+e2=b31+b32X+b32med+e3(1)(2)(3)(1)Y=b11+b12X+e1(2)med=b21+b22X+e2(3)Y=b31+b32X+b32med+e3\begin{align} Y &= b_{11} + b_{12}X + e_1 \tag{1} \\ \med &= b_{21} + b_{22}X + e_2 \tag{2} \\ Y &= b_{31} + b_{32}X + b_{32} \med + e_3 \tag{3} \end{align}を介したに対するの間接効果または仲介効果は、として、または同等にとして定義できます。メディエーションのテストの古いフレームワークでは、メディエーションは、式1の、式2の、および式3のをテストすることで確立されました。XXXYYYmedmed\medb22b32b22b32b_{22}b_{32}b12−b32b12−b32b_{12}-b_{32}b12b12b_{12}b22b22b_{22}b32b32b_{32} これまで、以下のコードのように、in を使用してさまざまな回帰係数の値と一致するおよび値をシミュレートすることを試みました：medmed\medYYYrnormR x <- rep(c(-.5, .5), 50) med <- 4 + .7 * …

9 r regression simulation random-generation mediation

1

カテゴリー変数を使用したロジスティック回帰のデータのシミュレーション

私はロジスティック回帰のテストデータを作成しようとしていましたが、この投稿「ロジスティック回帰の人工データをシミュレートする方法」を見つけました。これは良い答えですが、連続変数のみを作成します。リンクと同じ例で、yに関連付けられた5レベルのカテゴリカル変数x3（ABCDE）はどうですか？

9 r logistic simulation

タグ付けされた質問 「simulation」

タグ付けされた質問「simulation」