タグ付けされた質問 「simulation」

コンピューターモデルから結果を生成することを含む広大な領域。

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 


2
マルコフ連鎖とマルコフ連鎖モンテカルロの関係は何ですか
SASを使用してマルコフ連鎖を理解しようとしています。マルコフ過程は、将来の状態が現在の状態にのみ依存し、過去の状態には依存せず、ある状態から別の状態への遷移確率をキャプチャする遷移行列があることを理解しています。 しかし、その後、私はこの用語に出くわしました:マルコフチェーンモンテカルロ。私が知りたいのは、マルコフ連鎖モンテカルロが上記のマルコフ過程に関係があるかどうかです。

3
切り捨てられた分布とはどういう意味ですか?
動的システムの常微分方程式モデルの感度解析に関する研究記事で、著者はモデルパラメーターの分布を[0.5eの範囲に切り捨てられた正規分布(平均= 1e-4、std = 3e-5)として提供しました-4 1.5e-4]。次に、この切り捨てられた分布のサンプルを使用して、モデルのシミュレーションを行います。切り捨てられた分布と、この切り捨てられた分布からのサンプルがあるとはどういう意味ですか? これを行うには、2つの方法があります。 正規分布からサンプリングしますが、シミュレーションの前に指定範囲外のすべてのランダム値を無視します。 何らかの形で特別な「切り捨てられた正規」分布を取得し、そこからサンプルを取得します。 これらは有効かつ同等のアプローチですか? 最初のケースでは、サンプルの実験的なcdf / pdfをプロットすると、曲線が拡張されないため、正規分布のようには見えません。±∞±∞\pm\infty

2
多重線形回帰シミュレーション
R言語は初めてです。回帰の4つの仮定すべてを満たす多重線形回帰モデルからシミュレーションする方法を知りたい。 わかりました。ありがとう。 このデータセットに基づいてデータをシミュレートしたいとしましょう: y<-c(18.73,14.52,17.43,14.54,13.44,24.39,13.34,22.71,12.68,19.32,30.16,27.09,25.40,26.05,33.49,35.62,26.07,36.78,34.95,43.67) x1<-c(610,950,720,840,980,530,680,540,890,730,670,770,880,1000,760,590,910,650,810,500) x2<-c(1,1,3,2,1,1,3,3,2,2,1,3,3,2,2,2,3,3,1,2) fit<-lm(y~x1+x2) summary(fit) 次に、出力を取得します: Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median 3Q Max -13.2805 -7.5169 -0.9231 7.2556 12.8209 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 42.85352 11.33229 3.782 0.00149 ** x1 -0.02534 0.01293 -1.960 0.06662 . x2 0.33188 2.41657 …

1
パラメトリックブートストラップを使用する理由
現在、パラメトリックブートストラップに関するいくつかの問題を回避しようとしています。ほとんどのことはおそらくささいなことですが、私はまだ何かを見逃しているかもしれません。 パラメトリックブートストラップ手順を使用してデータの信頼区間を取得するとします。 そのため、私はこのサンプルを入手し、その正規分布を仮定しています。私はその後、分散推定ますVと平均値Mを、私の分布推定値取得Pだけ明らかにされ、N (M、Vを)。v^v^\hat{v}m^m^\hat{m}P^P^\hat{P}N(m^,v^)N(m^,v^)N(\hat{m},\hat{v}) その分布からサンプリングする代わりに、分位数を分析的に計算して実行することができます。 a)結論:この些細なケースでは、パラメトリックブートストラップは正規分布の仮定で物事を計算するのと同じでしょうか? 理論的には、計算を処理できる限り、すべてのパラメトリックブートストラップモデルに当てはまります。 b)結論:特定の分布の仮定を使用すると、ノンパラメトリックブートストラップよりもパラメトリックブートストラップの精度が向上します(もちろん正しい場合)。しかし、それ以外は、分析計算を処理できず、それから抜け出す方法をシミュレートしようとするためです。 c)計算が「通常」何らかの近似を使用して行われる場合にも使用します。これにより、おそらくより正確になります...? 私にとって、(ノンパラメトリック)ブートストラップの利点は、ディストリビューションを想定する必要がないという事実にあるように見えました。パラメトリックブートストラップの場合、その利点は失われますか、それとも私が見逃したものがあり、パラメトリックブートストラップが上記のものよりも利点があるのでしょうか。

2
Rの確率微分方程式の数値ソルバー:ありますか?
Euler-Maruyamaスキーム、Milsteinスキーム(またはその他)を使用する(1)のような非均質非線形拡散からのパスをシミュレートするための、一般的でクリーンで高速な(つまりC ++ルーチンを使用する)Rパッケージを探しています。これは、より大きな推定コードに組み込まれる予定であるため、最適化する価値があります。 dバツt= f(θ 、t 、Xt)dt + g(θ、t 、Xt)dWt、(1)(1)dバツt=f(θ、t、バツt)dt+g(θ、t、バツt)dWt、dX_t = f(\theta, t, X_t)\, dt + g(\theta, t, X_t)\, dW_t, \tag{1} 標準ブラウン運動。 WtWtW_t

2
ポアソン回帰からデータサンプルを生成する
Rのポアソン回帰式からデータを生成する方法を疑問に思っていましたか?私はこの問題へのアプローチ方法を少し混乱させています。 私が想定している場合だから我々は2つの予測因子持つ及びX 2に分散されているN (0 、1 )。そして、切片は0で、係数は両方とも1になります。それから、私の推定は単純に:バツ1バツ1X_1バツ2バツ2X_2N(0 、1 )N(0、1)N(0,1) ログ(Y)= 0 + 1 ⋅ X1+ 1 ⋅ X2ログ⁡(Y)=0+1⋅バツ1+1⋅バツ2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 しかし、log(Y)を計算したら、それに基づいてポアソンカウントを生成するにはどうすればよいですか?ポアソン分布のレートパラメーターとは何ですか? 誰かが素晴らしいポアソン回帰サンプルを生成する簡単なRスクリプトを書くことができたら素晴らしいでしょう!

3
バートランドのボックスパラドックスのモンテカルロシミュレーションをプログラムする方法は?
次の問題がメンサインターナショナルのFacebookページに投稿されました。 \quad\quad\quad\quad\quad\quad\quad\quad 投稿自体には1000件以上のコメントが寄せられましたが、ここでの議論については詳しく説明しません。これはバートランドの箱のパラドックスであり、答えは。ここで私が興味を持っているのは、モンテカルロ法を使用してこの問題にどのように答えるかです。この問題を解決するアルゴリズムはどのようになっていますか?2323\frac23 私の試みは次のとおりです。 0から1までの均一に分布した乱数を生成します。NNN000111 ボックスのイベントに、半分未満に選択された2つの金のボール(ボックス1)が含まれているとします。 未満の数値をカウントし、結果をSとして呼び出します。0.50.50.5SSS ボックス1が選択されている場合はゴールドボールを取得するのは確実であり、ボックス2が選択されている場合はゴールドボールを取得する可能性は50%だけなので、シーケンスGGを取得する確率は P(B 2 = G | B 1 = G )= SS+ 0.5 (N− S)P(B2=G|B1=G)=SS+0.5(N−S)P(B2=G|B1=G)=\frac{S}{S+0.5(N-S)} Rで上記のアルゴリズムを実装する: N <- 10000 S <- sum(runif(N)<0.5) S/(S+0.5*(N-S)) 0.670.670.67

6
サンプリングできない単変量分布はありますか?
単変量分布(逆変換、アクセプトリジェクト、メトロポリスヘイスティングスなど)からランダムに生成するためのさまざまな方法があり、文字通り任意の有効な分布からサンプリングできるようです-それは本当ですか? ランダムに生成することが不可能な単変量分布の例を提供できますか?私は「不可能」によって、我々はまた、ある場合を意味することだと言うてみましょう(?)それは不可能であるという例が存在していないと思い、非常にちょうどAを受け入れるために、サンプルの膨大な量を描くような必要性のブルートフォースシミュレーションこと例えば、計算コストをそれらのいくつか。 そのような例が存在しない場合は、我々は実際に描画し、我々はランダム生成できることを証明することができます任意の有効な分布?これに反例が存在するかどうか、私は単に興味があります。

3
実験計画の潜在的な混乱
質問の概要 警告:この質問には多くの設定が必要です。どうか我慢してください。 私と私の同僚は、実験計画に取り組んでいます。このデザインは、以下にリストする多数の制約を回避する必要があります。制約を満たし、関心のある効果の公平な推定値を提供する設計を開発しました。しかし、私の同僚は、設計に混乱があると考えています。この点については、解決に至らずに吐き気を催しているので、この点については外部の意見をお願いします。 この研究の目標、私たちの制約、潜在的な混乱、およびこの「混乱」が問題ではないと私が考える理由を以下に説明します。各セクションを読むときに、私の全体的な質問に留意してください。 私が説明するデザインには混乱がありますか? [この実験の詳細は変更されましたが、私の質問をするために必要な必須要素は同じままです] 実験目標 白人男性によって書かれたエッセイが、白人女性、黒人男性、または黒人女性によって書かれたエッセイよりも有利に評価されるかどうかを判断したいと思います(エッセイ著者変数)。また、高品質または低品質の助成金(品質変数)で見つかったバイアスがより多く現れるかどうかを判断したいと考えています。最後に、12の異なるトピック(トピック変数)について書かれたエッセイを含めたいと思います。ただし、実質的に重要なのは最初の2つの変数のみです。トピックは論文ごとに異なる必要がありますが、トピックごとに評価がどのように異なるかに実質的に関心はありません。 制約 参加者の数と収集できるエッセイの数には制限があります。その結果、オーサーシップは参加者間で完全に操作することも、エッセイ間で完全に操作することもできません(つまり、各エッセイは複数の条件に割り当てられなければなりません)。 各エッセイには白人男性、白人女性、黒人男性、黒人女性のバージョンがありますが、各エッセイは高品質と低品質のいずれかで、1つのトピックのみになります。または、この制約を別の方法で言えば、エッセイ内で品質やトピックを操作することはできません。これらは特定のエッセイに固有の特性であるためです。 疲労のため、特定の参加者が評価できるエッセイの数には制限があります。 特定の人が読むエッセイはすべて、単一のトピックに関するものでなければなりません。言い換えると、各参加者が同様のトピックのエッセイのみを読むようにする必要があるため、エッセイを完全にランダムに参加者に割り当てることはできません。 エッセイの多くは黒人または女性の著者によって書かれているため、実験の目的について参加者に疑わせたくないので、各参加者は、白人ではない男性著者によって執筆されたと思われるエッセイを1つしか表示できません。 提案された設計 私の提案する設計では、最初に各エッセイを4つの異なる著者バージョン(白人男性、白人女性など)に操作します。同様のトピックの4つのエッセイを使用して「セット」を定義します。各セットは、2つの高品質のエッセイと2つの低品質のエッセイで構成されます。各参加者は、下の図に示すように、所定のセットから3つのエッセイを受け取ります。各参加者は、自分が割り当てられた3つのエッセイのそれぞれに単一の評価を提供します。 潜在的な交絡 私の同僚は、上記の設計には混乱が含まれると考えています。問題は、高品質のエッセイが白人ではない男性作家による執筆に割り当てられた場合、常に1つの高品質のエッセイと1つの低品質のエッセイとペアになることです(エッセイ1については、参加者1-3を参照してください図で)。一方、同じエッセイが白人男性作家による執筆に割り当てられている場合、1つの高品質のエッセイと1つの低品質のエッセイが3回(エッセイ1、参加者4-6の場合)、2つの低品質のエッセイ3回(エッセイ1、参加者7-9の場合)。 低品質のエッセイにも同様の問題があります。低品質のエッセイに白人以外の男性著者がいる場合、常に低品質のエッセイと高品質のエッセイが表示されます(エッセイ3については、参加者7-9を参照)。ただし、同じエッセイに白人男性著者がいる場合、1つの高品質のエッセイと1つの低品質のエッセイで3回(エッセイ3、参加者10-12)、2つの高品質のエッセイで3回(エッセイ3、参加者1-3)。 上記のパターンが問題になる可能性があるのは、「コントラスト効果」の存在を仮定した場合です。具体的には、高品質のエッセイが1つの低品質のエッセイと1つの高品質のエッセイ(合理的な仮定)とペアリングされる場合よりも、2つの低品質のエッセイとペアリングされる場合の平均でより好意的に評価される場合、白人男性のエッセイは、著者以外の理由による白人女性、黒人男性、および黒人女性のエッセイ。 高品質のエッセイのコントラスト効果は、低品質のエッセイのコントラスト効果によってバランスがとれる場合とされない場合があります。つまり、2つの高品質のエッセイと対になった低品質のエッセイが特に不利に評価される場合とそうでない場合があります。とにかく、私の同僚の主張では、あらゆる種類のコントラスト効果の可能性により、白人男性によって書かれたエッセイが他の著者のエッセイよりも好意的に評価されるかどうかを判断するために、このデザインに問題が生じます。 潜在的な交絡が問題ではないと思う理由 私にとって重要なのは、コントラスト効果が存在する場合でも、白人男性のエッセイが他のエッセイとは異なる評価の程度を推定できるかどうか(つまり、興味のある効果を推定できるかどうか)です。そのため、コントラスト効果を含む50個のデータセットをシミュレートし、対象の効果をテストするモデルに適合するシミュレーションを実施しました。 特定のモデルは、エッセイ(各エッセイが複数の参加者によって評価される)および参加者(各参加者が複数のエッセイを評価する)のランダムインターセプトを含む混合効果モデルです。エッセイレベルには、人種、性別、およびそれらの相互作用のランダムな勾配が含まれ(両方の変数はエッセイ内で操作されます)、参加者レベルには品質のランダムな勾配が含まれます(参加者内で品質が操作されます)。関心のある効果は、人種、性別、人種と性別の間の相互作用、およびこれらの変数と品質のそれぞれの間の高次相互作用の効果です。このシミュレーションの目的は、データにコントラスト効果を導入すると、人種、性別、人種と性別の相互作用、これらの変数と品質の間の高次の相互作用。詳細については、以下のコードチャンクを参照してください。 シミュレーションによると、コントラスト効果の存在は、関心のある効果の推定値にバイアスをかけません。さらに、コントラスト効果のサイズは、設計の他の効果と同じ統計モデルで推定できます。私にとって、これはすでに、私の同僚によって特定された「コントラスト効果」が混乱ではないことを示唆しています。しかし、私の同僚は懐疑的なままです。 require(lme4) require(plyr) participant <- rep(1:12, 3) essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9)) quality <- ifelse(essay == 1 | essay == 2, …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
機能データをシミュレートする方法は?
さまざまな機能データ分析アプローチをテストしようとしています。理想的には、シミュレートされた機能データでのアプローチのパネルをテストしたいと思います。ガウスノイズの加算に基づくアプローチ(以下のコード)を使用してシミュレートされたFDを生成しようとしましたが、結果の曲線は実際のものと比較して非常に頑丈に見えます。 もっとリアルな見た目の機能データを生成するための関数/アイデアへのポインタがあるのか​​と思っていました。特に、これらは滑らかでなければなりません。私はこの分野に完全に慣れていないので、どんなアドバイスも歓迎します。 library("MASS") library("caTools") VCM<-function(cont,theta=0.99){ Sigma<-matrix(rep(0,length(cont)^2),nrow=length(cont)) for(i in 1:nrow(Sigma)){ for (j in 1:ncol(Sigma)) Sigma[i,j]<-theta^(abs(cont[i]-cont[j])) } return(Sigma) } t1<-1:120 CVC<-runmean(cumsum(rnorm(length(t1))),k=10) VMC<-VCM(cont=t1,theta=0.99) sig<-runif(ncol(VMC)) VMC<-diag(sig)%*%VMC%*%diag(sig) DTA<-mvrnorm(100,rep(0,ncol(VMC)),VMC) DTA<-sweep(DTA,2,CVC) DTA<-apply(DTA,2,runmean,k=5) matplot(t(DTA),type="l",col=1,lty=1)

9
統計的手法の広く概念的な概要のための本
シミュレーション/予測/関数推定などの統計分析の可能性に非常に興味があります。 しかし、私はそれについてあまり知りませんし、私の数学的な知識はまだかなり限られています-私はソフトウェア工学の学部生です。 線形回帰とその他の回帰、ベイジアン法、モンテカルロ法、機械学習など、読み続けている特定のことから始められる本を探しています。両方を組み合わせた本がありました。 できれば、技術的な詳細ではなく概念的に物事を説明してください。統計には非常に多くの危険な落とし穴があることを理解しているため、統計を非常に直感的にしたいと思います。 価値があると思われるトピックの理解を深めるために、もっと本を読むつもりはありません。

2
モンテカルロシミュレーション推定の精度を見つける
バックグラウンド 私は一連のモデルの出力を組み合わせたモンテカルロシミュレーションを設計しています。シミュレーションにより、シミュレーション結果の確率とその確率推定の精度について合理的な主張ができることを確認したいと思います。 シミュレーションは、特定のコミュニティから選ばれたju審員が特定の被告に有罪判決を下す可能性を見つけます。シミュレーションの手順は次のとおりです。 既存のデータを使用して、人口統計的予測因子で「審査員第一投票」を回帰することにより、ロジスティック確率モデル(M)を生成します。 モンテカルロ法を使用して、Mの 1,000バージョン(つまり、モデルパラメーターの係数の1000バージョン)をシミュレートします。 モデルの1,000バージョン(M i)のいずれかを選択します。 特定の人口統計学的特性分布を持つ個人の「コミュニティ」(C)から12の「ju審員」の1,000セットをランダムに選択することにより、1,000人の審査員を審査します。 M iを使用して、各審査員の最初の投票有罪投票の確率を決定論的に計算します。 各「ju審員」の可能性のある票を、(0-1の間でランダムに選択された値よりも大きいか小さいかに基づいて)確定票にレンダリングします。 最初の投票で有罪判決を下すju審員の割合を条件に、ju審が有罪となる確率のモデル(経験的データから導出)を使用して、各「 "審員」「最終投票」を決定します。 1000人のju審員に対する有罪判決の割合(PG i)を保存します。 Mの 1,000のシミュレートされたバージョンのそれぞれについて、手順3〜8を繰り返します。 PGの平均値を計算し、それをCでの確信の確率のポイント推定値として報告し ます。 PGの2.5および97.5パーセンタイル値を特定し、0.95信頼区間として報告します。 現在、確率分布(Cの人口統計学的特性またはMのバージョン)から1,000のランダム抽選がその分布を埋めるという理論で、1,000人のju審員と1,000人のju審員を使用しています。 ご質問 これにより、見積もりの​​精度を正確に判断できますか?もしそうなら、Cの確率分布をカバーするために、各PG i計算に何人の審査員を入れる必要があります(したがって、選択バイアスを回避します)。1,000未満しか使用できませんか? 助けてくれてありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.