タグ付けされた質問 「simulation」

コンピューターモデルから結果を生成することを含む広大な領域。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
分布のシミュレーション
私はキャパシティプランニングの割り当てに取り組んでおり、いくつかの本を読んだことがあります。これは特にディストリビューションについてです。私はRを使用します。 データの分布を特定するために推奨されるアプローチは何ですか?それを識別する統計的方法はありますか? この図があります。 Rを使用して利用できるシミュレーションアプローチは何ですか?ここでは、指数のような特定の分布のデータを生成したいと思います。Javaと統合したい場合、r-javaは適切なアプローチですか? 特定の分布のデータをパイプ処理するときに、影響(CPU使用率など)がどの分布になるかを予測する方法はありますか?データの特定の分布を送信することの異なる効果は何ですか? 初心者向けの質問とお考えください。これらのタイプのシミュレーションを扱う本や資料はありますか? ノート この図は、論文http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdfの末尾からのものです。 私が出会った適合度のテクニック 適合度の評価 カイ二乗 コルモゴロフ=スミルノフ、 アンダーソン・ダーリング統計密度、cdf、PPおよびQQプロット 私の分布が正規または指数関数的であることがわかった場合、どのような解釈または次のステップが必要なのかわかりません。それにより、何ができるようになりますか?予測?この質問が明確であることを願っています。 指数関数的な遅延は、Neil Guntherによる私の容量計画の本のとおり、キューの変動を引き起こします。だから私はその一点を知っています。

2
Rで反復測定多変量結果をシミュレートするにはどうすればよいですか?
@whuberは、1つの時点で多変量結果(、y_2、y_3)をシミュレートする方法を示しました。y 2 y 3y1y1y_1y2y2y_2y3y3y_3 私たちが知っているように、縦断的データはしばしば医学研究で発生します。私の質問は、Rの反復測定多変量結果をシミュレートする方法ですか?たとえば、2つの異なる治療グループの5 つのさまざまな時点でy1y1y_1、y2y2y_2、およびy_3を繰り返し測定しy3y3y_3ます。

2
折りたたまれた正規分布からのサンプリングは、0で切り捨てられた正規分布からのサンプリングと同等ですか?
通常の密度(たとえば、mean = 1、sd = 1)からシミュレーションしたいのですが、正の値のみが必要です。 1つの方法は、法線からシミュレーションし、絶対値を取ることです。これは普通の折りたたみだと思います。 Rには、切り捨てられたランダム変数を生成するための関数があることがわかります。打ち切られた法線(0での打ち切り)からシミュレーションすると、これは折り畳みアプローチと同じですか?

3
1%マイクロデータサンプルを大規模に使用し、統計を小さな領域スケールで集計して、どのようにして小さな領域の人口調査マイクロデータをシミュレーションできますか?
個人レベルの多変量解析を、地理的集計の小さなレベル(オーストラリアの国勢調査区)で実行したいと思います。明らかに、プライバシーの理由から、これらの小さなレベルの集計では国勢調査を利用できないため、他の代替案を調査しています。関心のある変数のほとんどすべてがカテゴリカルです。自由に使える2つのデータセットがあります。 1%の国勢調査サンプルは、はるかに高いレベルの空間集約(人口が約190,000で、人口統計の空間分離が広大な地域)で利用できます。 小領域レベルで関心のある変数の度数分布表(500小領域、平均ポップ= 385、sd = 319、中央値= 355)。 これらの2つのデータセットを使用して、小区域の実際の人口にできるだけ近い小区域レベルでの人口分布をシミュレートするにはどうすればよいですか? これを行うための通常の方法があることを私は感謝しています。もしそうなら、教科書または関連する雑誌の記事へのポインタが非常に高く評価されます。

1
事前密度と尤度から事後密度推定を計算するにはどうすればよいですか?
ベイズの定理を使用して事後を計算する方法を理解しようとしていますが、計算アプローチに行き詰まっています。たとえば、次のケースでは、事前確率と尤度の積を取得して計算する方法がわかりません。後部: この例では、事後確率の計算に興味があり、で事前標準標準を使用しますが、知りたいですMCMCチェーンで表される事前分布から事後を計算する方法。したがって、開始点として1000サンプルを使用します。μ P (μ )〜N (μ = 0 、σ = 1 )μμμ\muμμ\mu p(μ)∼N(μ=0,σ=1)p(μ)∼N(μ=0,σ=1)p(\mu)\sim N(\mu = 0, \sigma = 1)μμ\mu 以前からのサンプル1000。 set.seed(0) prior.mu <- 0 prior.sigma <- 1 prior.samples <- sort(rnorm(1000, prior.mu, prior.sigma)) いくつかの観察をします: observations <- c(0.4, 0.5, 0.8, 0.1) そして、尤度を計算します。例::p(y|μ,σ)p(y|μ,σ)p(y | \mu, \sigma) likelihood <- prod(dnorm(observations, mean(prior.samplse), sd(prior.samples))) 私がよく理解していないのは: いつ/どのように事前確率に尤度を掛けるか? …

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
打ち切られた混合正規分布からシミュレーション
次のような混合正規分布からサンプルをシミュレートしたい p × N(μ1、σ21)+ (1 − p )× N(μ2、σ22)p×N(μ1,σ12)+(1−p)×N(μ2,σ22)p\times\mathcal{N}(\mu_1,\sigma_1^2) + (1-p)\times\mathcal{N}(\mu_2,\sigma_2^2) 間隔に制限されているの代わりに、R。これは、正規分布の切り捨てられた混合をシミュレートしたいということです。[ 0 、1 ][0,1][0,1]RR\mathbb{R} これを行うために、切り捨てられた法線をシミュレートするアルゴリズム(つまり、この質問から)と対応するパッケージがRにあることを知っています。しかし、切り捨てられた混合法線をどうやってシミュレートできますか?それは私が2が通常の切り捨てシミュレート場合と同じであるとN(μ 2、σ 2 2切り捨てられた混合物を通常にしますか)?N(μ1、σ21)N(μ1,σ12)\mathcal{N}(\mu_1,\sigma_1^2)N(μ2、σ22N(μ2,σ22\mathcal{N}(\mu_2,\sigma_2^2

2
Rの下限または上限で制約付き法線をシミュレート
Rを使用して制約付き正規分布からランダムデータを生成したいと思います。 たとえば、正規分布の変数をシミュレートしたいmean=3, sd= 2とします。5より大きい値はすべて同じ正規分布からリサンプリングされます。 したがって、一般的な機能については、次のことができます。 rnorm(n=100, mean=3, sd=2) それから私はいくつかの考えを持っていました: ifelseすべての値が境界内に収まるように制約されるまで繰り返すループで関数を反復します。 必要以上に多くの値をシミュレートしn、制約を満たす最初の値を取ります。 ベクトル化された通常の変数シミュレーターを避け、代わりに内部のdoでforループを使用して、各観測を一度に1つずつシミュレーションし、必要に応じてループします。 上記のすべては少し不格好に見えます。 質問 平均= 3、sd = 2、最大= 5の法線からRの制約付きランダム正規変数をシミュレートする簡単な方法は何ですか? より一般的には、Rのシミュレートされた変数に制約を組み込む一般的な方法は何ですか

2
フィッティングなしでモデルを比較するにはどうすればよいですか?
自然科学では、回帰と機械学習を使用して、仮説をテストし、パラメーターを推定し、モデルをデータに適合させることで予測を行います。ただし、アプリオリモデルがある場合は、フィッティングを行いたくありません。たとえば、第一原理から計算された決定論的な物理システムのモデルなどです。モデルがデータとどの程度一致しているかを知り、モデルのどの部分が一致に大きく貢献しているかを知りたいだけです。誰かがこれを行うための統計的に厳密な方法に私を向けることができますか? より具体的な用語で、私は従属変数の測定対象の物理的システムがあると( 1からの範囲様々な条件下では、サンプルサイズ)は、3つの独立変数によって記述、、および。データを生成した実際のシステムは複雑ですが、システムの理論モデルを導出するためにいくつかの簡略化の仮定を行いました。yiyiy_iiiinnnx1,ix1,ix_{1,i}x2,ix2,ix_{2,i}x3,ix3,ix_{3,i}fff yi=f(x1,i,x2,i,x3,i)+ϵiyi=f(x1,i,x2,i,x3,i)+ϵiy_i = f(x_{1,i}, x_{2,i}, x_{3,i}) + \epsilon_i、 ここで、は独立変数の非線形(線形化可能ではない)関数であり、はモデルの予測値と測定値の差です。は完全に事前に指定されています。フィッティングは行われず、パラメーターは推定されません。私の最初の目標は、が測定値を生成したプロセスの妥当なモデルであるかどうかを判断することです。fffϵiϵi\epsilon_iffffffyiyiy_i また、簡略化されたモデルとも開発しました。これらはネストされています(この場合重要です)。私の2番目の目標は、fがgまたはhよりもはるかによくデータと一致するかどうかを判断することです。モデルfをモデルgおよびhと区別する機能がy iを生成するプロセスで重要な役割を果たすことを示唆しています。g(x1,i,x2,i)g(x1,i,x2,i)g(x_{1,i}, x_{2,i})h(x1,i)h(x1,i)h(x_{1,i})ffffffggghhhfffggghhhyiyiy_i これまでのアイデア おそらく、私の数学モデルのパラメーターの数または自由度の数を決定する方法があった場合、尤度比検定やAIC比較などの既存の手順を使用することが可能です。ただし、fffの非線形形式と明らかなパラメーターがないため、パラメーターを割り当てるのが妥当であるか、それとも自由度を構成するものを想定するのが妥当かどうかはわかりません。 決定係数(R2R2R^2)などの適合度の測定値を使用して、モデルのパフォーマンスを比較できることを読みました。ただし、R2R2R^2値間の有意差のしきい値が何であるかは、私にはわかりません。さらに、モデルをデータに適合させていないため、残差の平均はゼロではなく、モデルごとに異なる場合があります。したがって、データを過小予測する傾向があるよく一致するモデルは、偏りはないがデータとの一致が不十分なモデルと同じくらいR2R2R^2値が低くなる可能性があります。 適合度テスト(例:Anderson-Darling)についても少し読んだことがありますが、統計は私の分野ではないので、このタイプのテストが私の目的にどれだけ適しているかはわかりません。どんなガイダンスもいただければ幸いです。

1
相関確率のベクトルがある場合。相関関係を壊すことなく、それらをバイナリに変換するにはどうすればよいですか?
私の最終的な目標は、相関するベルヌーイ確率変数のサイズのベクトルを生成する方法を持つことができるようにすることです。これを行う1つの方法は、ガウスクープラアプローチを使用することです。ただし、ガウシアンクープラアプローチでは、ベクトルが残ります。NNN (p1,…,pN)∈[0,1]N(p1,…,pN)∈[0,1]N (p_1, \ldots, p_N) \in [0,1]^N Suppose that I have generated (p1,…,pN)(p1,…,pN)(p_1, \ldots, p_N) such that the common correlation between them is ρρ\rho. Now, how can I transform these into a new vector of 000 or 111's? In other words, I would like: (X1,…,XN)∈{0,1}N(X1,…,XN)∈{0,1}N (X_1, \ldots, X_N) \in \{0,1\}^N …

1
「予期しない」期待
モンテカルロの専門家がこの回答の最後にある「予期しない」期待を説明できますか? 事後他の質問/答えの要約:もし IID確率変数と期待されているE [ X I / ˉ X ]その後、存在する場合、単純な対称性の引数を示しているですが、モンテカルロ実験は、この命題と矛盾しているようです。バツ1、… 、XんX1,…,XnX_1,\dots,X_nE [ X私/ X¯]E[Xi/X¯]\mathrm{E}[X_i/\bar{X}]X I〜N(0 、1 )E [ X私/ X¯] = 1E[Xi/X¯]=1\mathrm{E}[X_i/\bar{X}]=1バツ私〜N(0 、1 )Xi∼N(0,1)X_i\sim\mathrm{N}(0,1) x <- matrix(rnorm(10^6), nrow = 10^5) mean(x[,2]/rowMeans(x)) [1] 5.506203

2
ベイジアン事後確率のキャリブレーションをチェックするシミュレーションアルゴリズムの設定
何かをシミュレートする方法を理解することは、多くの場合、基本的な原理を理解するための最良の方法です。以下を正確にシミュレートする方法について、私は少し途方に暮れています。 仮定するとそのである事前分布有し。観測値サンプルに基づいて、単にと省略し、事後確率であることを非ベイジアンに示しは適切に調整されています。たとえば、Probここで、は事後確率です。関連ディスカッションはこちらμ N (γ 、τ 2)nはY 1、... 、Y N Y μ &gt; 0 | Y (μ &gt; 0 | P )= P PY∼N(μ,σ2)Y∼N(μ,σ2)Y \sim N(\mu, \sigma^{2})μμ\muN(γ,τ2)N(γ,τ2)N(\gamma, \tau^{2})nnnY1,…,YnY1,…,YnY_{1}, \dots, Y_{n}YYYμ&gt;0|Yμ&gt;0|Y\mu > 0 | Y(μ&gt;0|P)=P(μ&gt;0|P)=P(\mu > 0 | P) = PPPP 私が本当に示したいのは、事後確率が0.95などのレベルを超えたときに連続テストを行ってサンプリングを停止した場合、確率がはないということです。&lt; 0.95μ&gt;0μ&gt;0\mu > 0&lt;0.95&lt;0.95< 0.95 私は、タイプ1のエラーについての議論に踏み込むことなく、ベイジアン確率が意味があることを常連論者に説得しようとしています。帰無仮説を楽しませる常連客と話をするときに哲学上の問題があると思います。事前分布が(上記のように)連続である場合、ある確率はゼロであり、シミュレーションは不要です。問題全体をどのように考え、デモンストレーションシミュレーションを設計する方法についていくつかの提案をいただければ幸いです。私は、が1つの定数に設定されているだけで、なシミュレーションを行うことに慣れています。ベイジアンは条件付けません。μ μμ=0μ=0\mu = 0μμ\muμμ\mu 順次の状況では、可能な最大サンプルサイズを設定します(例:。n=1000n=1000n=1000 私がいつも考えるのに苦労している問題には微妙な問題があります。プロセスが実際にまったく効果がない()場合、本当の懐疑論者は、有効性の誤った主張()を心配することがあります。微妙なのは、懐疑論者が特別な値としてゼロを「単一化」していることであり、おそらくイベント(?)にゼロ以外の確率を与えています。事後者が調整されていることを示す方法では、懐疑者は実際に条件付けを行いたいと考えているため、ベイジアンとしては何がわかっているかでのみ条件付けを行うため、このような懐疑者を満足させることはできません。おそらくこれは、統計家が使用している事前分布が、懐疑論者が使用している不連続な事前分布と矛盾する場合でしょうか?μ …

1
ガウス過程の事後のシミュレーション
初めて(不正確/間違い)ガウシアンプロセスを確認しました。具体的には、ナンドデフレイタスによるこのビデオを見ました。メモはここからオンラインで入手できます。 ある時点で、ガウスカーネル(軸の距離の2乗の指数)に基づいて共分散行列を作成することにより生成された多変量法線から、ランダムなサンプルを抽出します。これらのランダムなサンプルは、データが利用可能になると分散が少なくなる以前の滑らかなプロットを形成します。最終的に、目的は、共分散行列を変更して予測し、対象の点での条件付きガウス分布を取得することです。倍101010xxx コード全体は、Katherine Baileyによる優れた要約でここから入手できます。これは、Nando de Freitasによるコードリポジトリのクレジットです。便宜上、ここにPythonコードを掲載しました。 (上記のではなく)事前関数から始まり、「調整パラメーター」を導入します。10333101010 プロットを含めて、コードをPythonおよび[R]に翻訳しました。 以下は、[R]の最初のコードチャンクと、テストセットの値の近接性に基づいてガウスカーネルを介して生成された3つのランダム曲線の結果のプロットです。xxx Rコードの2番目のチャンクはより毛羽立ち、トレーニングデータの4つのポイントをシミュレートすることから始まります。これは、これらのトレーニングデータポイントが存在する領域の周りの可能な(前の)曲線間の広がりを絞り込むのに役立ちます。これらのデータポイントの値のシミュレーションは、関数として行われます。「点の周りの曲線の引き締め」を見ることができます:罪()yyysin()sin()\text{sin}() Rコードの3番目のチャンクは、値(以下の計算を参照)に対応する平均推定値の曲線(回帰曲線に相当)とそれらの信頼区間のプロットを扱います。μ505050 μμ{\bf\mu} 質問: 前のGPから後のGPに至るまでの操作について教えてください。 具体的には、平均とsdを取得するために、Rコードのこの部分(2番目のチャンク内)を理解したいと思います。 # Apply the kernel function to our training points (5 points): K_train = kernel(Xtrain, Xtrain, param) #[5 x 5] matrix Ch_train = chol(K_train + 0.00005 * diag(length(Xtrain))) #[5 x 5] matrix # Compute the mean …

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.