統計とビッグデータ simulation

1

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

分布のシミュレーション

私はキャパシティプランニングの割り当てに取り組んでおり、いくつかの本を読んだことがあります。これは特にディストリビューションについてです。私はRを使用します。データの分布を特定するために推奨されるアプローチは何ですか？それを識別する統計的方法はありますか？この図があります。 Rを使用して利用できるシミュレーションアプローチは何ですか？ここでは、指数のような特定の分布のデータを生成したいと思います。Javaと統合したい場合、r-javaは適切なアプローチですか？特定の分布のデータをパイプ処理するときに、影響（CPU使用率など）がどの分布になるかを予測する方法はありますか？データの特定の分布を送信することの異なる効果は何ですか？初心者向けの質問とお考えください。これらのタイプのシミュレーションを扱う本や資料はありますか？ノートこの図は、論文http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdfの末尾からのものです。私が出会った適合度のテクニック適合度の評価カイ二乗コルモゴロフ=スミルノフ、アンダーソン・ダーリング統計密度、cdf、PPおよびQQプロット私の分布が正規または指数関数的であることがわかった場合、どのような解釈または次のステップが必要なのかわかりません。それにより、何ができるようになりますか？予測？この質問が明確であることを願っています。指数関数的な遅延は、Neil Guntherによる私の容量計画の本のとおり、キューの変動を引き起こします。だから私はその一点を知っています。

9 distributions simulation

2

Rで反復測定多変量結果をシミュレートするにはどうすればよいですか？

@whuberは、1つの時点で多変量結果（、y_2、y_3）をシミュレートする方法を示しました。y 2 y 3y1y1y_1y2y2y_2y3y3y_3 私たちが知っているように、縦断的データはしばしば医学研究で発生します。私の質問は、Rの反復測定多変量結果をシミュレートする方法ですか？たとえば、2つの異なる治療グループの5 つのさまざまな時点でy1y1y_1、y2y2y_2、およびy_3を繰り返し測定しy３y3y_3ます。

9 r repeated-measures simulation

2

折りたたまれた正規分布からのサンプリングは、0で切り捨てられた正規分布からのサンプリングと同等ですか？

通常の密度（たとえば、mean = 1、sd = 1）からシミュレーションしたいのですが、正の値のみが必要です。 1つの方法は、法線からシミュレーションし、絶対値を取ることです。これは普通の折りたたみだと思います。 Rには、切り捨てられたランダム変数を生成するための関数があることがわかります。打ち切られた法線（0での打ち切り）からシミュレーションすると、これは折り畳みアプローチと同じですか？

9 normal-distribution simulation truncation

3

1％マイクロデータサンプルを大規模に使用し、統計を小さな領域スケールで集計して、どのようにして小さな領域の人口調査マイクロデータをシミュレーションできますか？

個人レベルの多変量解析を、地理的集計の小さなレベル（オーストラリアの国勢調査区）で実行したいと思います。明らかに、プライバシーの理由から、これらの小さなレベルの集計では国勢調査を利用できないため、他の代替案を調査しています。関心のある変数のほとんどすべてがカテゴリカルです。自由に使える2つのデータセットがあります。 1％の国勢調査サンプルは、はるかに高いレベルの空間集約（人口が約190,000で、人口統計の空間分離が広大な地域）で利用できます。小領域レベルで関心のある変数の度数分布表（500小領域、平均ポップ= 385、sd = 319、中央値= 355）。これらの2つのデータセットを使用して、小区域の実際の人口にできるだけ近い小区域レベルでの人口分布をシミュレートするにはどうすればよいですか？これを行うための通常の方法があることを私は感謝しています。もしそうなら、教科書または関連する雑誌の記事へのポインタが非常に高く評価されます。

9 distributions sampling simulation spatial census

1

事前密度と尤度から事後密度推定を計算するにはどうすればよいですか？

ベイズの定理を使用して事後を計算する方法を理解しようとしていますが、計算アプローチに行き詰まっています。たとえば、次のケースでは、事前確率と尤度の積を取得して計算する方法がわかりません。後部：この例では、事後確率の計算に興味があり、で事前標準標準を使用しますが、知りたいですMCMCチェーンで表される事前分布から事後を計算する方法。したがって、開始点として1000サンプルを使用します。μ P （μ ）〜N （μ = 0 、σ = 1 ）μμμ\muμμ\mu p(μ)∼N(μ=0,σ=1)p(μ)∼N(μ=0,σ=1)p(\mu)\sim N(\mu = 0, \sigma = 1)μμ\mu 以前からのサンプル1000。 set.seed(0) prior.mu <- 0 prior.sigma <- 1 prior.samples <- sort(rnorm(1000, prior.mu, prior.sigma)) いくつかの観察をします： observations <- c(0.4, 0.5, 0.8, 0.1) そして、尤度を計算します。例：：p(y|μ,σ)p(y|μ,σ)p(y | \mu, \sigma) likelihood <- prod(dnorm(observations, mean(prior.samplse), sd(prior.samples))) 私がよく理解していないのは：いつ/どのように事前確率に尤度を掛けるか？ …

9 bayesian simulation computational-statistics

2

データのROC曲線を計算する

そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線（FPR対TPR OR FAR対FRR）を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

打ち切られた混合正規分布からシミュレーション

次のような混合正規分布からサンプルをシミュレートしたい p × N（μ1、σ21）+ （1 − p ）× N（μ2、σ22）p×N(μ1,σ12)+(1−p)×N(μ2,σ22)p\times\mathcal{N}(\mu_1,\sigma_1^2) + (1-p)\times\mathcal{N}(\mu_2,\sigma_2^2) 間隔に制限されているの代わりに、R。これは、正規分布の切り捨てられた混合をシミュレートしたいということです。[ 0 、1 ][0,1][0,1]RR\mathbb{R} これを行うために、切り捨てられた法線をシミュレートするアルゴリズム（つまり、この質問から）と対応するパッケージがRにあることを知っています。しかし、切り捨てられた混合法線をどうやってシミュレートできますか？それは私が2が通常の切り捨てシミュレート場合と同じであるとN（μ 2、σ 2 2切り捨てられた混合物を通常にしますか）？N（μ1、σ21）N(μ1,σ12)\mathcal{N}(\mu_1,\sigma_1^2)N（μ2、σ22N(μ2,σ22\mathcal{N}(\mu_2,\sigma_2^2

9 simulation random-generation cdf mixture gaussian-mixture

2

Rの下限または上限で制約付き法線をシミュレート

Rを使用して制約付き正規分布からランダムデータを生成したいと思います。たとえば、正規分布の変数をシミュレートしたいmean=3, sd= 2とします。5より大きい値はすべて同じ正規分布からリサンプリングされます。したがって、一般的な機能については、次のことができます。 rnorm(n=100, mean=3, sd=2) それから私はいくつかの考えを持っていました： ifelseすべての値が境界内に収まるように制約されるまで繰り返すループで関数を反復します。必要以上に多くの値をシミュレートしn、制約を満たす最初の値を取ります。ベクトル化された通常の変数シミュレーターを避け、代わりに内部のdoでforループを使用して、各観測を一度に1つずつシミュレーションし、必要に応じてループします。上記のすべては少し不格好に見えます。質問平均= 3、sd = 2、最大= 5の法線からRの制約付きランダム正規変数をシミュレートする簡単な方法は何ですか？より一般的には、Rのシミュレートされた変数に制約を組み込む一般的な方法は何ですか

9 r normal-distribution simulation truncation

2

フィッティングなしでモデルを比較するにはどうすればよいですか？

自然科学では、回帰と機械学習を使用して、仮説をテストし、パラメーターを推定し、モデルをデータに適合させることで予測を行います。ただし、アプリオリモデルがある場合は、フィッティングを行いたくありません。たとえば、第一原理から計算された決定論的な物理システムのモデルなどです。モデルがデータとどの程度一致しているかを知り、モデルのどの部分が一致に大きく貢献しているかを知りたいだけです。誰かがこれを行うための統計的に厳密な方法に私を向けることができますか？より具体的な用語で、私は従属変数の測定対象の物理的システムがあると（ 1からの範囲様々な条件下では、サンプルサイズ）は、3つの独立変数によって記述、、および。データを生成した実際のシステムは複雑ですが、システムの理論モデルを導出するためにいくつかの簡略化の仮定を行いました。yiyiy_iiiinnnx1,ix1,ix_{1,i}x2,ix2,ix_{2,i}x3,ix3,ix_{3,i}fff yi=f(x1,i,x2,i,x3,i)+ϵiyi=f(x1,i,x2,i,x3,i)+ϵiy_i = f(x_{1,i}, x_{2,i}, x_{3,i}) + \epsilon_i、ここで、は独立変数の非線形（線形化可能ではない）関数であり、はモデルの予測値と測定値の差です。は完全に事前に指定されています。フィッティングは行われず、パラメーターは推定されません。私の最初の目標は、が測定値を生成したプロセスの妥当なモデルであるかどうかを判断することです。fffϵiϵi\epsilon_iffffffyiyiy_i また、簡略化されたモデルとも開発しました。これらはネストされています（この場合重要です）。私の2番目の目標は、fがgまたはhよりもはるかによくデータと一致するかどうかを判断することです。モデルfをモデルgおよびhと区別する機能がy iを生成するプロセスで重要な役割を果たすことを示唆しています。g(x1,i,x2,i)g(x1,i,x2,i)g(x_{1,i}, x_{2,i})h(x1,i)h(x1,i)h(x_{1,i})ffffffggghhhfffggghhhyiyiy_i これまでのアイデアおそらく、私の数学モデルのパラメーターの数または自由度の数を決定する方法があった場合、尤度比検定やAIC比較などの既存の手順を使用することが可能です。ただし、fffの非線形形式と明らかなパラメーターがないため、パラメーターを割り当てるのが妥当であるか、それとも自由度を構成するものを想定するのが妥当かどうかはわかりません。決定係数（R2R2R^2）などの適合度の測定値を使用して、モデルのパフォーマンスを比較できることを読みました。ただし、R2R2R^2値間の有意差のしきい値が何であるかは、私にはわかりません。さらに、モデルをデータに適合させていないため、残差の平均はゼロではなく、モデルごとに異なる場合があります。したがって、データを過小予測する傾向があるよく一致するモデルは、偏りはないがデータとの一致が不十分なモデルと同じくらいR2R2R^2値が低くなる可能性があります。適合度テスト（例：Anderson-Darling）についても少し読んだことがありますが、統計は私の分野ではないので、このタイプのテストが私の目的にどれだけ適しているかはわかりません。どんなガイダンスもいただければ幸いです。

8 modeling simulation goodness-of-fit model-comparison

1

相関確率のベクトルがある場合。相関関係を壊すことなく、それらをバイナリに変換するにはどうすればよいですか？

私の最終的な目標は、相関するベルヌーイ確率変数のサイズのベクトルを生成する方法を持つことができるようにすることです。これを行う1つの方法は、ガウスクープラアプローチを使用することです。ただし、ガウシアンクープラアプローチでは、ベクトルが残ります。NNN (p1,…,pN)∈[0,1]N(p1,…,pN)∈[0,1]N (p_1, \ldots, p_N) \in [0,1]^N Suppose that I have generated (p1,…,pN)(p1,…,pN)(p_1, \ldots, p_N) such that the common correlation between them is ρρ\rho. Now, how can I transform these into a new vector of 000 or 111's? In other words, I would like: (X1,…,XN)∈{0,1}N(X1,…,XN)∈{0,1}N (X_1, \ldots, X_N) \in \{0,1\}^N …

8 correlation mathematical-statistics simulation copula

1

「予期しない」期待

モンテカルロの専門家がこの回答の最後にある「予期しない」期待を説明できますか？事後他の質問/答えの要約：もし IID確率変数と期待されているE [ X I / ˉ X ]その後、存在する場合、単純な対称性の引数を示しているですが、モンテカルロ実験は、この命題と矛盾しているようです。バツ1、… 、XんX1,…,XnX_1,\dots,X_nE [ X私/ X¯]E[Xi/X¯]\mathrm{E}[X_i/\bar{X}]X I〜N（0 、1 ）E [ X私/ X¯] = 1E[Xi/X¯]=1\mathrm{E}[X_i/\bar{X}]=1バツ私〜N（0 、1 ）Xi∼N(0,1)X_i\sim\mathrm{N}(0,1) x <- matrix(rnorm(10^6), nrow = 10^5) mean(x[,2]/rowMeans(x)) [1] 5.506203

8 probability simulation expected-value monte-carlo

2

ベイジアン事後確率のキャリブレーションをチェックするシミュレーションアルゴリズムの設定

何かをシミュレートする方法を理解することは、多くの場合、基本的な原理を理解するための最良の方法です。以下を正確にシミュレートする方法について、私は少し途方に暮れています。仮定するとそのである事前分布有し。観測値サンプルに基づいて、単にと省略し、事後確率であることを非ベイジアンに示しは適切に調整されています。たとえば、Probここで、は事後確率です。関連ディスカッションはこちらμ N （γ 、τ 2）nはY 1、... 、Y N Y μ > 0 | Y （μ > 0 | P ）= P PY∼N(μ,σ2)Y∼N(μ,σ2)Y \sim N(\mu, \sigma^{2})μμ\muN(γ,τ2)N(γ,τ2)N(\gamma, \tau^{2})nnnY1,…,YnY1,…,YnY_{1}, \dots, Y_{n}YYYμ>0|Yμ>0|Y\mu > 0 | Y(μ>0|P)=P(μ>0|P)=P(\mu > 0 | P) = PPPP 私が本当に示したいのは、事後確率が0.95などのレベルを超えたときに連続テストを行ってサンプリングを停止した場合、確率がはないということです。< 0.95μ>0μ>0\mu > 0<0.95<0.95< 0.95 私は、タイプ1のエラーについての議論に踏み込むことなく、ベイジアン確率が意味があることを常連論者に説得しようとしています。帰無仮説を楽しませる常連客と話をするときに哲学上の問題があると思います。事前分布が（上記のように）連続である場合、ある確率はゼロであり、シミュレーションは不要です。問題全体をどのように考え、デモンストレーションシミュレーションを設計する方法についていくつかの提案をいただければ幸いです。私は、が1つの定数に設定されているだけで、なシミュレーションを行うことに慣れています。ベイジアンは条件付けません。μ μμ=0μ=0\mu = 0μμ\muμμ\mu 順次の状況では、可能な最大サンプルサイズを設定します（例：。n=1000n=1000n=1000 私がいつも考えるのに苦労している問題には微妙な問題があります。プロセスが実際にまったく効果がない（）場合、本当の懐疑論者は、有効性の誤った主張（）を心配することがあります。微妙なのは、懐疑論者が特別な値としてゼロを「単一化」していることであり、おそらくイベント（？）にゼロ以外の確率を与えています。事後者が調整されていることを示す方法では、懐疑者は実際に条件付けを行いたいと考えているため、ベイジアンとしては何がわかっているかでのみ条件付けを行うため、このような懐疑者を満足させることはできません。おそらくこれは、統計家が使用している事前分布が、懐疑論者が使用している不連続な事前分布と矛盾する場合でしょうか？μ …

8 bayesian simulation posterior

1

ガウス過程の事後のシミュレーション

初めて（不正確/間違い）ガウシアンプロセスを確認しました。具体的には、ナンドデフレイタスによるこのビデオを見ました。メモはここからオンラインで入手できます。ある時点で、ガウスカーネル（軸の距離の2乗の指数）に基づいて共分散行列を作成することにより生成された多変量法線から、ランダムなサンプルを抽出します。これらのランダムなサンプルは、データが利用可能になると分散が少なくなる以前の滑らかなプロットを形成します。最終的に、目的は、共分散行列を変更して予測し、対象の点での条件付きガウス分布を取得することです。倍101010xxx コード全体は、Katherine Baileyによる優れた要約でここから入手できます。これは、Nando de Freitasによるコードリポジトリのクレジットです。便宜上、ここにPythonコードを掲載しました。（上記のではなく）事前関数から始まり、「調整パラメーター」を導入します。10333101010 プロットを含めて、コードをPythonおよび[R]に翻訳しました。以下は、[R]の最初のコードチャンクと、テストセットの値の近接性に基づいてガウスカーネルを介して生成された3つのランダム曲線の結果のプロットです。xxx Rコードの2番目のチャンクはより毛羽立ち、トレーニングデータの4つのポイントをシミュレートすることから始まります。これは、これらのトレーニングデータポイントが存在する領域の周りの可能な（前の）曲線間の広がりを絞り込むのに役立ちます。これらのデータポイントの値のシミュレーションは、関数として行われます。「点の周りの曲線の引き締め」を見ることができます：罪（）yyysin()sin()\text{sin}() Rコードの3番目のチャンクは、値（以下の計算を参照）に対応する平均推定値の曲線（回帰曲線に相当）とそれらの信頼区間のプロットを扱います。μ505050 μμ{\bf\mu} 質問：前のGPから後のGPに至るまでの操作について教えてください。具体的には、平均とsdを取得するために、Rコードのこの部分（2番目のチャンク内）を理解したいと思います。 # Apply the kernel function to our training points (5 points): K_train = kernel(Xtrain, Xtrain, param) #[5 x 5] matrix Ch_train = chol(K_train + 0.00005 * diag(length(Xtrain))) #[5 x 5] matrix # Compute the mean …

8 machine-learning simulation stochastic-processes gaussian-process

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

タグ付けされた質問 「simulation」

タグ付けされた質問「simulation」