統計とビッグデータ simulation

1

Cantorディストリビューションからサンプリングする最良の方法は何でしょうか？cdfのみがあり、反転することはできません。

19 distributions simulation random-generation

2

事後分布をすでに知っているのに、なぜ事後分布からサンプリングする必要があるのですか？

私の理解では、ベイズのアプローチを使用してパラメータ値を推定するときは次のとおりです。事後分布は、事前分布と尤度分布の組み合わせです。事後分布からサンプルを生成することでこれをシミュレートします（たとえば、Metropolis-Hastingアルゴリズムを使用して値を生成し、それらが事後分布に属する確率の特定のしきい値を超える場合は受け入れます）。このサンプルを生成したら、それを使用して事後分布とその平均などを近似します。しかし、私は何かを誤解しているに違いないと感じています。事後分布があり、そこからサンプリングし、そのサンプルを事後分布の近似値として使用しているように聞こえます。しかし、なぜ事後分布があるのかというと、なぜそこからサンプリングして近似する必要があるのでしょうか？

19 bayesian inference simulation mcmc posterior

3

統計的に有意になるようにデータをシミュレートする方法は？

私は10年生で、機械学習サイエンスフェアプロジェクトのデータをシミュレートしたいと考えています。最終モデルは患者データで使用され、特定の時間帯と、これが単一患者のデータ内の服薬遵守に与える影響との相関関係を予測します。順守値はバイナリになります（0は薬を服用しなかったことを意味し、1は服用したことを意味します）。私は、週の時間の関係から学習できる機械学習モデルを作成し、週を21の時間帯に分けています。1時間ごとに3つ（1は月曜日の朝、2は月曜日の午後、等。）。1,000人の患者に相当するデータをシミュレートしたいと考えています。各患者には30週間分のデータがあります。週の時間とアドヒアランスに関連する特定のトレンドを挿入したいと思います。例えば、あるデータセットでは、週の時間帯7は順守と統計的に有意な関係があると言えます。関係が統計的に有意であるかどうかを判断するには、1つのタイムスロットを他のタイムスロットと比較する2サンプルt検定を実行し、有意値が0.05未満であることを確認する必要があります。ただし、自分のデータをシミュレートして挿入した傾向が重要かどうかを確認するのではなく、逆方向に作業して、特定のタイムスロットに重要な傾向を順守して割り当てることができるプログラムを使用すると、戻りますその中に私が求めたトレンドを含むバイナリデータ、およびノイズを含むが統計的に有意なトレンドを生成しない他のタイムスロットのバイナリデータ。このようなことを達成するのに役立つプログラムはありますか？それとも、Pythonモジュールですか？どんな助けでも（私のプロジェクトに関する一般的なコメントでさえ）非常に感謝されます！

18 machine-learning statistical-significance t-test python simulation

3

負の二項GLM対カウントデータのログ変換：タイプIエラー率の増加

あなたの何人かはこの素晴らしい論文を読んだかもしれません： O'Hara RB、Kotze DJ（2010）カウントデータをログ変換しません。生態学と進化の方法1：118–122。クリック。私の研究分野（生態毒性学）では、再現性の低い実験を扱っており、GLMは広く使用されていません。そこで、O'Hara＆Kotze（2010）と同様のシミュレーションを行いましたが、生態毒性データを模倣しました。電力シミュレーション： 1つのコントロールグループ（）と5つの治療グループ（）を使用した要因計画のデータをシミュレートしました。治療1の存在量は対照（）と同一であり、治療2-5の存在量は対照の存在量の半分（）でした。シミュレーションでは、サンプルサイズ（3,6,9,12）とコントロールグループの量（2、4、8、...、1024）を変化させました。豊度は、固定分散パラメーター（）を持つ負の二項分布から引き出されました。100のデータセットが生成され、負の二項GLMとガウスGLM +対数変換データを使用して分析されました。μ 1 - 5 μ 1 = μ C μ 2 - 5 = 0.5 μ C θ = 3.91μcμc\mu_cμ1 − 5μ1−5\mu_{1-5}μ1= μcμ1=μc\mu_1 = \mu_cμ2 − 5= 0.5 μcμ2−5=0.5μc\mu_{2-5} = 0.5 \mu_cθ = 3.91θ=3.91\theta = 3.91 結果は予想通りです。GLMのパワーは、特に多くの動物がサンプリングされていない場合に大きくなります。コードはこちらです。タイプIエラー：次に、タイプ1のエラーを見ました。シミュレーションは上記のように行われましたが、すべてのグループは同じ量（）。μc= μ1 − 5μc=μ1−5\mu_c …

18 r generalized-linear-model simulation negative-binomial type-i-and-ii-errors

1

、予測期間にわたるシミュレーション

時系列データがあり、データを近似するモデルとしてを使用しました。どちらかである0（私はまれなイベントが表示されない場合）または1（Iは稀なイベントを参照してください）インジケータ確率変数です。についての以前の観察に基づいて、可変長マルコフ連鎖法を使用してモデルを開発できます。これにより、予測期間にわたってをシミュレートでき、ゼロと1のシーケンスが得られます。これはまれなイベントであるため、頻繁に表示されません。シミュレーション値に基づいて予測間隔を予測および取得できます。 X t X t X t X t X t = 1 X tA R IMA （p 、d、q）+ XtARIMA(p,d,q)+XtARIMA(p,d,q)+X_tバツtXtX_tバツtXtX_tバツtXtX_tバツtXtX_tバツt= 1Xt=1X_t=1バツtXtX_t 質問：予測期間にわたってシミュレートされた 1の発生を考慮に入れるための効率的なシミュレーション手順をどのように開発できますか？平均と予測間隔を取得する必要があります。バツtXtX_t 1を観測する確率は小さすぎて、このケースでは通常のモンテカルロシミュレーションがうまく機能するとは考えられません。「重要度サンプリング」を使用できるかもしれませんが、どのように正確かはわかりません。ありがとうございました。

18 time-series forecasting simulation

1

帰無仮説の下で二項検定をシミュレートする場合のp値の不均一な分布

帰無仮説では、p値の分布は均一であるはずだと聞きました。ただし、MATLABの二項検定のシミュレーションでは、平均が0.5（この場合は0.518）を超える非常に異なる不均一分布が返されます。 coin = [0 1]; success_vec = nan(20000,1); for i = 1:20000 success = 0; for j = 1:200 success = success + coin(randperm(2,1)); end success_vec(i) = success; end p_vec = binocdf(success_vec,200,0.5); hist(p_vec); 乱数を生成する方法を変更しようとしても、助けにはなりませんでした。ここで説明をいただければ幸いです。

17 matlab p-value binomial simulation uniform

1

与えられたMLEでランダムサンプルをシミュレートする

一定の金額を持っていることを条件とするサンプルのシミュレーションについて尋ねるこの相互検証された質問は、ジョージ・カセラによって私に設定された問題を思い出させました。パラメトリックモデルとこのモデルのiidサンプルが与えられると、のMLEは与えられます指定された値の\ thetaに対して、iidサンプル（X_1、\ ldots、X_n）をシミュレートする一般的な方法がありますMLE \ hat {\ theta}（X_1、\ ldots、X_n）の値を条件としていますか？f(x|θ)f(x|θ)f(x|\theta)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θθ\thetaθ^(x1,…,xn)=argmin∑i=1nlogf(xi|θ)θ^(x1,…,xn)=arg⁡min∑i=1nlog⁡f(xi|θ)\hat{\theta}(x_1,\ldots,x_n)=\arg\min \sum_{i=1}^n \log f(x_i|\theta)θθ\theta(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θ^(X1,…,Xn)θ^(X1,…,Xn)\hat{\theta}(X_1,\ldots,X_n) たとえば、位置パラメーター\ muでT5T5\mathfrak{T}_5分布を取り、その密度はf（x | \ mu）= \ dfrac {\ Gamma（3）} {\ Gamma（1/2）\ Gamma（ 5/2）} \、\ left [1+（x- \ mu）^ 2/5 \ right] ^ {-3} If （X_1、\ ldots、X_n）\ stackrel {\ text {iid}} {\ sim} f（x | \ mu）\ …

17 maximum-likelihood conditional-probability random-variable simulation t-distribution

3

間隔内の分布に従って乱数を生成する

間隔内の正規分布に従って乱数を生成する必要があります。（私はRで働いています。）(a,b)(a,b)(a,b) 関数rnorm(n,mean,sd)は正規分布に従って乱数を生成しますが、その範囲内で間隔制限を設定するにはどうすればよいですか？そのために使用可能な特定のR関数はありますか？

17 r normal-distribution matlab simulation random-generation

2

コンピューターベースの実験/シミュレーションにおける残差の独立性？

古科学で使用されている特定のタイプのモデルに適合するさまざまな方法のコンピューターベースの評価を実施しました。大規模なトレーニングセットがあるため、テストセットをランダムに（階層化されたランダムサンプリングで）設定しました。トレーニングセットサンプルに異なる方法を適合させ、結果モデルを使用して、テストセットサンプルの応答を予測し、テストセット内のサンプルのRMSEPを計算しました。これは単一の実行です。mmmmmm その後、新しいテストセットをランダムにサンプリングして異なるトレーニングセットを選択するたびに、このプロセスを何度も繰り返しました。これを行った後、メソッドのいずれかがRMSEPのパフォーマンスを改善するか、悪化させるかを調査したいと思います。また、ペアワイズ法の複数の比較を行いたいです。mmm 私のアプローチは、線形混合効果（LME）モデルをRunの単一のランダム効果に適合させることでした。私は使用lmer()からlme4のからの私のモデルや機能に合わせてパッケージmultcompの多重比較を行うためのパッケージ。私のモデルは本質的に lmer(RMSEP ~ method + (1 | Run), data = FOO) ここmethodで、テストセットのモデル予測を生成するために使用されたメソッドを示す要因であり、「実験」のRun特定の実行ごとのインジケータです。私の質問は、LMEの残差に関するものです。実行の単一のランダム効果を考えると、ランダム効果がもたらす誘導相関に基づいて、その実行のRMSEP値はある程度相関しているが、実行間で無相関であると想定しています。この実行間の独立性の仮定は有効ですか？そうでない場合は、LMEモデルでこれを説明する方法がありますか、または質問に答えるために別のタイプの静的分析を採用する必要がありますか？

17 r mixed-model multiple-comparisons simulation independence

1

メトロポリスとヘイスティングスの統合-戦略が機能しないのはなぜですか？

を統合したい関数g(x)g(x)g(x)あるとしもちろん、がエンドポイントでゼロになり、爆発がなく、素晴らしい機能であると仮定します。私がいじっていた1つの方法は、Metropolis-Hastingsアルゴリズムを使用して、正規化定数が欠落している比例する分布からサンプルリストを生成することですこれをと呼び、これらのについて統計を計算します。 g（x） x 1、 x 2、…、 x n∫∞−∞g(x)dx.∫−∞∞g(x)dx. \int_{-\infty}^\infty g(x) dx.g(x)g(x)g(x)x1,x2,…,xnx1,x2,…,xnx_1, x_2, \dots, x_nN = ∫ ∞ - ∞ G （X ）D 、X P （X ）F （xは）xは1g(x)g(x)g(x)N=∫∞−∞g(x)dxN=∫−∞∞g(x)dxN = \int_{-\infty}^{\infty} g(x)dx p(x)p(x)p(x)f(x)f(x)f(x)xxx1n∑i=0nf(xi)≈∫∞−∞f(x)p(x)dx.1n∑i=0nf(xi)≈∫−∞∞f(x)p(x)dx. \frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx. 以来、、私は置換することができるキャンセルする形の発現をもたらす、積分からそのため、その領域に沿ってに統合される場合、結果を取得する必要があります。これは、必要な答えを得るために逆数を取ることができます。したがって、サンプルの範囲を取得して（ポイントを最も効果的に使用するため）、とし、描画した各サンプルに対してU（x）= 1 / rとします。そのようにU（x）f （x ）= U （x ）/ g …

16 simulation monte-carlo metropolis-hastings numerical-integration

2

難易度の高い本当に単純なモデルの例は何でしょうか？

近似ベイズ計算は、基本的に任意の確率モデルをフィッティングするための本当にクールな手法です。尤度が手に負えないモデルを対象としています（たとえば、パラメーターを修正してもモデルからサンプリングできますが、数値的、アルゴリズム的、または分析的に尤度を計算することはできません）。聴衆におおよそのベイズ計算（ABC）を導入すると、本当に簡単ではあるがまだ多少面白いですいくつかの例のモデルを使用していいですし、それが難治可能性があります。まだ手に負えない可能性がある本当に単純なモデルの良い例は何でしょうか？

16 bayesian simulation model likelihood abc

1

ガウスコピュラからシミュレートする方法は？

FFFとような2つの単変量周辺分布がありGGG、そこからシミュレートできると仮定します。ここで、C （F 、G ; Σ ）で表されるガウスコピュラを使用してそれらの結合分布を構築します。すべてのパラメーターは既知です。C(F,G;Σ)C(F,G;Σ)C(F,G;\Sigma) このコピュラからシミュレートするための非MCMCメソッドはありますか？

16 normal-distribution simulation copula

3

数式または分析からのデータをシミュレートする一般的な方法はありますか？

実験計画データフレームからのデータのde novoシミュレーション。 Rに重点を置いて（ただし、他の言語のソリューションは素晴らしいでしょう）。実験または調査の設計において、データをシミュレートし、このシミュレートされたデータを分析することにより、設計の長所と短所に関する素晴らしい洞察を得ることができます。このようなアプローチは、統計的テストの理解と適切な使用にも不可欠です。ただし、このプロセスはやや面倒な傾向があり、多くの場合、実験や調査でこの重要なステップをスキップするようになります。統計モデルとテストには、データのシミュレーションに必要な情報の大部分が含まれています（分布の仮定または明示的な記述を含む）。分析モデル（および関連する仮定（例：正常性とバランス）、因子のレベル、および有意性の尺度（p値など）が与えられた場合、シミュレートされたデータ（理想的には、 print（）、predict（）、simulate（））。このような一般化されたシミュレーションフレームワークは可能ですか？もしそうなら、そのようなフレームワークは現在利用可能ですか？例、次のような関数が欲しい sim(aov(response~factor1+factor2*factor3), p.values=list(factor1=0.05, factor2=0.05, factor3=0.50, factor2:factor3=0.05), levels=list(factor1=1:10, factor2=c("A", "B", "C"), factor3=c("A", "B", "C"))) すなわち、次の一般化バージョン： sim.lm<-function(){ library(DoE.base) design<-fac.design(nlevels=c(10,3,3), factor.names=c("factor1", "factor2", "factor3"), replications=3, randomize=F) response<-with(design, as.numeric(factor1)+ as.numeric(factor2)+ as.numeric(factor3)+ as.numeric(factor2)*as.numeric(factor3)+ rnorm(length(factor1))) simulation<-data.frame(design, response)} または sim(glm(response~factor1+factor2*factor3, family=poisson), p.values=list(factor1=0.05, factor2=0.05, factor3=0.50, factor2:factor3=0.05), levels=list(factor1=1:10, factor2=c("A", …

16 r experiment-design simulation

1

正規分布をシミュレートするための逆CDF法に対するBox-Mullerの利点は？

一様変数のセットから正規分布をシミュレートするには、いくつかの手法があります。ボックスミュラーアルゴリズム 1つのサンプル二つの独立した均一に変量した、(0,1)(0,1)(0,1)：を介して二つの独立した標準正規分布に変換し Z0=−2lnU1−−−−−−√cos(2πU0)Z1=−2lnU1−−−−−−√sin(2πU0)Z0=−2lnU1cos(2πU0)Z1=−2lnU1sin(2πU0) Z_0 = \sqrt{-2\text{ln}U_1}\text{cos}(2\pi U_0)\\ Z_1 = \sqrt{-2\text{ln}U_1}\text{sin}(2\pi U_0) CDF法。通常の累積分布関数を均一変量と同等にすることができます： F （Z ）= Uで、Z = F − 1（U ）を導きます (F(Z))(F(Z))(F(Z))F(Z)=UF(Z)=U F(Z) = U Z=F−1(U)Z=F−1(U)Z = F^{-1}(U) 私の質問は次のとおりです。どちらが計算的に効率的ですか？私は後者の方法だと思うでしょう-しかし、私が読んだ論文のほとんどはBox-Mullerを使用しています-なぜですか？追加情報：通常のCDFの逆数は次のように認識され、与えられます F−1(Z)=2–√erf−1(2Z−1),Z∈(0,1).F−1(Z)=2erf−1⁡(2Z−1),Z∈(0,1).F^{-1}(Z)\; =\; \sqrt2\;\operatorname{erf}^{-1}(2Z - 1), \quad Z\in(0,1). したがって、 Z=F−1(U)=2–√erf−1(2U−1),U∈(0,1).Z=F−1(U)=2erf−1⁡(2U−1),U∈(0,1). Z = F^{-1}(U)\; =\; \sqrt2\;\operatorname{erf}^{-1}(2U - 1), \quad …

15 normal-distribution simulation uniform

2

正規分布からの描画を使用した均一分布からの描画のシミュレーション

最近、確率論の質問の1つが次のようなデータサイエンスインタビューリソースを購入しました。既知のパラメーターを使用した正規分布からの描画を考えると、均一分布からの描画をどのようにシミュレートできますか？私の最初の思考プロセスは、離散確率変数の場合、正規分布をK個の一意のサブセクションに分割でき、各サブセクションは正規曲線の下で等しい面積を持つというものでした。次に、変数が正常曲線のどの領域に入るかを認識することにより、変数がどのK値を取るかを決定できます。しかし、これは離散確率変数に対してのみ機能します。連続したランダム変数に対して同じことを行う方法についていくつかの研究を行いましたが、残念ながら、入力として均一なランダム変数を使用し、他の分布からランダム変数を出力できる逆変換サンプリングなどの手法しか見つかりませんでした。おそらく、このプロセスを逆に実行して、一様なランダム変数を取得できると考えていましたか？また、おそらく正規確率変数を線形合同ジェネレーターへの入力として使用することも考えましたが、これが機能するかどうかはわかりません。この質問にどのようにアプローチするかについての考えはありますか？

15 self-study normal-distribution simulation uniform

タグ付けされた質問 「simulation」

タグ付けされた質問「simulation」