統計とビッグデータ monte-carlo

1

を統合したい関数g(x)g(x)g(x)あるとしもちろん、がエンドポイントでゼロになり、爆発がなく、素晴らしい機能であると仮定します。私がいじっていた1つの方法は、Metropolis-Hastingsアルゴリズムを使用して、正規化定数が欠落している比例する分布からサンプルリストを生成することですこれをと呼び、これらのについて統計を計算します。 g（x） x 1、 x 2、…、 x n∫∞−∞g(x)dx.∫−∞∞g(x)dx. \int_{-\infty}^\infty g(x) dx.g(x)g(x)g(x)x1,x2,…,xnx1,x2,…,xnx_1, x_2, \dots, x_nN = ∫ ∞ - ∞ G （X ）D 、X P （X ）F （xは）xは1g(x)g(x)g(x)N=∫∞−∞g(x)dxN=∫−∞∞g(x)dxN = \int_{-\infty}^{\infty} g(x)dx p(x)p(x)p(x)f(x)f(x)f(x)xxx1n∑i=0nf(xi)≈∫∞−∞f(x)p(x)dx.1n∑i=0nf(xi)≈∫−∞∞f(x)p(x)dx. \frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx. 以来、、私は置換することができるキャンセルする形の発現をもたらす、積分からそのため、その領域に沿ってに統合される場合、結果を取得する必要があります。これは、必要な答えを得るために逆数を取ることができます。したがって、サンプルの範囲を取得して（ポイントを最も効果的に使用するため）、とし、描画した各サンプルに対してU（x）= 1 / rとします。そのようにU（x）f （x ）= U （x ）/ g …

16 simulation monte-carlo metropolis-hastings numerical-integration

2

計算統計における乱数生成の重要な用途は何ですか？

計算統計において乱数ジェネレーター（RNG）はどのようにそしてなぜ重要ですか？多くの統計的検定のサンプルを選択する際にどちらかの仮説への偏りを避けるためにランダム性が重要であることを理解していますが、乱数ジェネレーターが重要な計算統計の他の領域はありますか？

15 hypothesis-testing monte-carlo algorithms random-generation computational-statistics

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

マルコフ連鎖とマルコフ連鎖モンテカルロの関係は何ですか

SASを使用してマルコフ連鎖を理解しようとしています。マルコフ過程は、将来の状態が現在の状態にのみ依存し、過去の状態には依存せず、ある状態から別の状態への遷移確率をキャプチャする遷移行列があることを理解しています。しかし、その後、私はこの用語に出くわしました：マルコフチェーンモンテカルロ。私が知りたいのは、マルコフ連鎖モンテカルロが上記のマルコフ過程に関係があるかどうかです。

15 probability simulation mcmc monte-carlo markov-process

2

2つの相関するランダム変数をサンプリングするためのいくつかの手法は何ですか？

2つの相関するランダム変数をサンプリングするためのいくつかの手法は何ですか？確率分布がパラメータ化されている場合（たとえば、対数正規）ノンパラメトリック分布がある場合。データは、非ゼロの相関係数を計算できる2つの時系列です。履歴相関と時系列CDFが一定であると仮定して、将来これらのデータをシミュレートしたいと考えています。ケース（2）の場合、1-DアナログはCDFを構築し、そこからサンプルを作成します。だから、2-D CDFを作成して同じことをすることができたと思います。ただし、個々の1-D CDFを使用し、ピックを何らかの方法でリンクすることで、近づく方法はないのでしょうか。ありがとう！

15 correlation sampling monte-carlo stochastic-processes copula

1

低不一致シーケンスでのスクランブルと相関（ハルトン/ソボル）

現在、HaltonやSobolのポイントセットなど、低不一致/準ランダムポイントセットを使用してランダムな値を生成するプロジェクトに取り組んでいます。これらは、基本的には次元のベクトルその模倣A次元の制服（0,1）の変数が、より良い広がりを持っています。理論的には、プロジェクトの別の部分での私の見積もりの分散を減らすのに役立つはずです。ddddddd 残念ながら、私は彼らと仕事をする問題に遭遇しており、それらに関する多くの文献は密集しています。したがって、私は彼らと経験を積んだ人から何らかの洞察を得ること、または少なくとも何が起こっているかを経験的に評価する方法を見つけたいと思っていました。それらを使用した場合：スクランブルとは何ですか？また、生成されるポイントのストリームにどのような影響がありますか？特に、生成されるポイントの寸法が増加すると効果がありますか？ MatousekAffineOwenスクランブリングでSobolポイントの2つのストリームを生成すると、2つの異なるポイントストリームが得られるのはなぜですか。Haltonポイントで逆基数スクランブルを使用する場合、なぜこれが当てはまらないのですか？これらのポイントセットに存在する他のスクランブリングメソッドはありますか？存在する場合、それらのMATLAB実装はありますか？それらを使用していない場合：私が持っていると言う列おそらく乱数の、私は彼らがお互いに相関していないことを示すために使用すべき統計のどのタイプ？そして、何の数、私は私の結果は統計的に有意であることを証明する必要があるでしょうか？また、どのように私は私が持っていたならば、同じこと何ができる列の次元ランダムベクトルは？S 1、S 2、... 、S N N N S 1、S 2、... 、S N D [ 0 、1 ]nnnS1,S2,…,SnS1,S2,…,SnS_1, S_2, \ldots,S_nnnnnnnS1,S2,…,SnS1,S2,…,SnS_1, S_2, \ldots,S_nddd[0,1][0,1][0,1] Cardinalの回答に関する追加の質問理論的に言えば、スクランブル方法と低不一致シーケンスを組み合わせることができますか？MATLABでは、Haltonシーケンスに逆基数スクランブルを適用することしかできず、それが単に実装の問題なのか互換性の問題なのか疑問に思っています。相互に関連のない2つの（t、m、s）ネットを生成できる方法を探しています。MatouseAffineOwenはこれを許可しますか？決定論的なスクランブリングアルゴリズムを使用し、kが素数であるすべての「kth」値を選択するだけの場合はどうでしょうか。

14 hypothesis-testing monte-carlo random-generation randomness

5

Matlab / octaveまたはRは、モンテカルロシミュレーションに適していますか？

私は趣味としてRでモンテカルロを始めましたが、最終的には金融アナリストがMatlabに移行することを勧めました。私は経験豊富なソフトウェア開発者です。しかし、モンテカルロ初心者。感度分析を使用して静的モデルを作成し、後で動的モデルを作成したい。私を導く良いライブラリ/アルゴリズムが必要です。私には、Rには優れたライブラリがあり、簡単なパスカルのような言語のために、未経験のプログラマーにはmathlabが好まれていると思われます。R言語はスキームに基づいており、これは初心者には難しいですが、私には難しいです。Matlab / Octaveに数値/ライブラリ側の利点がない場合、私はRに固執します。

14 r matlab monte-carlo

1

パラメトリックブートストラップを使用する理由

現在、パラメトリックブートストラップに関するいくつかの問題を回避しようとしています。ほとんどのことはおそらくささいなことですが、私はまだ何かを見逃しているかもしれません。パラメトリックブートストラップ手順を使用してデータの信頼区間を取得するとします。そのため、私はこのサンプルを入手し、その正規分布を仮定しています。私はその後、分散推定ますVと平均値Mを、私の分布推定値取得Pだけ明らかにされ、N （M、Vを）。v^v^\hat{v}m^m^\hat{m}P^P^\hat{P}N(m^,v^)N(m^,v^)N(\hat{m},\hat{v}) その分布からサンプリングする代わりに、分位数を分析的に計算して実行することができます。 a）結論：この些細なケースでは、パラメトリックブートストラップは正規分布の仮定で物事を計算するのと同じでしょうか？理論的には、計算を処理できる限り、すべてのパラメトリックブートストラップモデルに当てはまります。 b）結論：特定の分布の仮定を使用すると、ノンパラメトリックブートストラップよりもパラメトリックブートストラップの精度が向上します（もちろん正しい場合）。しかし、それ以外は、分析計算を処理できず、それから抜け出す方法をシミュレートしようとするためです。 c）計算が「通常」何らかの近似を使用して行われる場合にも使用します。これにより、おそらくより正確になります...？私にとって、（ノンパラメトリック）ブートストラップの利点は、ディストリビューションを想定する必要がないという事実にあるように見えました。パラメトリックブートストラップの場合、その利点は失われますか、それとも私が見逃したものがあり、パラメトリックブートストラップが上記のものよりも利点があるのでしょうか。

13 nonparametric bootstrap simulation monte-carlo parametric

2

重要度サンプリングによって生成されたモンテカルロ推定の結果

私は過去1年間、重要性のサンプリングにかなり密接に取り組んでおり、いくつかの自由回答形式の質問があります。重要度サンプリングスキームに関する私の実際の経験は、それらが時折素晴らしい低分散と低バイアスの推定値を生成できることです。ただし、より頻繁に、サンプル分散が低いが非常に高いバイアスを持つ高エラー推定値を生成する傾向があります。重要性サンプリング推定の有効性に影響を与える要因の種類を誰かが正確に説明できるかどうか疑問に思っていますか？特に、私は疑問に思っています： 1）バイアス分布が元の分布と同じサポートを持っている場合、重要度サンプリング推定値は正しい結果に収束することが保証されていますか？もしそうなら、なぜこれが実際にそれほど時間がかかるように見えるのですか？ 2）重要度サンプリングを通じて生成された推定値の誤差とバイアス分布の「品質」（つまり、ゼロ分散分布と一致する程度）の間に定量化可能な関係がありますか 3）1）および2）に部分的に基づいています-単純なモンテカルロ法よりも重要度サンプリングの設計を使用するほうがよい前に、分布について知る必要がある「量」を定量化する方法があります。

13 monte-carlo information-theory importance-sampling

3

バートランドのボックスパラドックスのモンテカルロシミュレーションをプログラムする方法は？

次の問題がメンサインターナショナルのFacebookページに投稿されました。 \quad\quad\quad\quad\quad\quad\quad\quad 投稿自体には1000件以上のコメントが寄せられましたが、ここでの議論については詳しく説明しません。これはバートランドの箱のパラドックスであり、答えは。ここで私が興味を持っているのは、モンテカルロ法を使用してこの問題にどのように答えるかです。この問題を解決するアルゴリズムはどのようになっていますか？2323\frac23 私の試みは次のとおりです。 0から1までの均一に分布した乱数を生成します。NNN000111 ボックスのイベントに、半分未満に選択された2つの金のボール（ボックス1）が含まれているとします。未満の数値をカウントし、結果をSとして呼び出します。0.50.50.5SSS ボックス1が選択されている場合はゴールドボールを取得するのは確実であり、ボックス2が選択されている場合はゴールドボールを取得する可能性は50％だけなので、シーケンスGGを取得する確率は P（B 2 = G | B 1 = G ）= SS+ 0.5 （N− S）P（B2=G|B1=G）=SS+0.5（N−S）P(B2=G|B1=G)=\frac{S}{S+0.5(N-S)} Rで上記のアルゴリズムを実装する： N <- 10000 S <- sum(runif(N)<0.5) S/(S+0.5*(N-S)) 0.670.670.67

12 r probability simulation monte-carlo paradox

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

Rでのモンテカルロシミュレーションを使用した積分の近似

MCシミュレーションを使用して次の積分を近似するにはどうすればよいですか？ ∫1−1∫1−1|x−y|dxdy∫−11∫−11|x−y|dxdy \int_{-1}^{1} \int_{-1}^{1} |x-y| \,\mathrm{d}x \,\mathrm{d}y ありがとう！編集（一部のコンテキスト）：シミュレーションを使用して積分を近似する方法を学習しようとしており、いくつかの困難に直面したときにいくつかの練習を行っています。編集2 + 3：どういうわけか混乱して、積分を別々の部分に分割する必要があると思いました。だから、私は実際にそれを理解しました： n <- 15000 x <- runif(n, min=-1, max=1) y <- runif(n, min=-1, max=1) mean(4*abs(x-y))

12 r self-study monte-carlo

2

モンテカルロシミュレーション推定の精度を見つける

バックグラウンド私は一連のモデルの出力を組み合わせたモンテカルロシミュレーションを設計しています。シミュレーションにより、シミュレーション結果の確率とその確率推定の精度について合理的な主張ができることを確認したいと思います。シミュレーションは、特定のコミュニティから選ばれたju審員が特定の被告に有罪判決を下す可能性を見つけます。シミュレーションの手順は次のとおりです。既存のデータを使用して、人口統計的予測因子で「審査員第一投票」を回帰することにより、ロジスティック確率モデル（M）を生成します。モンテカルロ法を使用して、Mの 1,000バージョン（つまり、モデルパラメーターの係数の1000バージョン）をシミュレートします。モデルの1,000バージョン（M i）のいずれかを選択します。特定の人口統計学的特性分布を持つ個人の「コミュニティ」（C）から12の「ju審員」の1,000セットをランダムに選択することにより、1,000人の審査員を審査します。 M iを使用して、各審査員の最初の投票有罪投票の確率を決定論的に計算します。各「ju審員」の可能性のある票を、（0-1の間でランダムに選択された値よりも大きいか小さいかに基づいて）確定票にレンダリングします。最初の投票で有罪判決を下すju審員の割合を条件に、ju審が有罪となる確率のモデル（経験的データから導出）を使用して、各「 "審員」「最終投票」を決定します。 1000人のju審員に対する有罪判決の割合（PG i）を保存します。 Mの 1,000のシミュレートされたバージョンのそれぞれについて、手順3〜8を繰り返します。 PGの平均値を計算し、それをCでの確信の確率のポイント推定値として報告します。 PGの2.5および97.5パーセンタイル値を特定し、0.95信頼区間として報告します。現在、確率分布（Cの人口統計学的特性またはMのバージョン）から1,000のランダム抽選がその分布を埋めるという理論で、1,000人のju審員と1,000人のju審員を使用しています。ご質問これにより、見積もりの精度を正確に判断できますか？もしそうなら、Cの確率分布をカバーするために、各PG i計算に何人の審査員を入れる必要があります（したがって、選択バイアスを回避します）。1,000未満しか使用できませんか？助けてくれてありがとう！

12 confidence-interval monte-carlo standard-error simulation

2

優れたハイブリッド/ハミルトニアンモンテカルロアルゴリズムの設計について知っておくべきことは何ですか？

私はPyMCのハイブリッドモンテカルロサンプリングアルゴリズムを設計しており、できるだけ手間のかからない一般的なものにしようとしているので、HMCアルゴリズムの設計に関する良いアドバイスを探しています。私は読んだことがあるラドフォードの調査章とBeskosらを。HMCの最適な（ステップサイズ）チューニングに関するal。の最近の論文と私は、次のヒントを集めました。運動量変数は共分散で分布する必要があります。ここで、は一般に分布の共分散行列のようなものです（単純な分布の場合）が、異なる可能性があります（おかしな形の分布の場合）。デフォルトでは、私はモードでヘシアンを使用しています。C− 1C−1C^{-1}CCC 軌跡はリープフロッグ法で計算する必要があります（他のインテグレーターには価値がないようです）最適な受け入れ率は、非常に大きな問題の場合は.651、それ以外の場合は高くなります。ステップサイズは、ようにスケーリングする必要があります。ここで、は自由変数、は次元数です。L × d（1 / 4 ）L×d（1/4）L\times d^{(1/4)}LLLddd テールが明るい場合、または安定性が奇数の領域がある場合、ステップサイズを小さくする必要があります。これには、ステップサイズのランダム化が役立ちます。他に採用すべき、または少なくとも考慮すべきアイデアはありますか？私が読むべき他の論文？たとえば、価値がある適応ステップサイズアルゴリズムはありますか？軌道の長さについて良いアドバイスはありますか？実際、より良いインテグレーターはいますか？誰かこれをコミュニティウィキにしてください。

12 bayesian monte-carlo

タグ付けされた質問 「monte-carlo」

タグ付けされた質問「monte-carlo」