タグ付けされた質問 「monte-carlo」

(疑似)乱数と大数の法則を使用して、実際のシステムのランダムな動作をシミュレートします。

1
混合効果モデルの残差をブートストラップすると、なぜ保守的な信頼区間が得られないのですか?
私は通常、複数の個人がそれぞれ2つ以上の条件のそれぞれで複数回測定されるデータを扱います。私は最近、条件間の差異の証拠を評価するために混合効果モデリングを試しindividual、ランダム効果としてモデリングしています。そのようなモデリングからの予測に関する不確実性を視覚化するために、私はブートストラップを使用しており、ブートストラップの各反復で、個体と観測内の条件内の両方が置換でサンプリングされ、新しい混合効果モデルが予測から計算されます取得されます。これは、ガウス誤差を仮定するデータに対しては正常に機能しますが、データが2項式の場合、各反復で比較的計算集中型の2項式混合効果モデルを計算する必要があるため、ブートストラップに非常に長い時間がかかる可能性があります。 私が考えていたのは、元のモデルの残差を使用して、ブートストラップの生データの代わりにこれらの残差を使用できるため、ブートストラップの各反復でガウス混合効果モデルを計算できるというものでした。生データの二項モデルからの元の予測を残差からのブートストラップ予測に追加すると、元の予測の95%CIが生成されます。 ただし、私は最近、このアプローチの簡単な評価をコード化し、2つの条件の差をモデル化せず、95%信頼区間にゼロを含めることができなかった時間の割合を計算しました。上記の残差ベースのブートストラップ手順では、かなり強い反保守的な間隔(ゼロを除外するのは、時間の5%以上)。さらに、元のガウシアンであるデータに適用した場合と同様に、このアプローチの同様の評価をコード化し(以前と同じリンク)、同様に(極端ではないが)反保守的なCIを取得しました。これがなぜなのか、何か考えはありますか?

1
基本的なブートストラップ信頼区間のカバレッジ確率
現在取り組んでいるコースについて次の質問があります。 モンテカルロ研究を実施して、標準の通常のブートストラップ信頼区間と基本的なブートストラップ信頼区間のカバレッジ確率を推定します。正規母集団からサンプリングし、サンプル平均の経験的カバレッジレートを確認します。 標準の通常のブートストラップCIのカバレッジ確率は簡単です。 n = 1000; alpha = c(0.025, 0.975); x = rnorm(n, 0, 1); mu = mean(x); sqrt.n = sqrt(n); LNorm = numeric(B); UNorm = numeric(B); for(j in 1:B) { smpl = x[sample(1:n, size = n, replace = TRUE)]; xbar = mean(smpl); s = sd(smpl); LNorm[j] = xbar + …

2
ベイジアンはどのようにしてモンテカルロシミュレーション法を使用してメソッドを検証しますか?
背景:私は社会心理学の博士号を取得しており、理論的な統計と数学は私の定量的な授業ではほとんどカバーされていません。学部と大学院を通して、私は(おそらく社会科学の多くの人と同じように)「古典的な」頻出主義の枠組みを通じて教えられました。今、私はまた、Rを愛し、メソッドの作業が行うことを確認するためにシミュレーション手法を使用しての道を数学的な証明よりも私には感覚的です(ここでも、理論的な統計ではなく、量的社会科学の背景)。頻度論的手法とシミュレーション手法を組み合わせることは、私にとって非常に意味のあることです。常連客は確率を長期的なオッズと見なしているためです(たとえば、これを任意の回数実行すると、50%の確率で発生し、50%の確率になります)。モンテカルロ法でこの長期をシミュレーションできます! 合併症:学部生以来、ベイズ法に非常に気づいていて、人生の中でベイズ側に電話をかけてくる人が常にいて、結果の解釈が簡単で、データの代わりに仮説の確率が得られると言ってきました仮説などを与えられました。私は本当にこれに夢中になって、ベイジアンクラスを取り、いくつかのベイジアンの本や論文を読み、現在はスタンとそれに関連するRパッケージにかなり精通しています。 Mayoに入る:「Bayesianはおそらく未来の道だ」としばらく考えた後、私はDeborah Mayoの統計的推論をSevere Testingとして読みました。彼女は本の最初でどちらか一方を選ぶことはないと言いますが、そうします:彼女は常習者であり、本の多くは頻出主義の方法論を擁護しています。私は、彼女が証拠を見る方法が有効であると私たちが考えるかどうかの議論に必ずしも入りたくありませんが、これは私に考えさせました:ベイズが宣伝されているすべては本当にですか?つまり、ベイズの群衆はそれ自体が分裂しているため、ベイジアンフレームワークでデータを分析するための「正しい」方法をよく知りません。通常、私は単に使用しますrstanarm現在のポイントの推定値と信頼できる区間...これは、頻繁に頻度論者の推定値と信頼区間と一致します。私はモデル比較を行うかもしれませんが、ベイズ因子を事後確率比較などとして説明することは常に恐れています。 もっと考える:メイヨーの本を通して私がずっと考えていたのは次のとおりです。コンピュータを使用して頻出主義の方法を確実に機能させる方法があります。なぜなら、確率は長期的に見られるものであり、それをシミュレートできるからです。ベイジアンは、どの確率が実際にあるのかについてさえ合意することができないようです。それは、ベイジアンスクール(デフォルト、主観など)によって異なります。それが私の質問につながります: 質問:長期的に確率が確率として定義されていない場合、モンテカルロシミュレーション法を使用して、ベイズの方法が不確実性を適切に定義している(つまり、有効な信頼できる区間と事後分布を計算する)ことをどのように確認しますか? 例:データジェネレータを作成します。これは、0.5の確率でベルヌーイ分布からシミュレーションを行うだけです。 set.seed(1839) p <- .50 n <- 100 gen_dat <- function(n, p) { rbinom(n, 1, p) } ここで、ロジスティック回帰の信頼区間が実際に有効であることを確認したいとします。回帰を何度もシミュレートして、実際の母集団の値が95%の時間の95%信頼区間内にあることを確認できます。これは切片のみのモデルなので、p正しく推定していることを確認したいだけです。 set.seed(1839) iter <- 10000 results <- sapply(seq_len(iter), function(zzz) { mod <- glm(gen_dat(n, p) ~ 1, binomial) conf <- suppressMessages(confint(mod)) log(p / (1 - p)) < …

6
プロジェクトオイラー問題213(「ノミサーカス」)をどのように解決すべきですか?
プロジェクトオイラー213を解決したいのですが、統計学の専門家なので、どこから始めればよいかわかりません。正確な回答が必要なため、モンテカルロ法が機能しないことに注意してください。いくつかの統計トピックをお勧めしますか?ここに解決策を投稿しないでください。 ノミサーカス 30×30の正方形のグリッドには900ノミが含まれ、最初は1正方形あたり1ノミです。ベルを鳴らすと、各ノミは隣接する正方形にランダムにジャンプします(通常、グリッドの端またはコーナーのノミを除き、4つの可能性があります)。 ベルが50回鳴った後の空いている正方形の予想数はいくつですか?小数点以下6桁に四捨五入して回答してください。

2
積分の精度を推定する方法は?
コンピュータグラフィックスで非常に一般的な状況は、一部のピクセルの色が一部の実数値関数の積分に等しいことです。多くの場合、関数は複雑すぎて分析的に解くことができないため、数値近似を行います。しかし、この関数は計算に非常にコストがかかることも多いため、計算できるサンプルの数には大きな制約があります。(たとえば、100万サンプルを取得して、そのままにしておくことはできません。) 次に、一般的に、推定積分が「十分に正確」になるまで、ランダムに選択されたポイントで関数を評価します。これは私の実際の質問に私をもたらします:積分の「精度」をどのように推定しますか? 具体的には、があります。これは、いくつかの複雑で低速なコンピューターアルゴリズムによって実装されます。見積もりたいf:R→Rf:R→Rf : \mathbb{R} \rightarrow \mathbb{R} k=∫baf(x) dxk=∫abf(x) dxk = \int_a^b f(x) \ dx 任意のxに対してを計算できますが、コストがかかります。したがって、ランダムにいくつかのx値を選択し、kの推定が許容できるほど正確になったときに停止します。もちろん、これを行うには、現在の見積もりが実際にどれほど正確であるかを知る必要があります。f(x)f(x)f(x)xxxxxxkkk この種の問題にどの統計ツールが適切であるかさえわかりません。しかし、私がfについてまったく何も知らなければ、問題は解決できないようです。たとえば、f (x )を1000回計算し、それが常にゼロの場合、推定積分はゼロになります。しかし、については何も知りませんfは、それがあることはまだ可能だF (xは)= 1 、000 、000をお使いの推定値は恐ろしく間違っているので、あなたは、サンプルに起こった点を除いてどこでも!ffff(x)f(x)f(x)ffff(x)=1,000,000f(x)=1,000,000f(x) = 1,000,000 ffffff 編集: OK、これは多くの応答を生成したようで、これは良いことです。それぞれに個別に返信するのではなく、ここで追加の背景を記入してみます。 ffffffffffff fffffffff fff また、「モンテカルロ」が出現した回数を考えると、それがこの種の統合の専門用語だと思いますか?

4
数値最適化手法として勾配降下法とモンテカルロ法を使用する場合
一連の方程式を解析的に解くことができない場合、勾配降下アルゴリズムを使用できます。しかし、解析解がない問題を解決するために使用できるモンテカルロシミュレーションの方法もあるようです。 勾配降下法を使用する場合とモンテカルロを使用する場合を区別する方法は?それとも、「シミュレーション」という用語と「最適化」という用語を混同しているだけなのでしょうか。 どうもありがとうございました!

2
不適切な混合物からの正確なサンプリング
連続分布からサンプリングしたいとします。次の形式で式がある場合pp(x)p(x)p(x)ppp p(x)=∑i=1∞aifi(x)p(x)=∑i=1∞aifi(x)p(x) = \sum_{i=1}^\infty a_i f_i(x) ここで、、およびf_iは、簡単にサンプリングできる分布であり、pから簡単にサンプルを生成できます。ai⩾0,∑iai=1ai⩾0,∑iai=1a_i \geqslant 0, \sum_i a_i= 1fifif_ippp 確率a_iでラベルiiiをサンプリングするaiaia_i XのサンプリングX∼fiX∼fiX \sim f_i aiaia_iが時々負になる場合、この手順を一般化することは可能ですか?私はこれがどこかで行われたのを見たことがあると思います-おそらく本の中で、おそらくコルモゴロフの分布について-だから、私はリファレンスを回答として受け入れて完全に幸せです。 具体的なおもちゃの例が役に立つ場合は、p(x、y)\ propto \ exp(-xy- \ alpha \ sqrt {xy})\ qquad x、y> 0からサンプリングしたいp(x,y)∝exp(−x−y−αxy−−√)x,y>0p(x,y)∝exp⁡(−x−y−αxy)x,y>0p(x,y) \propto \exp(-x-y-\alpha\sqrt{xy})\qquad x,y > 0とします。物事の壮大な計画において、あまり重要ではない技術的理由のためにα∈(0,2)α∈(0,2)\alpha \in (0, 2)を取ります。 原則として、これを次の合計として展開できます。 p(x,y)∝∑n=0∞(−1)nαn(n2)!(n2)!n!(xn/2e−x(n2)!)(yn/2e−y(n2)!).p(x,y)∝∑n=0∞(−1)nαn(n2)!(n2)!n!(xn/2e−x(n2)!)(yn/2e−y(n2)!).p(x,y) \propto \sum_{n=0}^\infty \frac{(-1)^n \alpha^n \left( \frac{n}{2} \right)! \left( \frac{n}{2} \right)!}{n!} \left( …

1
事後分布の孤立した極大値を処理できるモンテカルロ/ MCMCサンプラーが実装されていますか?
私は現在、複数のODEで構成されるモデルのパラメーターを推定するためにベイジアンアプローチを使用しています。推定するパラメーターが15個あるので、私のサンプリング空間は15次元であり、事後分布を検索したところ、非常に低い確率の大きな領域によって非常に分離された多くの極大値があるようです。 1つのチェーンが1つの極大値から「ジャンプ」し、誤って他の最大値の1つにヒットすることはほとんどないため、これは私のモンテカルロチェーンの混合問題につながります。 この問題を扱った論文を見つけるのは簡単なので(下記参照)、この分野には多くの研究があるようですが、実際の実装を見つけるのは難しいです。私は分子動力学に関連するパッケージのみを見つけましたが、ベイジアン推論は見つけませんでした。(MC)MCサンプラーの実装で、孤立した極大値を処理できるものはありますか? 私のODEモデルが記述されているため、Matlabでの作業を余儀なくされています。Matlabに関する提案は大歓迎です;-)。ただし、他の言語の "キラーアプリ"がある場合は、PIを切り替えて;-)を説得できます。 私は現在、HaarioやLaineなどによって書かれた遅延拒絶/適応モンテカルロサンプラーを使用しています。、それは私がこれまでに見つけた唯一のサンプラーでもあり、標準のMetropolis-Hastingsアルゴリズムよりも洗練されています 注目すべきアプローチは次のようです。 EDIT 2017-Mar-07に更新しました 開始点が異なる複数の類似したチェーン チェーン間の適応。複数の独立したチェーンによって生成されたプールされたサンプルの経験的共分散行列を使用して、チェーンの提案分布の共分散行列を更新します。(1) 焼戻しが異なる複数のチェーン 和らげる: ある種の「温度」が後部の景観を変化させ、鎖の混合が起こりやすくなるようです。(これについてはまだあまり詳しくありません)(1)調整の目的は、事後確率分布によって形成される(高次元の)確率ランドスケープを平坦化することです。これは通常、事後確率を累乗にすることによって達成されます。ここで、事後ランドスケープは平坦化されます(3、p.298)。つまり、状態の事後確率を計算する代わりに、データが与えられると、調整された事後確率が計算されます。T > 1つのp (θ | D )θ D1 / T1/T1/TT> 1T>1T>1P (θ | D )p(θ∣D)p(\theta\mid D)θθ\thetaDDD p(θ∣D)1/T∝(p(D∣θ)⋅p(θ))1/Tp(θ∣D)1/T∝(p(D∣θ)⋅p(θ))1/Tp(\theta\mid D)^{1/T} \propto \left( p(D\mid\theta)\cdot p(\theta)\right)^{1/T} 高いが選択されると、確率ランドスケープのフラットで幅広いピークになります。したがって、値が大きいほど、サンプラーが1つの極大値から別の極大値に切り替わる確率が高くなります。ただし、は、場合に検索される事後分布ではありません 。したがって、その分布のサンプルのチェーンを使用して、後でからのサンプリングを有効にする必要があります。T P (θ | D )1 / T T ≠ 1つのP (θ | D …

3
G検定とピアソンのカイ2乗検定
分割表で独立性をテストしています。G検定とピアソンのカイ2乗検定のどちらが良いかわかりません。サンプルサイズは数百ですが、いくつかの低い細胞数があります。ウィキペディアのページで述べたように、カイ二乗分布の近似は、ピアソンのカイ二乗検定よりもG検定の方が優れています。しかし、モンテカルロシミュレーションを使用してp値を計算しているので、これら2つのテストの間に違いはありますか?N× MN×MN \times M

1
モンテカルロ分析に必要なシミュレーション数
私の質問は、モンテカルロ分析法に必要なシミュレーション数についてです。私は、任意の許容されるパーセンテージエラーのためにシミュレーションに必要な数を見る限り、(例えば、5)は 、N = { 100 ⋅ Z C ⋅ STD (X )EEEn={100⋅zc⋅std(x)E⋅mean(x)}2,n={100⋅zc⋅std(x)E⋅mean(x)}2, n = \left\{\frac{100 \cdot z_c \cdot \text{std}(x)}{E \cdot \text{mean}(x)} \right\}^2 , ここで、は結果のサンプリングの標準偏差、z cは信頼水準係数です(たとえば、95%の場合は1.96)。したがって、この方法で、nシミュレーションの結果の平均と標準偏差が実際の平均と95%の信頼水準の標準偏差を表すことを確認できます。std(x)std(x)\text{std}(x)zczcz_cnnn 私の場合、シミュレーションを7500回実行し、7500シミュレーションから100サンプリングの各セットの移動平均と標準偏差を計算します。私が取得する必要なシミュレーションの数は常に100未満ですが、結果全体の平均と標準と比較した平均と標準誤差の%は常に5%未満ではありません。ほとんどの場合、平均誤差率は5%未満ですが、標準誤差は最大30%になります。 実際の平均と標準を知らずに必要なシミュレーションの数を決定する最良の方法は何ですか(私の場合、シミュレーションの対象となる結果は正規分布です)? 助けてくれてありがとう。 シミュレーションが無限に実行されたときにシミュレーション結果の分布がどのようになるかを理解するために、n回のシミュレーション後に結果の平均と分散を使用する代わりに、結果の分布のフィット関数を見つけることにしました。ただし、ここでは、nは%エラーをフルフィルする必要があります。そのようにすると、たとえば97.5%に関連する累積分布関数のより正確な結果を見つけることができると思います。400と7000のシミュレーションの結果を比較すると、両方のサンプリングの分布のフィット関数は互いに似ているため、2番目の曲線の曲線のみが滑らかになります。また、したがって、MATLAB / Simulinkのモデルは非線形ですが、生成された入力パラメーターは正規分布ですが、シミュレーションの結果のヒストグラムは通常ではないため、「一般化極値分布」を使用しました。これは、MATLABでは 'gev'という名前です。しかし、それでも、この方法論についてはよくわかりません。事前のコマンドに感謝します

5
経験的データからランダムな多変量値を生成する
私は、部分的に相関関係のある収益を持ついくつかの資産を評価するためのモンテカルロ関数に取り組んでいます。現在、私は共分散行列をrmvnorm()生成し、R の関数にフィードするだけです(相関ランダム値を生成します)。 ただし、資産のリターンの分布を見ると、通常は分布していません。 これは実際には2つの部分からなる質問です 。1)既知の分布のない実際のデータがある場合に、PDFまたはCDFの種類を推定するにはどうすればよいですか? 2)rmvnormのような相関値をどのように生成できますか?しかし、この未知の(そして非正規の)分布については? ありがとう! 分布が既知の分布に適合していないようです。パラメトリックと仮定してモンテカルロ推定に使用することは非常に危険だと思います。 私が見ることができるある種のブートストラップまたは「経験的なモンテカルロ」方法はありませんか?
10 mcmc  monte-carlo  pdf 

1
注文統計を介して推定値がパーセンタイルに収束することを示します
LET からサンプリングIIDランダム変数のシーケンスであるアルファ安定分布パラメータで、α = 1.5 、バツ1、X2、… 、X3 nX1,X2,…,X3nX_1, X_2, \ldots, X_{3n}。α = 1.5 、β= 0 、c = 1.0 、μ = 1.0α=1.5,β=0,c=1.0,μ=1.0\alpha = 1.5, \; \beta = 0, \; c = 1.0, \; \mu = 1.0 今配列検討、Y J + 1 = X 3 J + 1 X 3 J + 2 X …

4
1つの値からN個の独立した乱数ジェネレータをシードする最良の方法
私のプログラムでは、大規模なデータセットのサンプリングに使用される独自のRNGを使用して、それぞれN個の個別のスレッドを実行する必要があります。結果を再現できるように、このプロセス全体に単一の値をシードできるようにする必要があります。 各インデックスのシードを単純に順次増やすだけで十分ですか? 現在、私は使用numpyのRandomStateメルセンヌツイスターの擬似乱数生成器を使用しています。 以下のコードの抜粋: # If a random number generator seed exists if self.random_generator_seed: # Create a new random number generator for this instance based on its # own index self.random_generator_seed += instance_index self.random_number_generator = RandomState(self.random_generator_seed) 基本的に、ユーザーが入力したシード(存在する場合)から始め、インスタンス/スレッドごとに、実行中のインスタンスのインデックス(0からN-1)を順番に追加します。これが良い習慣なのか、これを行うより良い方法があるのか​​はわかりません。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
マルコフ連鎖モンテカルロサンプルの数
あり、多くの文献には、そこに診断で最も人気のGelman-Rubin氏を含むマルコフ連鎖モンテカルロ(MCMC)収束診断について。ただし、これらはすべてマルコフ連鎖の収束を評価し、バーンインの問題に対処します。 バーンインがわかったら、推定プロセスを続行するのに十分な数のMCMCサンプルをどのように決定すればよいですか?MCMCを使用するほとんどの論文は、マルコフ連鎖を回反復して実行したと述べていますが、その数を選択した理由/方法については何も述べていません。んnnんnn さらに、マルコフ連鎖における相関は問題ごとに大きく異なるため、1つの望ましいサンプルサイズがすべてのサンプラーの答えになるわけではありません。それで、必要なサンプルの数を見つけるための規則はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.