タグ付けされた質問 「sampling」

確率論的方法を使用して、指定された母集団からサンプルを作成し、指定された分布から乱数を生成します。このタグがあいまいなので、前者には[調査サンプリング]、後者には[モンテカルロ]または[シミュレーション]を検討してください。既知の分布からランダムサンプルを作成することに関する質問については、[random-generation]タグの使用を検討してください。

3
非ランダムサンプルのランダム化
実験的な研究に参加する心理的な広告を見ると、いつも少し驚いています。確かに、これらの広告に反応する人々は無作為に抽出されるわけではないため、自己選択された集団です。 ランダム化によって自己選択の問題が解決されることがわかっているので、非ランダムサンプルのランダム化によって実際に何かが変化したのかどうか疑問に思いました。 どう思いますか ?また、自分で厳選したサンプルに基づいてこれらすべての心理実験を行うにはどうすればよいでしょうか。


2
マルコフ連鎖ベースのサンプリングは、モンテカルロサンプリングに「最適」ですか?利用可能な代替スキームはありますか?
マルコフ連鎖モンテカルロはマルコフ連鎖に基づく方法であり、サンプルを直接抽出できない非標準分布から(モンテカルロ設定で)サンプルを取得できます。 私の質問は、マルコフ連鎖がモンテカルロサンプリングにとって「最先端」である理由です。別の質問かもしれませんが、モンテカルロサンプリングに使用できるマルコフ連鎖のような他の方法はありますか?(少なくとも文献を見ると)MCMCには((a)周期性、均一性、詳細なバランスなどの条件に関して)深い理論上のルーツがあることを知っていますが、Monteに「比較可能な」確率モデル/方法があるかどうか疑問に思っていますマルコフ連鎖に似たカルロサンプリング。 質問の一部を混乱させた場合(または全体的に混乱したように思われる場合)にご案内ください。

2
混合分布の逆CDFサンプリング
コンテキスト外のショートバージョン ましょうyyy CDFを有する確率変数である F(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = 0 y > 0F(⋅)≡{θ y = 0 θ+(1−θ)×CDFlog-normal(⋅;μ,σ) y > 0 F(\cdot) \equiv \cases{\theta & y = 0 \\ \theta + (1-\theta) \times \text{CDF}_{\text{log-normal}}(\cdot; \mu, \sigma) & y > 0} 逆CDF法を使用して描画をシミュレートしたいとしましょうyyy。それは可能ですか?この関数は、厳密には逆を持ちません。次に、2つの正規分布の混合分布の逆変換サンプリングがあります。これは、ここで逆変換サンプリングを適用する既知の方法があることを示唆しています。 2ステップの方法は知っていますが、自分の状況に適用する方法がわかりません(以下を参照)。 背景付きロングバージョン MCMC(具体的には、Stan)を使用して、ベクトル値応答yi=(y1,…,yK)iyi=(y1,…,yK)iy^i = \left( y_1 , \dots , y_K \right)^iに次のモデルを適合させました。 θik≡logit−1(αkxi),μik≡βkxi−σ2k2F(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y …

4
分布がわからない場合のサンプリング方法
私は統計学(初心者レベルの少数のUniコース)にかなり慣れていないので、未知の分布からのサンプリングについて疑問に思っていました。具体的には、基になるディストリビューションがわからない場合、代表的なサンプルを取得することを「保証」する方法はありますか? 説明する例:富のグローバルな分布を把握しようとしているとしましょう。特定の個人について、あなたはどういうわけか彼らの正確な富を見つけることができます。しかし、地球上のすべての人を「サンプリング」することはできません。したがって、n = 1000人をランダムにサンプリングするとします。 サンプルにビルゲイツが含まれていない場合、億万長者は存在しないと思うかもしれません。 サンプルにビルゲイツが含まれていた場合、億万長者が実際よりも一般的であると考えるかもしれません。 どちらの場合でも、億万長者がどれほど一般的またはまれであるかを実際に知ることはできません。存在するかどうかさえわからないかもしれません。 このような場合には、より良いサンプリングメカニズムが存在しますか? 使用するサンプリング手順(および必要なサンプル数)をアプリオリにどのように伝えますか? 合理的な確実性に近づくと、知るには人口の大部分を「サンプリング」する必要があるかもしれません。これは、億万長者が地球上にどの程度いるか、または珍しいかであり、これは基礎となる分布が少し難しいためです。一緒に働きます。

4
(相互作用)マルチモーダル後部用MCMC
MCMCを使用して、特に互いに離れている多くのモードを持つ事後からサンプリングしようとしています。ほとんどの場合、これらのモードの1つだけが私が探している95%のhpdを含んでいるようです。調整されたシミュレーションに基づいてソリューションを実装しようとしましたが、実際にはある「キャプチャ範囲」から別の「キャプチャ範囲」に移行するとコストがかかるため、満足のいく結果が得られません。 結果として、より効率的なソリューションは、さまざまな開始点から多くの単純なMCMCを実行し、MCMCを相互に作用させることによって主要なソリューションに飛び込むことだと私には思われます。そのようなアイデアを実装する適切な方法があるかどうかを知っていますか? 注:私が探しているものに近いように見える紙http://lccc.eecs.berkeley.edu/Papers/dmcmc_short.pdf(分散型マルコフチェーンモンテカルロ、ローレンスマレー)を見つけましたが、デザインが本当にわかりません関数。RiRiR_i [編集]:回答の欠如は、私の最初の問題に対する明確な解決策がないことを示しているようです(異なる開始点からの同じターゲット分布からサンプリングする複数のMCMCが互いに相互作用します)。本当 ?なぜそんなに複雑なのですか?ありがとう

1
空間統計に関する推奨書籍
i)空間ドメイン全体での単変量変数と多変量変数(実数、カウントデータ)の変動性を研究するのに最適な本は何ですか。ii)空間位置全体の分布に基づいて、単変量または多変量変数をサンプリングします。(要するに空間サンプリング)

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

4
重要ではないため、研究からデータを除外できますか?
sciencemag.orgの記事を読んでいるときにこの文章に遭遇しました。 最後に、残りのデータが統計的に有意であると見なされなかったため、12か国のわずか7600人の研究者からの回答が含まれました。 これは研究を行うための適切な方法ですか?統計的に有意であると見なされなかったために結果を除外するには?

3
1%マイクロデータサンプルを大規模に使用し、統計を小さな領域スケールで集計して、どのようにして小さな領域の人口調査マイクロデータをシミュレーションできますか?
個人レベルの多変量解析を、地理的集計の小さなレベル(オーストラリアの国勢調査区)で実行したいと思います。明らかに、プライバシーの理由から、これらの小さなレベルの集計では国勢調査を利用できないため、他の代替案を調査しています。関心のある変数のほとんどすべてがカテゴリカルです。自由に使える2つのデータセットがあります。 1%の国勢調査サンプルは、はるかに高いレベルの空間集約(人口が約190,000で、人口統計の空間分離が広大な地域)で利用できます。 小領域レベルで関心のある変数の度数分布表(500小領域、平均ポップ= 385、sd = 319、中央値= 355)。 これらの2つのデータセットを使用して、小区域の実際の人口にできるだけ近い小区域レベルでの人口分布をシミュレートするにはどうすればよいですか? これを行うための通常の方法があることを私は感謝しています。もしそうなら、教科書または関連する雑誌の記事へのポインタが非常に高く評価されます。

3
候補者の分布が均一なMetropolis-Hastingsの合格率
均一な候補分布でMetropolis-Hastingsアルゴリズムを実行する場合、受け入れ率を約20%にする根拠は何ですか? 私の考えは、真の(または真に近い)パラメータ値が見つかると、同じ均一な間隔からの新しい候補パラメータ値のセットが尤度関数の値を増加させることはありません。したがって、実行する反復が多いほど、取得率は低くなります。 この考えのどこが間違っているのですか?どうもありがとう! これが私の計算のイラストです: Acceptance_rate=exp{l(θc|y)+log(p(θc))−[l(θ∗|y)+log(p(θ∗)]},Acceptance_rate=exp⁡{l(θc|y)+log⁡(p(θc))−[l(θ∗|y)+log⁡(p(θ∗)]},Acceptance\_rate = \exp \{l(\theta_c|y) + \log(p(\theta_c)) - [l(\theta^*|y) + \log(p(\theta^*) ]\}, ここで、は対数尤度です。lll 候補が常に同じ均一な間隔から取得され、θθ\theta p(θc)=p(θ∗).p(θc)=p(θ∗).p(\theta_c) = p(\theta^*). したがって、受け入れ率の計算は次のように縮小されます。 Acceptance_rate=exp{l(θc|y)−[l(θ∗|y)]}Acceptance_rate=exp⁡{l(θc|y)−[l(θ∗|y)]}Acceptance\_rate = \exp \{l(\theta_c | y) - [l(\theta^* | y) ]\} したがって、の受け入れ規則は次のようになります。θcθc\theta_c もし、間隔で一様分布から描画である次に、U [ 0 、1 ]U≤Acceptance_rateU≤Acceptance_rateU \le Acceptance\_rate UUU[0,1][0,1][0,1] θ∗=θc,θ∗=θc,\theta^* = \theta_c, それ以外の場合は、区間内の均一分布からを描画します [ θ M I N、θ …



1
発生のランダムサンプリングに基づいてイベントの頻度を推定できますか?
いくつかの編集が行われました... この質問はただの面白さなので、面白くない場合は無視してください。私はすでにこのサイトから多くの助けを得ているので、私を養う手を噛みたくありません。これは実際の例に基づいており、私がよく疑問に思ったものです。 私は地元の道場を訪れ、月曜日から金曜日まで基本的にランダムにトレーニングをしています。週に2回訪問するとします。これは、私が毎週正確に2回訪問することを意味します。私がいるときはいつでも、ほとんどいつもそこにいる一人の人がいます。彼が私と同じ日に訪問した場合、私は彼に会います。私がいるときの90%の時間に彼がいるとしましょう。2つのことを知りたい: 1)彼が訓練する頻度 2)彼がランダムに来るか、週の特定の日に来るか。 おそらく、もう1つを推測するために1つを想定する必要があると思いますか?私は本当にこれで全くどこにも行きません。毎週のウォームアップでそれについて考えているだけで、新たに困惑します。誰かが私に問題について考える方法を与えたとしても、私は最も感謝します。 乾杯!

3
RでXTS時系列を再サンプリングする方法は?
不規則な間隔のXTS時系列がありPOSIXctます(インデックスタイプとして値を使用)。 10分間隔でサンプリングされた新しい時系列をどのように構築できますか。ただし、各サンプルモーメントはラウンド時間(13:00:00、13:10:00、13:20:00など)に合わせて調整されます。 。リサンプリングの瞬間が元のシリーズの値に正確に一致しない場合は、以前の値を使用します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.