タグ付けされた質問 「sampling」

確率論的方法を使用して、指定された母集団からサンプルを作成し、指定された分布から乱数を生成します。このタグがあいまいなので、前者には[調査サンプリング]、後者には[モンテカルロ]または[シミュレーション]を検討してください。既知の分布からランダムサンプルを作成することに関する質問については、[random-generation]タグの使用を検討してください。

2
正規母集団の小さなサンプルのサンプリング分布は正規ですか、それともt分布ですか?[閉まっている]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 5年前休業。 母集団が正規分布していることを知っていて、この母集団から小さなサンプルを取得する場合、サンプリング分布が正常であるか、または代わりにt分布に従うと主張する方が正しいですか? 小さなサンプルはt分布する傾向があることを理解していますが、これは、基になる人口分布が不明な場合にのみ適用されますか? ありがとう!

1
ディリクレ分布から確率ベクトルをサンプリングするとはどういう意味ですか?
私は本質的に潜在ディリクレ配分について学んでいます。:私はここのビデオを見ているhttp://videolectures.net/mlss09uk_blei_tm/彼が分布からのサンプリングに説明し始めたとき分45時と立ち往生。 また、ディリケルト分布の詳細な紹介がない機械学習の本を調べてみました。私が読んでいる本では、ディリクレ分布から「確率ベクトル」をサンプリングする例を述べていましたが、それはどういう意味ですか? 分布からのサンプリングは、分布に従って確率変数のランダム値を取得することとして理解しています。したがって、p_X、Y(x、y)であるが、任意の分布のpmfであるとすると、この分布からのサンプリングは、ランダム(x、y)(つまり、xとyのランダム値)を取得することを意味します。イベントを取得する確率(X = x AND Y = y)を取得するために、分布のpmfを評価します...したがって、1つの数値のみを取得します。しかし、ここでは「確率ベクトル」とは何ですか! その本のスクリーンショットを添付しました。私はあなたが助けることができることを本当に望みます!

4
計算能力のないCDFを含むディストリビューションからサンプリングするにはどうすればよいですか?
セミコンピューターサイエンスシミュレーション関連の問題はこちら。 私はディストリビューションを持っています P(x)=(eb−1)eb(n−x)ebn+b−1(eb−1)eb(n−x)ebn+b−1\frac{(e^b-1) e^{b (n-x)}}{e^{b n+b}-1} 一部の定数bおよびnの場合、xはような整数です。0≤x≤n0≤x≤n0\leq x \leq n 今、私はこの分布からサンプリングする必要があります。それは可逆CDFを持っているので、理論的にはこれを直接行うことが可能です。問題は、関係する数値が大きいことです。実際には非常に大きいため、どちらも従来の形式の変数をオーバーフローし、任意の精度の形式を使用して計算するには少なくとも数分かかります(ある時点で私はあきらめました...)。基本的に、逆CDF には、依然としてが含まれます。これにもかかわらず、出力数はの範囲のままなので、これを行う方法があるはずです。eb(n+1)eb(n+1)e^{b(n+1)}350&lt;n&lt;3500350&lt;n&lt;3500 350 < n < 35000−n0−n0-n 私が探している約この分布からのサンプリングの方法である計算。サンプリングの代替方法はありますか?彼らは何ですか?

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

2
ランダムサンプリングによる単純な積分方程式の解法
してみましょう非負関数です。ような を見つけることに興味があります。警告:私ができることは[0,1]のポイントでをサンプリングすることだけです。ただし、必要に応じて、fをランダムにサンプリングする場所を選択できます。 fffz∈[0,1]z∈[0,1]z \in [0,1]F [ 0 、1 ] F∫z0f(x)dx=12∫10f(x)dx∫0zf(x)dx=12∫01f(x)dx \int_0^{z} f(x)\,dx = \frac{1}{2}\int_0^1 f(x)\,dxfff[0,1][0,1][0,1]fff 質問: 有限個のサンプルの後にzの不偏推定を取得することは可能zzzですか?もしそうなら、kkkサンプル後のそのような推定値の可能な最小の分散は何ですか? そうでない場合、zを推定するために利用できる手順zzzと、それに関連する収束時間は何ですか。 コメントでDouglas Zareが指摘したように、関数がゼロに近いか非常に大きい場合、これを行うのは非常に困難です。幸いなことに、これを使用する必要がある関数は上と下からバインドされているため、1 \ leq f(x)\ leq 2と仮定しましょう1≤f(x)≤21≤f(x)≤21 \leq f(x) \leq 2。さらに、fffがリプシッツであるか、それが役立つ場合は微分可能であると仮定することもできます。

1
経験的分布の使用/解釈方法は?
まず、漠然としたタイトルについてお詫びしたいのですが、今のところより良いタイトルを作成することができませんでした。自由に変更するか、変更のアドバイスをお願いします。タイトルを質問の核心に合わせてください。 。 質問自体については、サンプリングに経験的分布を使用するというアイデアに出くわしたソフトウェアに取り組んでいますが、実装されたため、すべてを解釈する方法がわかりません。私が行ったこととその理由を説明させてください: 一連のオブジェクトの計算がたくさんあり、最終スコアが得られます。ただし、スコアはその場限りです。したがって、特定のオブジェクトのスコアを理解するために、モック/ランダムに生成された値を使用してスコアの計算を多数(N = 1000)実行し、1000のモックスコアを生成します。その特定のオブジェクトの経験的な「スコア分布」の推定は、これらの1000モックスコア値によって達成されます。 私はこれをJavaで実装しました(他のソフトウェアもJava環境で記述されているため)、Apache Commons Mathライブラリ、特にEmpiricalDistImplclassを使用します。ドキュメントによると、このクラスは以下を使用します: ガウス平滑化を使用した可変カーネル法に相当するもの:入力ファイルのダイジェスト ファイルを1回渡して、最小値と最大値を計算します。 範囲をmin-maxからbinCount "bins"に分割します。 データファイルを再度渡して、各ビンのビンカウントと一変量統計(平均、標準偏差)を計算します。 間隔(0,1)を、ビンに関連付けられたサブインターバルに分割します。ビンのサブインターバルの長さは、そのカウントに比例します。 今私の質問は、ある種の期待値を計算するためにこの分布からサンプリングすることは理にかなっていますか?言い換えれば、このディストリビューションをどれだけ信頼/信頼できますか?たとえば、分布をチェックしてスコアを観察することの重要性について結論を出すことはできますか?SSS これはおそらく、このような問題を検討するための正統な方法ではないことを理解していますが、経験的分布の概念と、それらを分析にどのように使用できるかできないかを理解することは興味深いと思います。

2
結果にある程度の良さを主張するために、シミュレーションのサンプルサイズを計算するにはどうすればよいですか?
私は統計の初心者なので、頭の悪い質問をする場合は事前に謝罪してください。質問への回答を検索しましたが、トピックの多くが具体的すぎるか、現在理解しているトピックをすぐに超えてしまいます。 完全にシミュレーションすることが不可能になる大規模なデータセットを含むシミュレーション作業があります。最小のデータセットの場合、完全な実行では、合計9180900テストからの結果の次の分布が示されます。 結果/頻度: 0 7183804 1 1887089 2 105296 3 4571 4 140 数字の意味は関係ありません。重要なのは、私が持っているより大きなデータセットは何十億ものテストに拡張され、実行するには時間がかかりすぎるということです。ワークロードを制限する必要があります。 完全なテストセットからサンプリングして、サンプルの分布を導き出し、徹底的なシミュレーションの結果がほぼ同じ分布を示すと(ある程度の範囲内で)推測できるはずだと思います。実行されるテストには固有のバイアスがないため、入力を一様にランダムに選択すると、有効なサンプルが提供されます。 私がまだ理解していないのは、サンプルサイズを選択する方法です。特に、分布は奇妙な尾を示し、サンプリングが小さすぎると低い周波数が失われるのではないかと心配しています。(「4」の140回の出現は、人口の0.0015%にすぎません!) それで、私の質問は、結果である程度の良いことを主張できるサンプルサイズを計算する最良の方法は何ですか? または、私は間違った質問をしていますか?

2
ランダムサンプルのサブサンプル:ランダムサンプル?
ヨーロッパのサッカー選手のランダムなサンプルが多数あるが、スペインで何が起こっているかにのみ関心があるとします。サンプルをスペインのプレーヤーに減らしても、それをランダムなサンプルと呼びますか(ただし、人口は異なります)?そうでない場合、そのサブサンプルをどのように呼び、スペインのサッカー選手の人口を推測できるようにするためにどのような予防策を講じる必要がありますか? 十分な大きさであれば、そのサブサンプルを使用しても問題ないと思いますが、何か不足している可能性があります。

3
ラテン超立方体サンプリングは、多次元で有効ですか?
私は現在、ラテンハイパーキューブサンプリング(LHS)を使用して、モンテカルロプロシージャ用の適切な間隔の均一な乱数を生成しています。LHSから得られる分散の減少は1次元では優れていますが、2次元以上では効果がないようです。LHSがよく知られている分散削減手法であることを見て、アルゴリズムを誤って解釈しているのか、それとも何らかの方法でそれを誤用しているのかと思います。 特に、私が生成に使用するLHSアルゴリズム NNN 等間隔のランダム変数 DDD 寸法は: 各次元について DDDのセットを生成します NNN 一様に分布した乱数 {u1D,u2D...uND}{uD1,uD2...uDN}\{u^1_D,u^2_D...u^N_D\} そのような u1D∈[0,1N+1]uD1∈[0,1N+1]u^1_D \in [0,\frac{1}{N+1}]、 u2D∈[1N+1,2N+1]uD2∈[1N+1,2N+1]u^2_D \in [\frac{1}{N+1}, \frac{2}{N+1}] ... uND∈[NN+1,1]uDN∈[NN+1,1]u^N_D \in [\frac{N}{N+1}, 1] 各次元について D≥2D≥2D \geq 2、各セットの要素をランダムに並べ替えます。最初U(0,1)DU(0,1)DU(0,1)^D LHSによって生成された DDD 並べ替えられた各セットの最初の要素を含む次元ベクトル、2番目の要素 U(0,1)DU(0,1)DU(0,1)^D LHSによって生成された DDD 並べ替えられた各セットの2番目の要素を含む次元ベクトルなど 以下にいくつかのプロットを含めて、得られた分散の減少を示します D=1D=1D = 1 そして D=2D=2D = 2モンテカルロ手順の場合。この場合、問題はコスト関数の期待値を推定することを含みますE[c(x)]E[c(x)]E[c(x)] どこ c(x)=ϕ(x)c(x)=ϕ(x)c(x) = \phi(x)、および xxx は DDDの間に分散された3次元確率変数 …

1
この動的なサンプルサイズ選択戦略をどのように呼びますか?
大きなドキュメントの圧縮率を非常に高速に評価したいとします。サブシーケンスをランダムに選択して、圧縮してみることができます。これは、ドキュメントの全体的な圧縮率の予測として役立ちます。しかし、あなたのサンプルはどのくらいの大きさにすべきですか? 私たちは次の戦略を考え出しました: 任意の(小さい)サンプルサイズを選択します。圧縮率を測定します。 次に、サンプルサイズを2倍にして、圧縮率を再度測定します。変更がほとんどない(たとえば10%未満)場合は、ドキュメントの圧縮率が確実に決定されていると結論付けます。そうでない場合は、サンプルサイズを再度2倍にします。 これは新しい戦略ではないことは明らかであり、統計学者が使用している有名な戦略に関連しているかどうか疑問に思っています。 (ここでの「圧縮」は単なる例です。基本的に、適切なサンプルサイズが何であるかを分析的に決定することができないように、既知の優れた数学的特性がないメトリックに関心があります。そのようなヒューリスティックに戻ってください。)


1
有限母集団からのサンプルのブートストラップ
誰かが、既知のサイズの母集団から取得したサンプルをブートストラップすることについての理論の参照を私に指摘できますか? 私は、人口のサイズがサンプルよりもはるかに大きいと考えられる場合に、Bootstrapを使用してサンプルの信頼区間を計算することに慣れています(したがって、繰り返しによるランダムな選択は、サンプリングプロセスをうまくエミュレートするはずです)。 人口が1000で、800をサンプリングしたことがわかったとしましょう(サンプリングが実際にランダムであると仮定しましょう)。繰り返しを伴うランダム選択は適切ではないようです。ピジョンホールの原理により、サイズ800の別のランダムサンプルを実際に取得すると、少なくとも600の値が元のサンプルと同じであることが保証されます。 解決策はありますか?私は考えました: 繰り返しで1000をサンプリングし、ランダムに800を選択します(従来のブートストラップと同等のアプローチのようです) 繰り返しなしのサンプル600では、繰り返しありの800サンプルすべてを使用して200をさらにサンプリングします。これは、私が前に説明した効果を説明します。 これらのアプローチの良い点と悪い点について何か考えはありますか?または別のアプローチ?

1
ランダムサンプリングによる最適化
インターネットの周りで、目的関数を再スケーリングし、それを最適化の目的でPDFとして使用するアイデアへの言及が散らばっています。(このサイトの例:最適化手法はサンプリング手法に対応していますか?)この手法について詳しく知ることができる場所を誰かに教えてもらえますか?(論文、ブログ投稿、講義など) 私が見てきたように、目的は目的関数を取り、新しい関数。ここで、は最大化問題の非常に大きな数ですまたは最小化問題の非常に大きな負の数。その場合、新しい関数は、他のどこよりも大域的最適点ではるかに高くなります。場合は次いで、非正規化確率密度関数として扱われ、その分布から引き出されたほとんどのサンプルは、その最適の周りであろう。f(x)f(x)f(x)g(x)=ekf(x)g(x)=ekf(x)g(x) = e^{kf(x)}kkkg(x)g(x)g(x)g(x)g(x)g(x) 知りたいことは次のとおりですが、これらに限定されません。 これらの確率関数にはどのサンプリングアルゴリズムが有効ですか? この方法が頻繁に使用されないのはなぜですか?(それはそれがとても効果的であるように思えます)。つまり、それに反対する議論はありますか? 効率やパフォーマンスを向上させるこの方法の変形はありますか?

2
Metropolis&Rejection&Inverse Transformサンプリング手法の使用
逆変換法は、分布関数の形状に依存する分析法であるため、分布からサンプリングするのに必ずしも適切なオプションではないことを知っています。たとえば、逆1次元ガウス分布は計算できませんが、サンプリングによって良好な結果が得られます。私にとっては、この方法で十分です。しかし、MCMCメソッド(Metropolis-HastingsまたはRejection)は、逆変換よりもパフォーマンスが良いのでしょうか。MCMCメソッドは、よりまれなイベントをカバーするため、ITより優れていますか?または、他に利点はありますか?いくつかの例が役立ちます!ありがとう!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.