タグ付けされた質問 「sampling」

確率論的方法を使用して、指定された母集団からサンプルを作成し、指定された分布から乱数を生成します。このタグがあいまいなので、前者には[調査サンプリング]、後者には[モンテカルロ]または[シミュレーション]を検討してください。既知の分布からランダムサンプルを作成することに関する質問については、[random-generation]タグの使用を検討してください。

4
スクラブルの文字の袋から単語を描画しない確率
タイルがあり、それぞれに文字が書かれたバッグがあるとします。あり文字'A'、とタイル 'B'で、というように、と 'ワイルドカード'タイルは、(私たちが持っている)。単語数が有限の辞書があるとします。交換せずにバッグからタイルを選びます。選択されたタイルが与えられた場合、辞書からゼロ語を形成できる確率をどのように計算(または推定)しますか?nnnnAnAn_AnBnBn_Bn∗n∗n_*n = nA+ nB+ … + nZ+ n∗n=nA+nB+…+nZ+n∗n = n_A + n_B + \ldots + n_Z + n_*kkkkkk Scrabble(TM)に慣れていない人には、ワイルドカード文字を使用して任意の文字と一致させることができます。したがって、単語[ BOOT ]は、タイル 'B'、 '*'、 'O'、 'T'で 'スペル'できます。 問題の規模を理解するために、は7のように小さく、は約100で、辞書にはサイズ以下の約100,000語が含まれています。kkknnnkkk 編集:「単語を形成する」とは、長さが以下の単語を意味します。したがって、単語[ A ]が辞書にある場合、バッグから単一の 'A'を描画するだけで、 '単語を形成しました'。辞書に長さ1の単語があると仮定できる場合、ワイルドカードの問題は根本的に単純化されます。存在する場合、ワイルドカードの描画は自動的に長さ1の単語に一致するため、ワイルドカードがない場合に集中できます。したがって、より滑りやすい形式の問題には、辞書に1文字の単語がありません。kkk また、バッグから文字が描画される順序は重要ではないことを明示的に述べる必要があります。単語の「正しい」順序で文字を描く必要はありません。

8
イベントに参加した人数(政治集会など)を推定する方法は?
今日、ある学生が私に尋ねました。「ワシントンDCのスチュワート/コルバート「正気を取り戻すための集会」など、大規模なグループイベントに何人の人々が参加したかをどうやって知るのですか?」ニュースアウトレットは数万の推定値を報告しますが、これらの推定値を取得するためにどのような方法が使用され、それらの信頼性はどの程度ですか? ある記事は明らかに駐車許可に基づいて彼らの見積りに基づいていました... キャプチャ/再キャプチャの実験などについて話していないことに注意してください。 わからない。事前に、このような特定の方法はなく、非常にアドホックなもの(駐車許可証の販売数など)があると思います。これは本当ですか?国家安全保障の目的のために-もちろん-アナリストに衛星写真を用意してもらい、そこにいる人々の数を物理的に数えることも可能です。この方法は非常に頻繁に使用されるとは思いません。

2
ディリクレ分布からの描画
我々が持つディリクレ分布持っていると言うKKK次元ベクトルパラメータα⃗ = [ α1、α2、。。。、αK]α→=[α1、α2、。。。、αK]\vec\alpha = [\alpha_1, \alpha_2,...,\alpha_K]。この分布からサンプル(次元ベクトル)を描画するにはどうすればよいですか?(おそらく)簡単な説明が必要です。KKK

1
有限補正係数の説明
有限の母集団からサンプリングし、標本サイズが母集団の5%を超える場合、次の式を使用して標本の平均誤差と標準誤差を修正する必要があることを理解しています。 FPC=N−nN−1−−−−√FPC=N−nN−1\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}} ここで、は母集団のサイズで、はサンプルサイズです。nNNNnnn この式について3つの質問があります。 しきい値が5%に設定されているのはなぜですか? 公式はどのように導き出されましたか? このペーパー以外に、この公式を包括的に説明する他のオンラインリソースはありますか?

1
MCMCサンプルからの限界尤度の計算
これは、定期的な質問(参照で、この記事、この記事とこの記事を)が、私は別のスピンを持っています。 一般的なMCMCサンプラーからのサンプルがたくさんあるとします。各サンプルについて、対数尤度および前の対数の値を知っています。役立つ場合は、データポイントごとの対数尤度の値も知っています(この情報は、WAICやPSIS-LOOなどの特定の方法で役立ちます)。θθ\thetalogf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta)logf(θ)log⁡f(θ)\log f(\theta)logf(xi|θ)log⁡f(xi|θ)\log f(x_i | \theta) 私が持っているサンプルと、場合によっては他のいくつかの関数評価を使用して(ただし、アドホック MCMC を再実行せずに)限界尤度の(粗)推定値を取得したい。 まず、テーブルをクリアしましょう。私たちは皆、高調波推定器が史上最悪の推定器であることを知っています。次へ移りましょう。事前形式と事後条件を閉じた形式でギブスサンプリングを行う場合は、Chibの方法を使用できます。しかし、これらのケース以外で一般化する方法がわかりません。サンプリング手順を変更する必要がある方法もあります(後回しなど)が、ここでは興味がありません。 私が考えているアプローチは、基礎となる分布をパラメトリック(またはノンパラメトリック)形状で近似し、正規化定数を1次元最適化問題(つまり、誤差を最小にする間及びのサンプルで評価)。最も単純な場合、後部がほぼ多変量正規であると仮定すると、を多変量正規として近似し、ラプラス近似に似たものを得ることができます(いくつかの追加の関数評価を使用して、モード)。ただし、として使用できますg(θ)g(θ)g(\theta)ZZZZZZZg(θ)Zg(θ)Z g(\theta)f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta)g(θ)g(θ)g(\theta)g(θ)g(θ)g(\theta)多変量分布の変分混合など、より柔軟なファミリ。ttt 私は、このメソッドは場合にのみ機能することを認めるへの合理的な近似である、それはに非常に賢明だろう理由のいずれかの理由や訓話しますか?お勧めの読書はありますか?Zg(θ)Zg(θ)Z g(\theta)f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta) 完全なノンパラメトリックアプローチでは、ガウスプロセス(GP)などのノンパラメトリックファミリを使用して、(またはそのような他の非線形変換など)を近似し平方根として)、およびベイジアン求積法で潜在的なターゲットを暗黙的に統合します(こちらとこちらをご覧ください)。これは興味深い代替アプローチのように見えますが、精神的には類似しています(また、私の場合、GPは扱いにくいことに注意してください)。logf(x|θ)+logf(θ)log⁡f(x|θ)+log⁡f(θ)\log f(\textbf{x}|\theta) + \log f(\theta)

2
iidデータの逆説(少なくとも私にとって)
統計に関する私の集計(および乏しい)知識が許す限り、がiidのランダム変数である場合、用語が示すように、それらは独立しており、同一に分布しています。バツ1、X2、。。。、Xnバツ1、バツ2、。。。、バツnX_1, X_2,..., X_n ここでの私の懸念は、iidサンプルの以前のプロパティです。これは、 p (Xn| バツ私1、X私2、。。。、X私k)= p (Xn)、p(バツn|バツ私1、バツ私2、。。。、バツ私k)=p(バツn)、p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), 個別ののst。 1 ≤ I 、J &lt; N私j私ji_j1 ≤ Ij&lt; n1≤私j&lt;n1 \leq i_j < n ただし、同一の分布の独立したサンプルの集合が分布構造に関する情報を提供し、上記の場合の結果としてに関する情報を提供することを知っているので、実際には、 バツnバツnX_np (Xn| バツ私1、X私2、。。。、X私k)= p (Xn)。p(バツn|バツ私1、バツ私2、。。。、バツ私k)=p(バツn)。p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}). 私は間違いの犠牲者であることは知っていますが、その理由はわかりません。これで私を助けてください。

3
標準的な統計テストを使用して、非ランダムサンプルを分析できますか?
多くの臨床研究は、無作為ではないサンプルに基づいています。ただし、ほとんどの標準テスト(たとえば、t検定、ANOVA、線形回帰、ロジスティック回帰)は、サンプルに「乱数」が含まれているという仮定に基づいています。これらの非ランダムサンプルが標準テストで分析された場合、結果は有効ですか?ありがとうございました。

1
ロジスティック回帰のサンプリングは、1と0の実際の比率を反映すべきですか?
樹木の特性(feの高さ)に基づいて、樹木に生息するいくつかの動物種の発生確率を推定できるロジスティック回帰モデルを作成するとします。いつものように、私の時間とお金は限られているため、限られたサンプルサイズのみを収集することができます。 次の質問があります: サンプルの1と0の比率は、1と0の真の比率を反映すべきですか?(少なくともおよそ)バランスのとれたサンプル(1と0の等しい数)でロジスティック回帰モデルを実行するのが一般的な方法であることに気付きました-しかし、そのようなモデルはシュールに高い発生確率を与えます-そうですか? ** 1と0の真の比率を反映しないモデルが「間違っている」という概念をサポートするために使用できる記事/教科書はありますか?** 最後に、1:1サンプリングを実行し、その後、今井らによるとタウでモデルを修正することは可能ですか?2007年? 今井浩介、ゲイリー・キング、オリビア・ラウ。2007.「relogit:Rare Events Logistic Regression for Dichotomous Dependent Variables」、今井幸介、Gary King、およびOlivia Lau、「Zelig:Everyone's Statistical Software」、http://gking.harvard.edu/zelig。 ドットは木を表します(赤=占有、灰色=占有なし)。占領されたすべての樹木を100%の精度(1)で識別できますが、森林内のすべての木を測定することはできません。モデルは、サンプリング戦略(比率)ごとに異なります。

2
特定のサンプル共分散行列を使用してデータを生成する
共分散行列与えられた場合、サンプルの共分散行列を持つようにデータを生成する方法は?Σ = Σ SΣsΣs\boldsymbol \Sigma_sΣ^= ΣsΣ^=Σs\hat{\boldsymbol \Sigma} = \boldsymbol \Sigma_s より一般的に:密度からデータを生成し、データパラメーターベクトル与えることに興味があります。これによりサンプルが生成され、そこから再び値推定できます。私が興味を持って中だと、逆の問題です:私たちは、パラメータのセットが指定されている場合はどうすれば、私たちはサンプルを生成したい、このような、その。X θ θ θ Sのx θ = θ Sf(x | θ )f(バツ|θ) f(x \vert \boldsymbol\theta) バツバツxθθ\boldsymbol\thetaθ^θ^\boldsymbol{\hat\theta}θsθs\boldsymbol\theta_{s}バツバツxθ^= θsθ^=θs \boldsymbol{\hat\theta} = \boldsymbol\theta_{s} これは既知の問題ですか?そのような方法は便利ですか?アルゴリズムは利用可能ですか?

1
なぜ分散のサンプリング分布はカイ二乗分布なのですか?
声明 サンプル分散のサンプリング分布は、自由度が等しいカイ二乗分布です。ここで、はサンプルサイズです(対象のランダム変数が正規分布している場合)。nn−1n−1n-1nnn ソース 私の直感 1)カイ2乗検定は2乗和のように見えるため、2)カイ2乗分布は2乗正規分布の和にすぎないため、直感的に理解できます。それでも、私はそれをよく理解していません。 質問 ステートメントは本当ですか?どうして?

5
回帰における不均衡なデータのサンプリング
分類のコンテキストで不均衡なデータを処理することに関して良い質問がありましたが、私は人々が回帰のためにサンプリングするために何をするのかと思っています。 問題の領域はサインに対して非常に敏感ですが、ターゲットの大きさに対してはわずかに敏感であるとします。ただし、その大きさは十分に重要であるため、モデルは分類(ポジティブクラスとネガティブクラス)ではなく回帰(連続ターゲット)である必要があります。そして、この問題領域では、トレーニングデータのセットはポジティブターゲットよりも10倍多いネガティブになると言います。 このシナリオでは、ポジティブターゲットの例をオーバーサンプリングしてネガティブターゲットの数と一致させ、モデルをトレーニングして2つのケースを区別します。明らかに、不均衡なデータではトレーニングアプローチがひどく機能するため、何らかのサンプリングを行う必要があります。予測を行うときに、このオーバーサンプリングを「元に戻す」適切な方法は何でしょうか?おそらく、自然なトレーニングデータのターゲットの(負の)平均または中央値で翻訳しますか?

7
誰かが独立とランダムの違いを説明するのを助けることができますか?
統計では、独立とランダムは同じ特性を記述していますか?それらの違いは何ですか?「2つの独立したランダム変数」や「ランダムサンプリング」などの説明によく出くわします。それらの正確な違いは何だろうと思っています。誰かがこれを説明し、いくつかの例を挙げることができますか?たとえば、独立ではないがランダムなプロセスですか?

1
ブートストラップとベイジアンブートストラップの概念は?
ベイジアンブートストラッププロセスとは何か、それが通常のブートストラップとどのように異なるかを理解するのに苦労しています。誰かが両方の直感的/概念的なレビューと比較を提供できれば、それは素晴らしいことです。 例を見てみましょう。 [1,2,5,7,3]であるデータセットXがあるとします。 置換で複数回サンプリングして、Xのサイズに等しいサンプルサイズ([7,7,2,5,7]、[3,5,2,2,7]など)を作成し、その後、それぞれの平均を計算し、サンプルのブートストラップ分布は平均ですか? そのベイジアンブートストラップ分布は何でしょうか? そして、他のパラメーター(分散など)のベイジアンブートストラップ分布は同じ方法でどのように行われますか?

1
ROC曲線の分析のためにベイジアン法を発明したのですか?
前文 これは長い投稿です。これを読み直している場合は、質問の部分を修正したことに注意してください。ただし、背景資料は同じままです。さらに、私は問題の解決策を考案したと信じています。そのソリューションは、投稿の下部に表示されます。私の元のソリューション(この投稿から編集済み。そのソリューションの編集履歴を参照)が必然的に偏った推定値を生成したことを指摘してくれたCliffABに感謝します。 問題 機械学習の分類問題において、モデルのパフォーマンスを評価する1つの方法は、ROC曲線、またはROC曲線下面積(AUC)を比較することです。ただし、ROC曲線またはAUCの推定値の変動性についてはほとんど議論されていません。つまり、それらはデータから推定された統計であるため、いくつかのエラーが関連付けられています。これらの推定値の誤差を特徴付けることは、たとえば、ある分類器が実際に別の分類器より優れているかどうかを特徴付けるのに役立ちます。 この問題に対処するために、ROC曲線のベイズ分析と呼ばれる次のアプローチを開発しました。問題についての私の考えには、2つの重要な所見があります。 ROC曲線は、データから推定された量で構成されており、ベイズ分析に適しています。 ROC曲線は、真の陽性率を偽陽性率F P R (θ )に対してプロットすることで構成されます。それぞれ、データから推定されます。θのT P RおよびF P R関数、クラスAをBからソートするために使用される決定しきい値(ランダムフォレストでのツリー投票、SVMでの超平面からの距離、ロジスティック回帰での予測確率など)を検討します。判定閾値の値が変化θは、別の見積もりを返しますT P RをTPR (θ )TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta)TPRTPRTPRFPRFPRFPRθθ\thetaθθ\thetaTPRTPRTPRおよび。さらに、T P R (θ )は一連のベルヌーイ試行における成功確率の推定値であると考えることができます。実際、TPRはT Pとして定義されていますFPRFPRFPRTPR(θ)TPR(θ)TPR(\theta)また、用いた実験において二項成功確率のMLEであるTPの成功とTP+FN&gt;0合計試験。TPTP+FN,TPTP+FN,\frac{TP}{TP+FN},TPTPTPTP+FN&gt;0TP+FN&gt;0TP+FN>0 とF P R (θ )の出力をランダム変数と考えると、成功と失敗の数が正確にわかっている二項実験の成功確率を推定する問題に直面します(T P、F P、F N、およびT Nによって与えられ、これらはすべて固定されていると仮定します)。従来、単純にMLEを使用し、TPRとFPRがθの特定の値に対して固定されていると仮定しています。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta)TPTPTPFPFPFPFNFNFNTNTNTNθθ\theta。しかし、ROC曲線のベイジアン分析では、ROC曲線の事後分布からサンプルを描画することで得られるROC曲線の事後シミュレーションを描画します。この問題の標準的なベイジアンモデルは、成功確率に優先するベータを持つ二項尤度です。成功確率の事後分布もベータなので、各、TPRおよびFPR値の事後分布があります。これにより、2番目の観察結果が得られます。θθ\theta ROC曲線は減少していません。そうつのいくつかの値をサンプリングいったん及びF P R (θに)、サンプリングポイントのROC空間「南東」の点をサンプリングするゼロ可能性があります。しかし、形状に制約のあるサンプリングは難しい問題です。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta) ベイジアンアプローチを使用して、単一の推定セットから多数のAUCをシミュレートできます。たとえば、20個のシミュレーションは、元のデータと比較すると次のようになります。 この方法には多くの利点があります。たとえば、1つのモデルのAUCが別のモデルよりも大きい確率は、事後シミュレーションのAUCを比較することで直接推定できます。分散の推定値は、リサンプリング方法よりも安価なシミュレーションを介して取得できます。これらの推定値は、リサンプリング方法から生じる相関サンプルの問題を引き起こしません。 溶液 上記の2つに加えて、問題の性質について3番目と4番目の観察を行うことにより、この問題の解決策を開発しました。 および F P R (θ )には、シミュレーションに適した周辺密度があります。TPR(θ)TPR(θ)TPR(\theta)FPR(θ)FPR(θ)FPR(\theta) 場合(副F P R …

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.