タグ付けされた質問 「sampling」

確率論的方法を使用して、指定された母集団からサンプルを作成し、指定された分布から乱数を生成します。このタグがあいまいなので、前者には[調査サンプリング]、後者には[モンテカルロ]または[シミュレーション]を検討してください。既知の分布からランダムサンプルを作成することに関する質問については、[random-generation]タグの使用を検討してください。

1
高次モーメントのガウスライク分布
平均と分散が不明なガウス分布の場合、標準指数ファミリー形式での十分な統計はです。分布があり。Nは設計パラメーターのようなものです。この種の十分な統計ベクトルに対応する既知の分布はありますか?この分布からのサンプルが必要なので、分布から正確なサンプルを取得することが重要です。どうもありがとう。T(x)=(x,x2)T(x)=(x,x2)T(x)=(x,x^2)T(x)=(x,x2,...,x2N)T(x)=(x,x2,...,x2N)T(x)=(x,x^2,...,x^{2N})

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
分位の定義
N個のサンプル値がある場合、「サンプル値のp番目の分位数」は何を意味しますか?
10 sampling 

3
MCMCを使用して高次元関数の期待値を評価する
私は最適化に関連する研究プロジェクトに取り組んでおり、最近この設定でMCMCを使用することを考えていました。残念ながら、私はMCMCメソッドにかなり慣れていないため、いくつか質問がありました。問題を説明し、質問をすることから始めます。 問題は、コスト関数の期待値を推定することになります。ここで、は、密度次元確率変数です。ω = (ω 1、ω 2、。。。ω H)時間F (ω )c(ω)c(ω)c(\omega)ω=(ω1,ω2,...ωh)ω=(ω1,ω2,...ωh)\omega = (\omega_1,\omega_2,...\omega_h)hhhf(ω)f(ω)f(\omega) 私たちの場合、閉じた形式のバージョンは存在しません。つまり、期待値を近似するにはモンテカルロ法を使用する必要があります。残念ながら、MCまたはQMCメソッドを使用して生成された推定値は、実際の設定で使用するには分散が大きすぎることがわかります。E [ c (ω )]c(ω)c(ω)c(\omega)E[c(ω)]E[c(ω)]E[c(\omega)] 低分散推定を生成するサンプルポイントを生成するために重要度サンプリング分布を使用する必要があったという1つのアイデア。私たちの場合、理想的な重要度のサンプリング分布、ほぼ比例している必要があります。どのように見て定数まで知られている、私は私が提案配布とともにMCMCを使用できるかどうかを疑問に思って、最終的にサンプルを生成するために。g (ω )c (ω )f (ω )g (ω )c (ω )f (ω )g (ω )E[c(ω)]E[c(ω)]E[c(\omega)]g(ω)g(ω)g(\omega)c(ω)f(ω)c(ω)f(ω)c(\omega)f(\omega)g(ω)g(ω)g(\omega)c(ω)f(ω)c(ω)f(ω)c(\omega)f(\omega)g(ω)g(ω)g(\omega) ここに私の質問は次のとおりです。 この設定でMCMCを使用できますか?もしそうなら、どのMCMC法が適切でしょうか?私はMATLABで作業しているので、MATLABが既に実装されているものを優先します。 MCMCのバーンイン期間を短縮するために使用できるテクニックはありますか?そして、どのように私は定常分布に達したことを知ることができますか?この場合、実際には、特定のを計算するのにかなりの時間がかかります。ωc(ω)c(ω)c(\omega)ωω\omega

2
簡単の証明
ましょうの独立した標準正規確率変数です。そこには多くの(長い)証明があり、Z1,⋯,ZnZ1,⋯,ZnZ_1,\cdots,Z_n ∑i=1n(Zi−1n∑j=1nZj)2∼χ2n−1∑i=1n(Zi−1n∑j=1nZj)2∼χn−12 \sum_{i=1}^n \left(Z_i - \frac{1}{n}\sum_{j=1}^n Z_j \right)^2 \sim \chi^2_{n-1} 多くの証明はかなり長く、それらのいくつかは帰納法を使用します(例えば、Casella Statistical Inference)。この結果を簡単に証明できるかどうか疑問に思っています。

3
American Community Surveyの多様性データの再重み付けは、その誤差範囲にどのように影響しますか?
背景:私の組織は現在、労働力の多様性の統計(例:障害者%、女性%、退役軍人)を、American Community Survey(米国国勢調査局による調査プロジェクト)に基づいて、これらのグループの労働力の合計と比較しています。全体として労働力とは異なる人口統計を持つ非常に特定の一連の仕事があるため、これは不正確なベンチマークです。たとえば、私の組織のほとんどがエンジニアであるとします。私の州では、エンジニアリングは女性の約20%にすぎません。全体の労働力のベンチマークと比較すると、50%の女性のように、「20%の女性しかいない、これは災害です!」というパニックに陥ります。実際のところ、20%は私たちが期待するべきものです。なぜなら、それが労働力の状況がどのようなものかということです。 私の目標:私がやりたいのは、アメリカンコミュニティサーベイの職業データ(多様性カテゴリ別)を取得し、自分のビジネスの仕事の構成に基づいて再重み付けすることです。社会福祉サービスワーカーのサンプルデータセットを次に示します。これらのジョブコードをまとめて追加したいので(私たちの横断歩道は特定のジョブコードではなくジョブグループにあるため)、そのカテゴリにいる人の数に基づいてベンチマークに重みを付けたいと思います(例:3,000のソーシャルおよびコミュニティサービスワーカー)、次に、他のすべてのジョブグループにも同じことを行い、それらの数を合計して、ワーカーの総数で割ります。これにより、新しい重み付けされた多様性測定値が得られます(たとえば、6%の障害者から2%の障害者へ)。 私の質問:この最終的なロールアップベンチマークにエラーのマージンをどのように合わせるのですか?私は(明らかに)生の国勢調査データセットを持っていませんが、表の上部にある[Estimate]フィールドを[Margin of Error]に切り替えることで、提供したリンクで各数値のエラーマージンを表示できます。このデータを使用している他の同僚は、エラーのマージンを完全に無視するつもりですが、統計的に意味のないベンチマークを自分で作成しているのではないかと心配しています。このデータは、上記の操作の後でもまだ使用できますか?

1
電話帳からのサンプリングに関するストーリーのリファレンス
私は今日サンプリングについて誰かと話していましたが、特定の訴訟において電話帳からの体系的なサンプリングを推奨する非常に尊敬されている統計学者についての話を漠然と覚えています。裁判所で裁判官のように「統計についてはあまり知らないが、100番目ごとの名前をサンプリングするのは正しくないことは知っている」と言った話を覚えており、裁判官に次のように説明しなければならなかった。彼は実際にそれを勧めていました。 その話がどこから来たのか、または私が正しく覚えているかどうか誰でも知っていますか?コンテキストの記憶を更新したいのですが。それは私がモステラーの回顧録で読んだもののように感じますが、チェックしたところ見つかりませんでした。また、私たちの部門の誰かがそれは聞き慣れたようで、それがコクランである可能性があると思ったと言いました、そして誰かがジョージコブが同じような話をしたことを覚えていましたが、それは私の検索にも役立ちませんでした。

4
並列の抵抗の分散
抵抗Rのセットがあり、そのすべてが平均μと分散σで分布しているとします。 次のレイアウトの回路のセクションを考えてみましょう:(r)|| (r + r)|| (r + r + r)。各部品の等価抵抗は、r、2r、および3rです。各セクションの分散は次のようになりσ2σ2σ^2、2σ22σ22σ^2、3σ23σ23σ^2。 回路全体の抵抗の変動はどのくらいですか? 数百万点をサンプリングした後、分散は約.10286 \ sigma ^ 2であることがわかりました.10286σ2.10286σ2.10286\sigma^2。 この結論に分析的にどのように到達するのでしょうか? 編集:抵抗値は、いくつかの平均抵抗rと分散σ^ 2で正規分布していると想定されていますσ2σ2σ^2。

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
大規模な全体的なデータセットから代表的なサンプルセットを作成するにはどうすればよいですか?
(既知の信頼レベルで)母集団全体を表すサンプルセットを作成するための統計手法は何ですか? また、 サンプルがデータセット全体に適合する場合、検証方法は? データセット全体(何十億ものレコードになる可能性があります)を解析せずにそれは可能ですか?

1
カーネル密度推定器の簡単なサンプリング方法
私はJavaで単純なKernel Density Estimatorを開発しました。これは、数十ポイント(おそらく100程度まで)とガウスカーネル関数に基づいています。この実装により、任意の時点での確率分布のPDFおよびCDFが得られます。 このKDEに簡単なサンプリング方法を実装したいと思います。もちろん、KDEを構成するポイントのセットから描画するのが当然の選択ですが、KDEのポイントとは少し異なるポイントを取得できるようにしたいと思います。 これまでのところ、この問題を解決するために簡単に実装できる(数値積分や複雑な計算のための外部ライブラリに依存せずに)サンプリング手法を見つけていません。何かアドバイスは?精度や効率に関しては、特に強い要件はありません。私の主な関心事は、機能し、簡単に実装できるサンプリング機能を持つことです。ありがとう!
10 sampling  pdf  kde 

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
ブートストラップサンプルが元のサンプルとまったく同じである可能性
何らかの理由を確認したいだけです。 私の元のサンプルがサイズあり、それをブートストラップする場合、私の思考プロセスは次のとおりです。nnn は、元のサンプルから得られた観測の確率です。次の描画が以前にサンプリングされた観測ではないことを確認するために、サンプルサイズをn−1に制限します。したがって、次のパターンが得られます。1n1n\frac{1}{n}n−1n−1n-1 1n⋅1n−1⋅1n−2⋯1n−(n−1)=1n!.1n⋅1n−1⋅1n−2⋯1n−(n−1)=1n!. \frac{1}{n} \cdot \frac{1}{n-1} \cdot \frac{1}{n-2} \cdots \frac{1}{n-(n-1)} = \frac{1}{n!}. これは正しいです?それができない理由につまずく代わりに。(1n)n(1n)n(\frac{1}{n})^n

2
ブートストラップサンプルのサイズ
サンプル統計の分散を推定する手段として、ブートストラップについて学習しています。基本的な疑問が1つあります。 http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdfからの引用: •いくつの観測をリサンプリングする必要がありますか?良い提案は、元のサンプルサイズです。 元のサンプルと同じ数の観測をリサンプリングするにはどうすればよいですか? サンプルサイズが100で、平均の分散を推定しようとしています。合計サンプルサイズ100からサイズ100の複数のブートストラップサンプルを取得するにはどうすればよいですか?この場合、ブートストラップサンプルは1つだけ可能です。これは、元のサンプルと同じですか。 私は明らかに非常に基本的なことを誤解しています。私はあることを理解数の理想的なブートストラップサンプルは常に無限である、と心の中で自分の必要な精度を保ち、私は収束のためにテストする必要があると思います私のデータのために必要なブートストラップサンプルの数を決定します。 しかし、私は個々のブートストラップサンプルのサイズがどうあるべきかについて本当に混乱しています。

2
非負整数の離散分布からサンプリングする方法は?
次の離散分布があります。ここで、は既知の定数です。α 、βα,β\alpha,\beta p (x ; α 、β)= ベータ(α + 1 、β+ x )ベータ(α 、β)以下のため のx = 0 、1 、2 、...p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots この分布から効率的にサンプリングするためのいくつかのアプローチは何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.