タグ付けされた質問 「sample」

サンプルは母集団のサブセットです。一般に、統計は、サンプルを使用して、より大きい(場合によっては無限の)母集団を支配するパラメーターについて推論することを考慮しています。

4
全体を置き換えずに、大きなリストから10個のサンプルを多数取り出す方法
大量のデータセット(20,000データポイント)があり、そこから10データポイントの繰り返しサンプルを取得します。ただし、これらの10個のデータポイントを選択したら、それらを再度選択しないようにします。 sample関数を使用してみましたが、関数の複数の呼び出しを置き換えずにサンプリングするオプションがないようです。これを行う簡単な方法はありますか?
12 r  sample 

1
母集団の平均が既知の場合、母集団の分散を推定する
私たちは使用していることを知っています集団の分散を推定します。与えられた直感距離はので私達の推定平均は、実際のものオフビットは、おそらくあるということであったところ、私はカーン・アカデミーからの映像を覚えxは、私は- ˉ xは実際に大きいだろう、我々は以下で割るので、(N-1の代わりに、N)より大きな値を取得し、より適切な推定をもたらします。 そして私は、私は、実際の人口の平均持っている場合、私は、この補正を必要としないこと、どこを読んで覚えているμを代わりに ˉ X1n − 1Σ私(x私− x¯)21ん−1Σ私(バツ私−バツ¯)2\frac1{n-1}\sum\limits_i(x_i - \bar{x})^2バツ私− x¯バツ私−バツ¯x_i - \bar{x}n − 1ん−1n-1んんnμμ\muバツ¯バツ¯\bar{x}。だから私は推定します しかし、私はそれを見つけることができませんもう。本当ですか?誰かが私にポインターを与えることはできますか?1んΣ私(x私- μ )21んΣ私(バツ私−μ)2\frac1{n}\sum\limits_i(x_i - \mu)^2
11 variance  sample 

5
ポアソンでない場合、これはどの分布ですか?
7日間に個人が実行したアクションの数を含むデータセットがあります。特定のアクションは、この質問には関係ありません。:ここでは、データ・セットのためのいくつかの記述統計ある RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} これはデータのヒストグラムです: データのソースから判断すると、ポアソン分布に適合すると考えました。ただし、平均≠分散、およびヒストグラムは左側に大きく重み付けされています。さらに、私はgoodfitRでテストを実行し、得ました: > gf <- goodfit(actions,type="poisson", method = "MinChisq") <br> > summary(gf) <br> Goodness-of-fit test for poisson …

1
SurveyMonkeyは、ランダムでないサンプルを取得するという事実を無視しますか?
SurveyMonkeyには、母集団のサイズに基づいて、特定の誤差範囲または信頼区間に必要なサンプルサイズを把握するための手順とチャートがあります。 SurveyMonkeyのサンプルサイズ このチャートは、ランダムなサンプルが得られないという事実を単に無視しているのでしょうか?調査に反応することに煩わされている人々しか得られないからです。 これを入力すると、質問が主観的であると警告されるので、正しく質問していない可能性があります。それは実際にはSurveyMonkeyについてではありませんが、より一般的な質問です-私が知らないいくつかの高度な手法を使用して、自発的応答データから信頼区間を実際に計算できますか? 出口調査や全国調査では、明らかにこの問題に対処しなければなりません。私の教育では調査サンプリング技術を詳細に取り上げていませんが、人口統計データを収集し、それを使用してサンプルの代表性を知ることを含むと思います。 しかし、それを除けば、簡単なオンライン調査では、回答に迷惑をかけている人々が人口のランダムなサンプルであると彼らは単に想定しているのでしょうか?

1
なぜサンプル比率も二項分布を持たないのですか?
二項設定では、成功数を与える確率変数Xが二項分布されます。次に、サンプル比率をXとして計算できます。ここで、nはサンプルサイズです。私の教科書はそれを述べていますバツんバツん\frac{X}{n}んんn この比率には二項分布はありません ただし、X以降は単に二項分布の確率変数Xのスケーリングされたバージョンですが、二項分布も持つべきではありませんか?バツんバツん\frac{X}{n}バツバツX

2
1つのセットのサンプルを使用して、複数のセットの共通部分のサイズを推定する
私は、少なくとも2つのセットの交差によって生成されるセットのサイズを計算する必要があるアルゴリズムに取り組んでいます。すなわち: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | 交差するセットはSQLクエリによって生成され、高速に保つために、各クエリの数を事前に取得し、最小数()のセットを取得して、それらのIDを残りの大きなクエリなので、交差は事実上次のようになります。A0A0A_0 z=|(A0∩A1)∩…∩(A0∩An)|z=|(A0∩A1)∩…∩(A0∩An)| z = \left |\left ( A_0 \cap A_1 \right ) \cap \ldots \cap \left ( A_0 \cap A_n \right ) \right | この戦略でさえ、から、かなり大きなクエリを実行する必要があります大きくなることもあります。これに対処するための私の考えは、ランダムなサンプルを取り、それを適切な推定値に外挿する前に残りのセットと交差させることです。私の質問は、サンプリングしてから外挿して値に戻る最良の方法は何ですか?完全に正確ではないにしても、予測可能なエラー範囲がありますか?|A0||A0|\left | A_0 \right |A0A0A_0zzzzzz これが私がこれまでに試したものです(疑似コードのようなものです): sample_threshold := 10000 factor := 1 if (len(A0) …
10 error  sample 

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
確率変数に制限がある分布の中心極限定理はどのように成り立つのでしょうか?
中心極限定理-サンプルの分布が正規性に近づく古典的なバージョン-がポアソン分布またはガンマ分布に当てはまる可能性があるため、私は常に問題に取り組み、良い答えは得られていません。 P(x&lt;0)=0P(x&lt;0)=0P(x<0)=0。または、さらに言えば、∃X:X≠−∞,F(X)=0∃X:X≠−∞,F(X)=0\exists X:X \neq -\infty ,F(X)=0、 多分 ∃X:X≠∞,1−F(X)=0∃X:X≠∞,1−F(X)=0\exists X:X \neq \infty, 1-F(X)=0。 例として、サンプル数としてのガンマ分布を考える n→∞n→∞n \rightarrow \infty、 P(X¯=α)→1P(X¯=α)→1P( \bar{X} = \alpha) \rightarrow 1、 ∀α≥0∀α≥0\forall \alpha \geq 0、 いくつかのための X¯iX¯i\bar{X}_i。しかし、もしα&lt;0α&lt;0\alpha<0、 P(X¯=α)=0P(X¯=α)=0P(\bar{X}=\alpha)=0。決してそこには決して、決してありませんX¯i&lt;0X¯i&lt;0\bar{X}_i<0。これは、X¯X¯\bar{X} 次の理由から、 f(X¯)f(X¯)f(\bar{X}) 必ずである必要があります 000、 ∀X¯&lt;0∀X¯&lt;0\forall \bar{X}<0、正規分布の要件を満たしていない場合 f(y)&gt;0,∀y∈Rf(y)&gt;0,∀y∈Rf(y)>0, \forall y \in R。 誰かが私のロジックがどこに迷ったのかを理解してくれるとしたら、CLTに基づく人生や何かについてはずっと気分が良くなるでしょう。

1
「サンプル」とは何ですか?
標準正規分布から独立して同一に抽出された3つの数値を与えた場合、3つのサンプルまたは1つのサンプルを与えましたか? 答えが1つのサンプルの場合、私が3つ挙げたものの短縮名はありますか?

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

4
モデルのフィッティング/トレーニングおよび検証に使用されるサンプルデータの比率の計算
データの予測に使用する予定のサンプルサイズ「N」を提供しました。データの一部を使用してモデルを確立し、残りのデータを使用してモデルを検証するために、データを分割する方法にはどのようなものがありますか? 私はこれに対する白黒の答えがないことを知っていますが、いくつかの「経験則」または通常使用される比率を知ることは興味深いでしょう。大学に戻って、私たちの教授の1人が60%でモデルを言い、40%で検証することを知っていました。

1
電力分析でサンプルを決定した後のサンプルサイズの超過の結果
チャレンジ 私たちのオフィスでは、サンプルサイズとそのエフェクトサイズへの影響について話し合いました。私を助けてさらに説明してもらえますか? ベース 電力分析を実行するとき、特定の設計における特定の効果サイズのサンプルサイズを決定できます。 問題/ディスカッション どうなり先験的にはサンプルサイズを超えた決定(電力解析では例えば、決定サンプルだった、我々は得ることができた)?N = 1000N=100N=100N=100N=1000N=1000N=1000 ポジション1: 大きなサンプルサイズは、エフェクトサイズを切り刻む/破壊します。電力分析で決定されたよりも大きいサンプルを使用すると、「すべてが重要になる」という危険が発生します(軽微で、実際には無関係な影響も)。したがって、電力分析から決定されたサンプルに依存する必要があります。そうすることで、「実際の/関連する」効果を明らかにすることができます。 または ポジション2: サンプルサイズの決定は、所定の効果を明らかにするために必要な最小サンプルサイズを指します。大きなサンプルサイズは、たとえば測定誤差が減少するため、有益です。したがって、実際の効果をより簡単に明らかにすることができます。事後効果サイズの計算は、効果の関連性に関する情報を提供します。 または 位置3: 位置1と位置2はスタディデザインによって異なります(たとえば、「関連性のある影響」を求めるためt検定では位置1ですが、CFA / SEMでは位置2でより安定した信頼できる結果が得られます)。 または 位置4: 別の説明として考えられる別の位置。

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

2
ランダムサンプルのサブサンプル:ランダムサンプル?
ヨーロッパのサッカー選手のランダムなサンプルが多数あるが、スペインで何が起こっているかにのみ関心があるとします。サンプルをスペインのプレーヤーに減らしても、それをランダムなサンプルと呼びますか(ただし、人口は異なります)?そうでない場合、そのサブサンプルをどのように呼び、スペインのサッカー選手の人口を推測できるようにするためにどのような予防策を講じる必要がありますか? 十分な大きさであれば、そのサブサンプルを使用しても問題ないと思いますが、何か不足している可能性があります。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.