タグ付けされた質問 「sampling」

確率論的方法を使用して、指定された母集団からサンプルを作成し、指定された分布から乱数を生成します。このタグがあいまいなので、前者には[調査サンプリング]、後者には[モンテカルロ]または[シミュレーション]を検討してください。既知の分布からランダムサンプルを作成することに関する質問については、[random-generation]タグの使用を検討してください。

12
95%信頼区間(CI)が95%の平均を含む可能性を意味しないのはなぜですか?
ここで関連するさまざまな質問を通じて、「95%信頼区間」と呼ばれる「95%」の部分は、サンプリングとCI計算の手順を何度も正確に複製するという事実に言及しているというコンセンサスがあるようです。 、こうして計算されたCIの95%に母平均が含まれます。また、この定義はそうではないというコンセンサスのようです単一の95%CIから、平均がCI内のどこかに落ちる可能性が95%あると結論付けることを許可します。ただし、95%の人口が人口の平均を含むと多くのCIを想像している限り、前者が後者を暗示していないことを理解していません(実際に計算されたCIが人口を含むかどうかに関して意味するかどうか)想像されるケースのベースレート(95%)を、実際のケースにCIが含まれる確率の推定値として使用することを強制しますか? 「実際に計算されたCIには母集団の平均が含まれているか含まれていないため、確率は1または0である」という行に沿って議論している記事を見ましたが、これは依存する確率の奇妙な定義を暗示しているようです未知の状態(つまり、友人が公正なコインを裏返し、結果を非表示にし、50%の可能性があると言ってはいけません)。 確かに私は間違っていますが、私のロジックがどこでおかしくなったのかわかりません...

8
サンプリングは「ビッグデータ」の時期に関連していますか?
それとももっと「そうなる」のでしょうか?ビッグデータは統計と関連知識をさらに重要にしますが、サンプリング理論を過小評価しているようです。 私は「ビッグデータ」の周りでこの誇大広告を見てきましたが、「なぜ」すべてを分析したいのか不思議に思わないでしょうか?「サンプリング理論」を設計/実装/発明/発見する理由はありませんでしたか?データセットの「母集団」全体を分析する意味がありません。できるからといって、やるべきだというわけではありません(愚かさは特権ですが、悪用すべきではありません:) だから私の質問はこれです:データセット全体を分析することは統計的に関連していますか?できることは、サンプリングを行った場合のエラーを最小限にすることです。しかし、そのエラーを最小化するコストは本当に価値がありますか?「情報の価値」は、超並列コンピューターでのビッグデータの分析に費やされる労力、時間コストなどの価値が本当にあるのでしょうか? 母集団全体を分析しても、結果はせいぜい推測であり、正しい確率が高くなります。おそらくサンプリングよりも少し高いでしょうか(それとももっと多いでしょうか?)、母集団の分析とサンプルの分析から得られる洞察は大きく異なりますか? それとも、「時代が変わった」と認めるべきでしょうか?十分な計算能力があれば、アクティビティとしてのサンプリングはそれほど重要ではなくなる可能性があります:) 注:私は議論を始めようとはしていませんが、ビッグデータが何をするのか(つまり、すべてを分析する)を理解し、サンプリングの理論を無視する(またはそうしない?)答えを探しています

5
サンプル中央値の中心極限定理
同じ分布から得られた十分に多くの観測値の中央値を計算すると、中央極限定理は中央値の分布が正規分布に近づくと述べていますか?私の理解では、これは多数のサンプルの平均について当てはまりますが、中央値についても当てはまりますか? そうでない場合、サンプル中央値の基礎となる分布は何ですか?

5
サンプルが母集団である場合の統計的推論
毎年、特定のテストを受ける候補者の数について報告する必要があると想像してください。たとえば、対象集団の特異性により、より広い集団で観測された成功率を推測するのはかなり難しいようです。したがって、これらのデータは母集団全体を表していると考えることができます。 テストの結果は、男性と女性の比率が異なることを本当に示していますか?標本全体ではなく母集団全体を考慮するため、観察された割合と理論上の割合を比較するテストは正しいものと思われますか?

4
従来のプログラミング言語を使用して、既知の平均と分散を持つ正規分布からサンプリングする方法は?
統計学のコースを受講したことがないので、ここで適切な場所で質問することを望みます。 正規分布を記述する2つのデータ、平均および分散ます。コンピューターを使用して、この2つの統計を尊重するように、この分布からランダムにサンプリングします。σ 2μμ\muσ2σ2\sigma^2 サンプルを出力する前に各サンプルにを追加するだけで、0付近で単純に正規化することで平均を処理できることは明らかです。しかし、を尊重するようにプログラムでサンプルを生成する方法がわかりません。σ 2μμ\muσ2σ2\sigma^2 私のプログラムは、従来のプログラミング言語になります。統計パッケージにアクセスできません。

5
サンプルサイズを大きくすると(サンプリング)分散が小さくなるのはなぜですか?
大局: サンプルサイズを増やすと実験の力がどのように増加するかを理解しようとしています。私の講師のスライドは、2つの正規分布の図で説明します。1つは帰無仮説、もう1つは対立仮説とその間の決定しきい値cです。彼らは、サンプルサイズを大きくすると分散が低下し、それにより尖度が高くなり、曲線下の共有領域が減少し、タイプIIエラーの確率が低下すると主張しています。 小さい画像: サンプルサイズを大きくすると分散がどのように低下​​するかわかりません。 サンプルの分散を計算し、正規分布のパラメーターとして使用することを想定しています。 私は試した: グーグル、しかし、ほとんどの受け入れられた答えは0の賛成票を持っているか、単なる例 思考:大きい数の法則により、すべての値は最終的に、想定される正規分布に従ってその推定値を中心に安定するはずです。したがって、分散は、想定した正規分布の分散に収束するはずです。しかし、その正規分布の分散とは何ですか?それは最小値ですか?つまり、サンプル分散がその値まで減少することを確認できますか?


5
なぜ政治世論調査のサンプル数がこれほど多いのですか?
ニュースを見ると、大統領選挙などのギャラップの世論調査のサンプルサイズが1,000を大きく上回っていることがわかりました。大学の統計から私が覚えていることは、サンプルサイズ30が「かなり大きい」サンプルだったことです。30を超えるサンプルサイズは、収益の減少により無意味であるように思われました。

5
サンプリング分布を教えるための戦略
tl; drバージョン 入門的な学部レベルで(たとえばサンプル平均の)サンプリング分布を教えるためにどのような成功した戦略を採用していますか? 背景 9月に、David Moore によるThe Basic Practice of Statisticsを使用して、2年目の社会科学(主に政治学と社会学)の学生向けに統計の入門コースを教えます。私がこのコースを教えたのは5回目であり、私が一貫していた1つの問題は、学生がサンプリング分布の概念に本当に苦労したということです。それは推論の背景としてカバーされており、最初のしゃっくりの後、彼らが問題を抱えていないように見える確率の基本的な紹介に従っています(そして、基本的に、私は基本的なことを意味します-結局のところ、これらの学生の多くは、「数学」のあいまいなヒントでさえも避けようとしたため、特定のコースストリームに自己選択されています。おそらく60%が最低限の理解しか得られずにコースを去り、約25%が原則を理解するが他の概念との関係は理解せず、残りの15%は完全に理解すると思います。 主な問題 学生が抱えていると思われる問題は、アプリケーションにあります。正確な問題が何であるかを説明することは、彼らが単にそれを理解していないと言うこと以外は難しい。前学期に実施したアンケートと試験の回答から、難しさの一部は、2つの関連する類似した発音フレーズ(サンプリング分布とサンプル分布)の混同であると思うので、「サンプル分布」というフレーズは使用しませんもう、しかしこれは確かに、最初は混乱しますが、少しの努力で簡単に把握でき、とにかくサンプリング分布の概念の一般的な混乱を説明することはできません。 (私はそれがあるかもしれないことを認識し、私、私は以来、不快な可能性が行うことが妥当であることを無視して考えるしかし!そしてここでの問題であります私の教え一部の学生がそれと全体的な誰もが非常によくやっているようだ得るように見えるん...) 私が試したこと 私は、学部の学部管理者と議論し、コンピューターラボで必須のセッションを導入し、繰り返しデモを行うことが役立つと考えました(このコースを教える前に、コンピューティングは関係していませんでした)。これは一般的に教材全体を理解するのに役立つと思いますが、この特定のトピックに役立つとは思いません。 私が持っていた一つのアイデアは、いくつかの(例えばによって提唱位置だけですべてでそれを教えないようにするか、それを多くの重量を与えないことであるアンドリュー・ゲルマンを)。最も一般的な分母に教える気配があり、より重要なことは、サンプリングの分布だけでなく、重要な概念がどのように機能するかを本当に理解することから統計的応用についてもっと学びたいと強くてやる気のある学生を拒否するためです。 )。一方、中央値の学生は、たとえばp値を把握しているように見えるため、サンプリング分布を理解する必要はないかもしれません。 質問 サンプリング分布を教えるためにどのような戦略を採用していますか?私は(たとえば、利用可能な材料との議論がある知っているこことここと開き、この論文PDFファイルが)が、私は人々のためにどのような作品のいくつかの具体的な例を得ることができる場合、私はただ思ったんだけど(または私は仕事がなくても、どうなったと思います試さないでください!)。私の今の計画は、9月のコースを計画するとき、ゲルマンのアドバイスに従い、サンプリング分布を「強調しない」ことです。教えますが、これは一種のFYIのみのトピックであり、試験には表示されないことを生徒に保証します(おそらくボーナス質問として!?)。しかし、私は人々が使用している他のアプローチを聞くことに本当に興味があります。

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

7
過去のコインフリップの結果が後続のコインフリップに関する信念に影響を与える統計的誤acyの名前は何ですか?
私たちが知っているように、尾を振るのと同じ確率で頭を着陸させるコインをフリップした場合、コインを何度も裏返すと、半分の時間が頭を獲得し、半分の時間が尾を獲得します。 友人とこれを議論するとき、彼らはあなたがコインを1000回ひっくり返して、最初に100回頭に着いたと言ったら、尾を着陸させる機会が増えたと言いました(論理が偏っていない場合、その後、1000回フリップした時点で、約500のヘッドと500のテールが得られるため、テールが発生する可能性が高くなります。 過去の結果は将来の結果に影響を与えないため、誤解であることを知っています。その特定の誤acyの名前はありますか?また、なぜこれが間違っているのかについてのより良い説明はありますか?

3
「独立した観測」とはどういう意味ですか?
私は、独立した観測の仮定が意味するものを理解しようとしています。いくつかの定義は次のとおりです。 「2つのイベントは、場合にのみ独立しています。」(統計用語辞書)P(a∩b)=P(a)∗P(b)P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) 「あるイベントが発生しても、別のイベントの確率は変わりません」(ウィキペディア)。 「1つの観測値のサンプリングは、2番目の観測値の選択に影響しません」(David M. Lane)。 しばしば与えられる従属的な観察の例は、以下のように教師内にネストされた学生です。教師は生徒に影響を与えますが、生徒はお互いに影響を与えないと仮定しましょう。 では、これらのデータの定義はどのように違反されますか?[student = 1]のサンプリング[grade = 7]は、次にサンプリングされるグレードの確率分布に影響しません。(または、もしそうなら、観測1は次の観測に関して何を予測しますか?) gender 代わりに 測定した場合、観測はなぜ独立しているのteacher_idでしょうか?同じように観測に影響しませんか? teacher_id student_id grade 1 1 7 1 2 7 1 3 6 2 4 8 2 5 8 2 6 9

3
ランダムなサンプルが明らかに代表的でない場合はどうなりますか?
ランダムなサンプルを取り、それが明らかに最近の質問のように代表ではないことがわかる場合はどうでしょう。たとえば、人口分布が0を中心に対称であると仮定し、ランダムに描画するサンプルに不均衡な正と負の観測値があり、不均衡が統計的に有意である場合、どうなりますか?バイアスされたサンプルに基づいて、母集団についてどのような合理的な説明をすることができますか?そのような状況での合理的な行動方針は何ですか?私たちの研究でこの不均衡に気づいたとき、それは重要ですか?

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.