タグ付けされた質問 「z-test」

2
カイ二乗検定と等比率検定の関係は何ですか?
相互に排他的な4つの特性を持つ3つの母集団があるとします。各母集団からランダムサンプルを取得し、測定する特性のクロス集計表または頻度表を作成します。私はそれを言って正しいですか: 母集団と特性の間に関係があるかどうかをテストしたい場合(たとえば、ある母集団が特性のいずれかの頻度が高いかどうか)、カイ2乗検定を実行して、結果が有意であるかどうかを確認します。 カイ2乗検定が重要な場合、母集団と特性の間に何らかの関係があることのみが示されますが、それらの関係は示されません。 さらに、すべての特性を母集団に関連付ける必要はありません。たとえば、異なる母集団の特性AとBの分布が有意に異なるが、CとDの分布が異なる場合、カイ2乗検定は再び有意である可能性があります。 特定の特性が母集団の影響を受けているかどうかを測定したい場合は、その特性だけで等しい比率のテストを実行できます(これはz検定と呼ばれprop.test()ていますR)。 言い換えるとprop.test()、カイ二乗検定で有意な関係があると言われたときに、2つのカテゴリセット間の関係の性質をより正確に判断するためにを使用するのが適切でしょうか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
-testと
背景:私は仮説テストの仕事をしている同僚にプレゼンテーションを行っており、そのほとんどをうまく理解していますが、他の人に説明するだけでなく、理解しようとする結び目で自分を縛っている側面があります。 これは私が知っていると思うことです(間違っている場合は修正してください!) 分散がわかっている場合は正常な統計、分散が不明な場合はttt分布に従う CLT(中央極限定理):サンプル平均のサンプリング分布は、十分に大きいに対してほぼ正規ですnnn(303030になる可能性があり、大きく歪んだ分布の場合は最大300300300になる可能性があります) ttt -distributionは、自由度のために通常考慮することができる&gt;30&gt;30> 30 次の場合に -testを使用します。zzz 母集団の正規分布と分散が既知(任意のサンプルサイズ) 集団正常、分散不明、(CLTによる)n&gt;30n&gt;30n>30 人口二項、、n q &gt; 10np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 次の場合に -testを使用します。ttt 母集団は正常、分散は不明、n&lt;30n&lt;30n<30 母集団または分散に関する知識はなく、ですが、サンプルデータは正常に見える/テストなどに合格しているため、母集団は正常であると見なすことができますn&lt;30n&lt;30n<30 だから私は残っています: サンプルについてと&lt; ≈ 300(?)、人口と知られている分散/不明についての知識がありません。&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 だから私の質問は: サンプリング分布が非正規に見える場合、平均のサンプリング分布が正常である(つまり、CLTが作動している)と仮定できるのは(母集団の分布または分散に関する知識がない場合)です。一部のディストリビューションにはが必要であることは知っていますが、n &gt; 30の場合は常にzテストを使用すると言うリソースがあるようです...n&gt;300n&gt;300n>300zzzn&gt;30n&gt;30n>30 よくわからない場合は、データが正常かどうかを調べます。サンプルデータが正常に見える場合、検定を使用します(母集団が正常であり、n &gt; 30であるため)。zzzn&gt;30n&gt;30n>30 不明なケースのサンプルデータが正常に見えない場合はどうですか?まだ -testまたはz -testを使用する状況がありますか、または常にノンパラメトリックテストを変換/使用することを検討していますか?CLTにより、nの値によって平均のサンプリング分布は正規に近似することがわかりますが、サンプルデータはそのnの値が何であるかを教えてくれません。サンプルデータは非正規であり、サンプル平均はnormal / tに従います。実際に平均のサンプリング分布が正規/ tであったが、それがわからなかったときに、ノンパラメトリック検定を変換/使用する場合がありますか? tttzzznnnnnntttttt

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata &lt;- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] &lt;- "no" mydata$admit_factor[mydata$admit==1] &lt;- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl &lt;- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid &lt;- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
どのレベルでテストは検定のプロポーションと数学的に同じですか?
背景:安全にスキップ-それは参照のため、そして質問を正当化するためにここにあります。 この論文の冒頭には次のように書かれています。 「カールピアソンの有名なカイ2乗偶発性検定は、正規分布に基づくz統計と呼ばれる別の統計から導出されます。の最も単純なバージョンは、同等のz検定と数学的に同一であることがわかります。すべての意図と目的において、「chi-squared」は「z-squared」と呼ばれます。1自由度の臨界値は、zの対応する臨界値の2乗です。χ2χ2\chi^2χ2χ2\chi^2 これはCVで複数回アサートされています(here、here、here、その他)。 そして確かに、はと同等であることを証明できます。χ21dfχ1df2\chi^2_{1\,df}X2X2X^2X∼N(0,1)X∼N(0,1)X\sim N(0,1) レッツ言うとそのとの密度見つけ使用して方法を:X∼N(0,1)X∼N(0,1)X \sim N(0,1)Y=X2Y=X2Y=X^2YYYcdfcdfcdf p(Y≤y)=p(X2≤y)=p(−y√≤x≤y√)p(Y≤y)=p(X2≤y)=p(−y≤x≤y)p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y})。問題は、正規分布の密度を密接な形で統合できないことです。しかし、私たちはそれを表現することができます: FX(y)=FX(y√)−FX(−y√).FX(y)=FX(y)−FX(−y). F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}).デリバティブを取る: fX(y)=F′X(y√)12y√+F′X(−y−−−√)12y√.fX(y)=FX′(y)12y+FX′(−y)12y. f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}. 通常のpdfの値pdfpdfpdfは対称であるため: fX(y)=F′X(y√)1y√fX(y)=FX′(y)1y f_X(y)= F_X'(\sqrt{y})\,\frac{1}{\sqrt{y}}。これを等しくするpdfpdfpdf(現在は通常のxxxでpdfpdfpdfあろうy√y\sqrt{y}に差し込まれるべきe−x22e−x22e^{-\frac{x^2}{2}}正常の一部pdfpdfpdf)。そして中に思い出すことが挙げられる1y√1y\frac{1}{\sqrt{y}}終わりには: fX(y)=F′X(y√)1y√=12π−−√e−y21y√=12π−−√e−y2y12−1fX(y)=FX′(y)1y=12πe−y21y=12πe−y2y12−1 f_X(y)= F_X'(\sqrt[]{y})\,\frac{1}{\sqrt[]{y}}= \frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, \frac{1}{\sqrt[]{y}}=\frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, y^{\frac{1}{2}- 1} カイ二乗のpdfと比較してください: fX(x)=12ν/2Γ(ν2)e−x2xν2−1fX(x)=12ν/2Γ(ν2)e−x2xν2−1 f_X(x)= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}e^{\frac{-x}{2}}x^{\frac{\nu}{2}-1} ので、のために DF、我々は正確に導出したカイ二乗を。 1つのpdはFΓ(1/2)=π−−√Γ(1/2)=π\Gamma(1/2)=\sqrt{\pi}111pdfpdfpdf さらに、prop.test()Rで関数を呼び出すと、を決定する場合と同じテストを呼び出します。χ2χ2\chi^2chisq.test() 質問: …

2
独立サンプルt検定:サンプルサイズが大きい場合、データを本当に正規分布させる必要がありますか?
2つの独立したサンプルの平均が異なるかどうかをテストするとします。基礎となる分布が正規ではないことは知っています。 正しく理解していれば、検定統計量は平均値であり、十分な大きさのサンプルサイズの場合、サンプルがそうでなくても平均値は正規分布になるはずです。したがって、この場合、パラメトリック有意性検定が有効である必要がありますか?私はこれについて矛盾し混乱する情報を読んだので、いくらかの確認(または私が間違っている理由の説明)に感謝します。 また、サンプルサイズが大きい場合は、t統計ではなくz統計を使用する必要があることを読みました。しかし実際には、t分布は正規分布に収束するだけで、2つの統計量は同じである必要がありますか? 編集:以下は、z-テストを説明するいくつかのソースです。両方とも、母集団は正規分布しなければならないと述べています。 ここでは、「使用するZ検定のタイプに関係なく、サンプルの抽出元の母集団は正常であると想定されています」と書かれています。そして、ここで、z検定の要件は、「2つの正規分布しているが独立した母集団、σは既知」としてリストされています。

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat &lt;- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) &lt;- paste ("M", 1:10000, sep ="") rownames(xmat) &lt;- paste("sample", 1:200, sep = "") #M variables are correlated N &lt;- 2000000*0.05 # 5% random missing values inds &lt;- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
尤度比検定とWald検定は、Rのglmに異なる結論を提供します
一般化モデル、線形モデル、混合モデルの例を再現しています。私のMWEは以下のとおりです。 Dilution &lt;- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates &lt;- rep(x=5, times=10) NoPositive &lt;- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data &lt;- data.frame(Dilution, NoofPlates, NoPositive) fm1 &lt;- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) 出力 Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family = binomial("logit"), …

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.