タグ付けされた質問 「z-statistic」

1
ロジスティック回帰のWald検定
私の知る限り、ロジスティック回帰のコンテキストでのWald検定は、特定の予測変数が有意であるかどうかを判断するために使用されます。対応する係数がゼロであるという帰無仮説を棄却します。XXX テストでは、係数の値を標準誤差で除算します。σσ\sigma 私が混乱しているのは、がZスコアとも呼ばれ、与えられた観測値が正規分布(平均ゼロ)から生じる可能性を示していることです。X/σX/σX/\sigma

2
A / Bテスト:z検定対t検定対カイ二乗対フィッシャーの正確な検定
私は、単純なA / Bテストを扱うときに特定のテストアプローチを選択することで、推論を理解しようとしています(つまり、バイナリレスポン(変換済みまたは未変換)の2つのバリエーション/グループ。例として、以下のデータを使用します) Version Visits Conversions A 2069 188 B 1826 220 トップの答えはここには素晴らしいであり、z、tとカイ二乗検定のための基礎となる仮定のいくつかについて話しています。しかし、私が混乱しているのは、さまざまなオンラインリソースがさまざまなアプローチを引用することであり、基本的なA / Bテストの仮定はほぼ同じであると思うでしょうか? たとえば、この記事ではz-scoreを使用します。 この記事では、次の式を使用します(zscoreの計算と異なるかどうかはわかりません)。 このペーパーは、t test(p 152)を参照しています。 それでは、これらのさまざまなアプローチを支持して、どのような議論ができるのでしょうか?なぜ好みがありますか? もう1つの候補を投入するには、上記の表を2x2分割表として書き直します。フィッシャーの正確確率検定(p5)を使用できます Non converters Converters Row Total Version A 1881 188 2069 Versions B 1606 220 1826 Column Total 3487 408 3895 しかし、このスレッドフィッシャーの正確なテストによると、より小さいサンプルサイズでのみ使用する必要があります(カットオフは何ですか?) そして、tとzのテスト、fテスト(およびロジスティック回帰がありますが、今のところは省略します)があります...私はさまざまなテストアプローチにdrれているように感じていますこの単純なA / Bテストケースのさまざまなメソッドに対して、ある種の引数を作成します。 サンプルデータを使用して、次のp値を取得しています https://vwo.com/ab-split-test-significance-calculator/は0.001のp値(zスコア)を提供します http://www.evanmiller.org/ab-testing/chi-squared.html(カイ二乗検定を使用)は、0.00259のp値を与えます そして、R …

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
途方もなく大きなZスコアに関連する確率を計算する方法は?
ネットワークモチーフ検出用のソフトウェアパッケージは、非常に高いZスコアを返すことがあります(私が見た最高は600,000+ですが、100を超えるZスコアは非常に一般的です)。これらのZスコアが偽であることを示すつもりです。 巨大なZスコアは、非常に低い関連確率に対応します。関連する確率の値は、最大6のZスコアの正規分布ウィキペディアページ(およびおそらくすべての統計テキスト)に記載されています。 質問:誤差関数1−erf(n/2–√)1−erf(n/2)1-\mathrm{erf}(n/\sqrt{2})nで最大1,000,000の場合、たとえば? 私は特に、このために既に実装されたパッケージを望んでいます(可能な場合)。私がこれまでに見つけた中で最高のものはWolframAlphaで、n = 150で計算できます(こちら)。

3
Zスコアとp値の違いは何ですか?
ネットワークモチーフアルゴリズムでは、統計に対してp値とZスコアの両方を返すことはよくあるようです。「入力ネットワークにはサブグラフGのXコピーが含まれています」。サブグラフは、それが満たされる場合、モチーフと見なされます p値<A、 Zスコア> Bおよび X> C、一部のユーザー定義(またはコミュニティー定義)A、B、およびC。 これが質問の動機です。 質問:p値とZスコアの違いは何ですか? そしてサブ質問: 質問:同じ統計のp値とZスコアが反対の仮説を示唆する状況はありますか?上記の1番目と2番目の条件は基本的に同じですか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

4
なぜストファーの方法が機能するのですか?
かなり簡単な質問のように思えますが、実際に考えると、ストファーの方法は私には意味がありません。これが理由です: 両側仮説を仮定します。最初に、値からを計算します。それでは、かなり単純な例を見てみましょう。 2つの値を取ってみましょう。つまり、とはどちらもです。Stoufferの方法によれば、とは次のように結合されます。 P P 0.05 、Z 1 、Z 2 ≈ 1.96 Z 1 、Z 2z私ziz_ipppppp0.050.050.05z1z1z_1z2z2z_2≈ 1.96≈1.96\approx1.96z1z1z_1z2z2z_2 Z= ∑i = 1kZ私k−−√=1.96+1.962–√=2.77Z=∑i=1kZik=1.96+1.962=2.77 Z = \frac{\sum\limits_{i=1}^kZ_i}{\sqrt{k}} = \frac{1.96 + 1.96}{\sqrt{2}} = 2.77 このスコアは値に再度変換され、値はになりますが、各からの値は個別に約ます。p p 0.005 p z i 0.05zzzpppppp0.0050.0050.005pppziziz_i0.050.050.05 この意味で、Stoufferのテストは結果の値を各値とは異なる値に人工的に変更するように見えますが、私にとっては意味がありません。p z ippppppz私ziz_i 私はこのテストを誤解していますか、それともどのように/なぜそれが機能するのかを理解するのを手伝ってくれますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.