タグ付けされた質問 「chi-squared」

テスト(通常、分布、独立性、または適合度)またはそのようなテストに関連する分布のファミリー。

2
最近のコンピューターの能力を考えると、フィッシャーの正確なテストではなくカイ2乗テストを行う理由はありますか?
ソフトウェアがフィッシャーの正確なテスト計算を非常に簡単に行えるようになったことを考えると、理論的または実用的に、カイ2乗テストがフィッシャーの正確なテストよりも実際に望ましい状況はありますか? フィッシャーの正確なテストの利点は次のとおりです。 2x2より大きい分割表(つまり、任意のr x c表)へのスケーリング 正確なp値を与える 有効な最小予想セル数を持つ必要はありません

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
カイ二乗検定と等比率検定の関係は何ですか?
相互に排他的な4つの特性を持つ3つの母集団があるとします。各母集団からランダムサンプルを取得し、測定する特性のクロス集計表または頻度表を作成します。私はそれを言って正しいですか: 母集団と特性の間に関係があるかどうかをテストしたい場合(たとえば、ある母集団が特性のいずれかの頻度が高いかどうか)、カイ2乗検定を実行して、結果が有意であるかどうかを確認します。 カイ2乗検定が重要な場合、母集団と特性の間に何らかの関係があることのみが示されますが、それらの関係は示されません。 さらに、すべての特性を母集団に関連付ける必要はありません。たとえば、異なる母集団の特性AとBの分布が有意に異なるが、CとDの分布が異なる場合、カイ2乗検定は再び有意である可能性があります。 特定の特性が母集団の影響を受けているかどうかを測定したい場合は、その特性だけで等しい比率のテストを実行できます(これはz検定と呼ばれprop.test()ていますR)。 言い換えるとprop.test()、カイ二乗検定で有意な関係があると言われたときに、2つのカテゴリセット間の関係の性質をより正確に判断するためにを使用するのが適切でしょうか?

7
カイ2乗は常に片側検定ですか?
公開された記事(pdf)には、次の2つの文が含まれています。 さらに、誤った報告は、誤ったルールの適用または統計的テストの知識不足によって引き起こされる可能性があります。たとえば、ANOVAの合計dfは、検定のレポートのエラーdfであると見なされるか、研究者がまたは検定の報告されたp値をで除算するワンサイド値は、一方の値やテスト既に片側検定です。χ 2 Fのp個のP χ 2 FFFFχ2χ2\chi^2FFFppppppχ2χ2\chi^2FFF なぜ彼らはそれを言ったのでしょうか?カイ二乗検定は、両側検定です。(著者の一人に尋ねましたが、返事はありませんでした。) 私は何かを見落としていますか?

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
Rの警告-カイ2乗近似が正しくない可能性があります
消防士入学試験の結果を示すデータがあります。私は、試験結果と民族性が相互に独立していないという仮説を検証しています。これをテストするために、RでPearsonのカイ2乗検定を実行しました。結果は期待したことを示していますが、「」という警告が表示されましたIn chisq.test(a) : Chi-squared approximation may be incorrect。 > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 Warning message: In chisq.test(a) : …

2
A / Bテスト:z検定対t検定対カイ二乗対フィッシャーの正確な検定
私は、単純なA / Bテストを扱うときに特定のテストアプローチを選択することで、推論を理解しようとしています(つまり、バイナリレスポン(変換済みまたは未変換)の2つのバリエーション/グループ。例として、以下のデータを使用します) Version Visits Conversions A 2069 188 B 1826 220 トップの答えはここには素晴らしいであり、z、tとカイ二乗検定のための基礎となる仮定のいくつかについて話しています。しかし、私が混乱しているのは、さまざまなオンラインリソースがさまざまなアプローチを引用することであり、基本的なA / Bテストの仮定はほぼ同じであると思うでしょうか? たとえば、この記事ではz-scoreを使用します。 この記事では、次の式を使用します(zscoreの計算と異なるかどうかはわかりません)。 このペーパーは、t test(p 152)を参照しています。 それでは、これらのさまざまなアプローチを支持して、どのような議論ができるのでしょうか?なぜ好みがありますか? もう1つの候補を投入するには、上記の表を2x2分割表として書き直します。フィッシャーの正確確率検定(p5)を使用できます Non converters Converters Row Total Version A 1881 188 2069 Versions B 1606 220 1826 Column Total 3487 408 3895 しかし、このスレッドフィッシャーの正確なテストによると、より小さいサンプルサイズでのみ使用する必要があります(カットオフは何ですか?) そして、tとzのテスト、fテスト(およびロジスティック回帰がありますが、今のところは省略します)があります...私はさまざまなテストアプローチにdrれているように感じていますこの単純なA / Bテストケースのさまざまなメソッドに対して、ある種の引数を作成します。 サンプルデータを使用して、次のp値を取得しています https://vwo.com/ab-split-test-significance-calculator/は0.001のp値(zスコア)を提供します http://www.evanmiller.org/ab-testing/chi-squared.html(カイ二乗検定を使用)は、0.00259のp値を与えます そして、R …


4
McNemarの検定とカイ2乗検定の違いは何ですか?また、それぞれを使用するタイミングをどのように知るのですか?
さまざまなソースで読み上げようとしましたが、私の場合、どのテストが適切かはまだわかりません。データセットについて質問している3つの質問があります。 被験者は、異なる時間にXからの感染についてテストされます。Xの正の比率がXの正の比率に関連するかどうかを知りたい: After |no |yes| Before|No |1157|35 | |Yes |220 |13 | results of chi-squared test: Chi^2 = 4.183 d.f. = 1 p = 0.04082 results of McNemar's test: Chi^2 = 134.2 d.f. = 1 p = 4.901e-31 私の理解では、データは繰り返し測定されるため、McNemarの検定を使用する必要があります。McNemarの検定は、Xの陽性の割合が変化したかどうかを検定します。 しかし、私の質問にはカイ2乗検定が必要なようです。Xafterの陽性の割合がX beforeの陽性の割合に関連しているかどうかをテストします。 McNemarの検定とカイ2乗の違いを正しく理解しているかどうかさえわかりません。私の質問が「Xに感染した被験者の割合が以前と異なっているか」という場合、正しいテストは何でしょうか? 同様のケースですが、前後の代わりに、ある時点で2つの異なる感染を測定します。 Y |no |yes| X|No |1157|35 | |Yes …

6
d20の公平性をテストするにはどうすればよいですか?
20面ダイス(d20)の公平性をテストするにはどうすればよいですか?明らかに、値の分布を均一な分布と比較することになります。私は大学でカイ二乗検定を使用したことを漠然と覚えています。これを適用して、ダイスが公平かどうかを確認するにはどうすればよいですか?

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
これは、自殺カウントデータの季節的影響をテストする適切な方法ですか?
私は、米国の州の自殺による死亡に関連する17年(1995年から2011年)の死亡証明書データを持っています。確認しましたが、使用した方法の明確な感覚や結果に対する自信が得られません。 そのため、データセット内の特定の月に自殺が多かれ少なかれ発生する可能性があるかどうかを判断できるかどうかを確認しました。私の分析はすべてRで行われます。 データに含まれる自殺者の総数は13,909人です。 自殺が最も少ない年を見ると、309/365日(85%)に発生します。自殺が最も多い年を見ると、それらは339/365日(93%)に発生しています。 したがって、毎年自殺のないかなりの日数があります。ただし、17年間すべてで集計すると、2月29日を含む1年の毎日に自殺があります(平均が38の場合は5人のみ)。 1年の各日に自殺者の数を単純に合計しても、明確な季節性を示すものではありません(私の目には)。 月ごとのレベルで集計すると、月あたりの平均自殺者の範囲は次のとおりです。 (m = 65、sd = 7.4、m = 72、sd = 11.1) 私の最初のアプローチは、すべての年の月ごとにデータセットを集計し、月ごとの自殺数に系統的な分散がないという帰無仮説の予想確率を計算した後、カイ二乗検定を行うことでした。日数を考慮して(そしてうるう年の2月を調整して)各月の確率を計算しました。 カイ2乗の結果は、月ごとに大きな変動がないことを示しています。 # So does the sample match expected values? chisq.test(monthDat$suicideCounts, p=monthlyProb) # Yes, X-squared = 12.7048, df = 11, p-value = 0.3131 下の画像は、1か月あたりの合計数を示しています。水平の赤い線は、それぞれ2月、30日月、31日月の期待値に配置されています。カイ2乗検定と一致して、予想カウントの95%信頼区間外にある月はありません。 時系列データの調査を開始するまで、私は終わったと思いました。多くの人が想像するstlように、statsパッケージの関数を使用したノンパラメトリック季節分解法から始めました。 時系列データを作成するには、集約された月次データから始めました。 suicideByMonthTs <- ts(suicideByMonth$monthlySuicideCount, start=c(1995, 1), end=c(2011, 12), frequency=12) …

3
RのARIMAモデルのパラメーターのp値を計算する方法は?
Rで時系列調査を行うarima と、適合モデルの係数値とその標準誤差のみが提供されることがわかりました。ただし、係数のp値も取得する必要があります。 coefの重要性を提供する機能は見つかりませんでした。 したがって、私は自分で計算したいのですが、係数のtまたはchisq分布の自由度はわかりません。だから私の質問は、Rのフィットされたアリマモデルの係数のp値を取得する方法ですか?

4
ストーファーのZスコア法:我々は合計あれば何の代わりに、?
同じ帰無仮説でNNN独立した統計検定を実行していますが、結果を1つのppp値に結合したいと思います。Fisherの方法とStoufferの方法の 2つの「受け入れられた」方法があるようです。 私の質問は、ストーファーの方法についてです。個別のテストごとに、zスコアz_iを取得しz私z私z_iます。帰無仮説では、それらはそれぞれ標準正規分布で分布するため、和ΣのZ私Σz私\Sigma z_iは分散Nの正規分布に従いますNNN。したがって、Stoufferの方法は、単位分散で正規分布する\ Sigma z_i / \ sqrt {N}を計算しΣのZ私/ N−−√Σz私/N\Sigma z_i / \sqrt{N}、これをジョイントzスコアとして使用することを提案しています。 これは理にかなっていますが、ここで私が思いついた別のアプローチがあり、これも理にかなっています。各z私z私z_iは標準正規分布に由来するため、平方和S= Σ Z2私S=Σz私2S=\Sigma z^2_iはNNN自由度のカイ2乗分布に由来する必要があります。したがって、N自由度の累積カイ2乗分布関数を使用してSSSを計算し、ppp値に変換できます(p = 1−X_N(S)、X_NはCDF)。NNNp = 1 − XN(S)p=1−バツN(S)p=1−X_N(S)バツNバツNX_N しかし、このアプローチが言及されていることすら見つけることができません。使用されたことがありますか?名前はありますか?ストーファーの方法と比較した場合の利点/欠点は何ですか?または、私の推論に欠陥がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.