タグ付けされた質問 「chi-squared」

テスト(通常、分布、独立性、または適合度)またはそのようなテストに関連する分布のファミリー。

4
Rのロジスティック回帰モデルに適合しない場合のピアソンの検定統計量を計算するにはどうすればよいですか?
尤度比(別名逸脱)統計と適合度(または適合度)検定は、Rのロジスティック回帰モデル(関数を使用して適合)を取得するのはかなり簡単です。ただし、いくつかのセル数が十分に少なくなり、テストの信頼性が低下します。適合度不足の尤度比検定の信頼性を検証する1つの方法は、その検定統計量とP値をピアソンのカイ二乗(または\ chi ^ 2)適合度検定のそれらと比較することです。G2G2G^2glm(..., family = binomial)χ2χ2\chi^2 glmオブジェクトもそのsummary()メソッドも、ピアソンのカイ二乗検定の適合性の検定統計量を報告しません。私の検索では、思いついたのはchisq.test()(statsパッケージ内の)関数だけです。そのドキュメントには、「chisq.testカイ2乗分割表テストと適合度テストを実行する」と記載されています。ただし、そのようなテストを実行する方法についてのドキュメントはまばらです。 場合はx一つの行または列を持つ行列である場合、またはxベクターであり、yその後、与えられていない適合度(テストが行われるx一次元分割表として扱われます)。のエントリは、x負でない整数でなければなりません。この場合、テストされる仮説は、母集団の確率がの確率と等しいか、与えられないp場合pはすべて等しいかどうかです。 の引数にオブジェクトのyコンポーネントを使用できると思います。ただし、エラーが発生するため、の引数にオブジェクトのコンポーネントを使用できません: " "glmxchisq.testfitted.valuesglmpchisq.testprobabilities must sum to 1. (Rで)手動でステップを実行することなく、少なくともピアソンの検定の統計を計算して適合性の欠如を調べるにはどうすればよいですか?χ2χ2\chi^2

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
カイ二乗検定を使用して、データがポアソン分布に従うかどうかを判断する方法
次の図(このペーパーの 646ページの図1 )は、ポアソン分布の下で観測値と期待値を比較しています。次に、カイ二乗検定を実行して、観測値がポアソン分布での期待値と異なるかどうかを確認します。 Rを使用して、ポアソン分布の下で期待値を生成し、カイ2乗検定を使用して観測値を比較するにはどうすればよいですか? 編集: これが彼らが紙でしたことをやろうとする私の試みです。の観測された分布がvariableポアソン分布と異なるかどうか知りたい。また、私が以下で行ったことは、彼らが紙で行ったのと同じ手順であるかどうかも知りたいです。P値が> 0.05であるため、variable以下の分布はポアソン分布に従うと結論しました-誰かがこれを確認できますか? df <- data.frame(variable = 0:5, frequency = c(20, 10, 5, 3, 2, 1)) # estimate lambda mean_df_variable <- mean(df$variable) # calculate expected values if df$frequency follows a poisson distribution library(plyr) expected <- laply(0:5, function(x) dpois(x=x, lambda=mean_df_variable, log = FALSE)) # calculate actual distribution …

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 


1
どのように見つけ、と連続変数のための最適な離散化を評価するために、
連続変数とバイナリターゲット変数(0と1)を含むデータセットがあります。 (ロジスティック回帰の)連続変数をターゲット変数に関して離散化する必要があります。また、各区間での観測頻度のバランスをとるように制約されています。Chi Mergeのような機械学習アルゴリズム、決定木を試しました。Chiマージにより、各間隔で非常に不均衡な数の間隔が得られました(3つの観測値を持つ間隔と1000の別の間隔)。決定木は解釈が困難でした。 最適な離散化では、離散化された変数とターゲット変数の間の統計が最大化され、ほぼ同じ量の観測を含む間隔が必要であるという結論に達しました。χ2χ2\chi^2 これを解決するためのアルゴリズムはありますか? これはRでは次のようになります(defはターゲット変数、xは離散化される変数です)。私はTschuprowの計算ので、変換され、ターゲット変数間の「相関性」を評価するために、χ 2統計は間隔の数に伴って増加する傾向にあります。これが正しい方法かどうかはわかりません。TTTχ2χ2\chi^2 TTT chitest <- function(x){ interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE) X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic #Tschuprow Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1)))) print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup)) }

1
Excel vs Rでカイ二乗を計算する奇妙な方法
計算していると主張しているExcelシートを見ていますが、この方法を認識していないため、何か不足しているのではないかと思っていました。χ2χ2\chi^2 これが分析しているデータです: +------------------+----------+----------+ | Total Population | Observed | Expected | +------------------+----------+----------+ | 2000 | 42 | 32.5 | | 2000 | 42 | 32.5 | | 2000 | 25 | 32.5 | | 2000 | 21 | 32.5 | +------------------+----------+----------+ そして、これはカイ二乗を計算するために各グループに対して行う合計です: P = (sum of all observed)/(sum of total …
9 r  chi-squared  excel 

1
カイ2乗検定のp値のモンテカルロシミュレーションを適用するためのルール
chisq.test()R の関数でのモンテカルロシミュレーションの使用について理解したいと思います。 128レベル/クラスの質的変数があります。私のサンプルサイズは26です(これ以上「個人」をサンプリングできませんでした)。したがって、明らかに、「個人」が0のレベルがいくつかあります。しかし、実際には、127のクラスのうち、非常に少数のクラスしか表現されていません。カイ二乗検定を適用するには、各レベルに少なくとも5人の個人がいる必要があると聞いたので(その理由は完全にはわかりません)、simulate.p.valueモンテカルロシミュレーションを使用して分布を推定するオプションを使用する必要があると思いましたそしてp値を計算します。モンテカルロシミュレーションなしでは、Rはp値を与えます< 1e-16。モンテカルロシミュレーションでは、でのp値が得られ4e-5ます。 26の1と101の0のベクトルでp値を計算しようとしましたが、モンテカルロシミュレーションでは、1のp値が得られました。 可能なクラスの数と比較してサンプルサイズが小さい場合でも、観測された分布は、すべての可能なクラスが実際の母集団で同じ確率(1/127)で存在する可能性が非常に低いということを示してもよいですか? ?

2
Benjamini-Hochberg依存関係の仮定は正当化されますか?
約50の異なる変数に関して3つの母集団間の有意差をテストするデータセットがあります。これは、一方でKruskal-Wallis検定を使用し、もう一方では、入れ子のGLMモデルフィット(独立変数としての人口の有無にかかわらず)の尤度比検定によって行います。 その結果、一方ではクラスカル・ウォリスの値のリストがあり、もう一方ではLRT比較からのカイ2乗のp値だと思います。pppppp > 50の異なるテストがあるため、いくつかの形式の複数のテスト修正を行う必要があります。Benjamini-HochbergFDRが最も賢明な選択のようです。 ただし、変数はおそらく独立しておらず、それらのいくつかの「氏族」が相関しています。問題はそれです:私の値の基礎となる統計のセットが、Benjamini-HochbergプロシージャがFDRに引き続きバインドされるために必要な正の依存性の要件を満たしているかどうかはどうすればわかりますか?ppp 2001年のBenjamini-Hochberg-Yekutieli論文では、PRDS条件は多変量正規分布とスチューデント化分布に当てはまると述べています。モデル比較のための尤度比検定のカイ二乗値はどうですか?クラスカル・ウォリス検定の値はどうなりますか?ppp 依存関係に何も仮定しないBenjamini-Hochberg-Yekutieliの最悪の場合のFDR補正を使用できますが、この場合は保守的すぎるため、いくつかの関連する信号を見落とす可能性があります。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

2
2 x 2分割表のイエーツ連続性補正
2 x 2分割表のイェーツ連続性訂正について、現場の人々から意見を集めたいと思います。ウィキペディアの記事では、調整が長すぎる可能性があると記載されているため、限られた意味でのみ使用されています。ここの関連記事では、それ以上の洞察は得られません。 これらのテストを定期的に使用している人々に、あなたはどう思いますか?補正を使用する方が良いですか。 また、95%の信頼水準で異なる結果が得られる実際の例。これは宿題の問題でしたが、私たちのクラスはイェーツの連続性補正をまったく扱っていないので、あなたが私のために私の宿題をしていないことを知って簡単に眠ってください。 samp <- matrix(c(13, 12, 15, 3), byrow = TRUE, ncol = 2) colnames(samp) <- c("No", "Yes") rownames(samp) <- c("Female", "Male") chisq.test(samp, correct = TRUE) chisq.test(samp, correct = FALSE)

2
複数の比率を比較するためにMarascuilo手順を使用した人はいますか?
ここで説明する Marascuiloの手順は、全体的なカイ2乗検定でnullを拒否した後、特定の比率が互いに異なるかどうかをテストする場合に、比率の複数比較の問題に対処するテストのようです。 しかし、私はこのテストにあまり詳しくありません。だから、私の質問: このテストを使用する場合、どのニュアンス(ある場合)を心配する必要がありますか? 同じ問題に対処するために、少なくとも2つの他のアプローチ(以下を参照)を知っています。どのテストが「より良い」アプローチですか?: @Brett Magill がこの回答で言及した「分割されたカイ二乗」の実行 Holm–Bonferroniメソッドを使用してp値を調整します。

1
ピアソンとマクネマーのカイ2乗検定の連続性補正
これはかなり基本的な質問だと思いますが、連続性補正という用語がよくわからないことに気づきました。 私はRを使用correct=TRUEし、chisq.testとの両方で同じ構文を見つけましたmcnemar.test。それらは異なる導通補正方法を参照していますか? ピアソンのカイ2乗検定のyateの連続性は、結果が「過剰調整」される可能性があるため、あまり人気がありませんが、マクネマーのカイ2乗検定についてはどうですか? ありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.