タグ付けされた質問 「contingency-tables」

(少なくとも)2つの周辺カテゴリによって配置された、二変量または多変量の頻度を表示するカウント(時々、周辺カウントの比率)のテーブル。クロスタブと呼ばれることもあります。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
フィッシャーの正確確率検定はどの分布を想定していますか?
私の仕事では、フィッシャーの正確確率検定のいくつかの使用法を見てきましたが、それが自分のデータにどれだけうまく適合するかと思っていました。いくつかの情報源を見て、統計の計算方法を理解しましたが、仮定された帰無仮説の明確で正式な説明を見たことはありません。 誰かが私に仮定された分布の正式な説明を説明したり参照したりできますか?分割表の値に関する説明に感謝します。

1
クロステーブル分析のどのテスト:BoschlooまたはBarnard?
30人の患者の小さなデータセットから2x2テーブルを分析しています。私たちは、どの治療法を選ぶべきかについてのヒントを与えるいくつかの変数を遡及的に見つけようとしています。変数(obs normal / strange)と処理決定(A / B)は特に興味深いので、データは次のようになります。 Obs/Tr. Dec.normalstrangeA12012B1351825530Obs/Tr. Dec.ABnormal121325strange055121830\begin{array} {|r|r|r|r|} \hline \text{Obs/Tr. Dec.} &\text{A} &\text{B}\\ \hline \text{normal} &12 &13 &25\\ \hline \text{strange} &0 &5 &5\\ \hline &12 &18 &30\\ \hline \hline \end{array} 明らかに、1つのセルは、カイ2乗検定を除外するエントリに欠けており、フィッシャーの正確確率検定は飽和p値を与えません(ただし、まだ<10%)。したがって、私の最初のアイデアは、より強力なテストを見つけることでした。私はブログを読んで おり、この記事では、バーナードのテストとボクロスのテストについて、一般に、強力なテストにつながる3つのシナリオがあります。 列と行の合計を修正フィッシャーの正確確率検定→→\rightarrow 列または(xclusive)行合計が固定 Barnardの正確検定→→\rightarrow 何も修正されていない Boschloosの正確な検定→→\rightarrow 上記の記事は、治療Aと治療Bの合計が以前にほとんど知られていないため、フィッシャーの正確確率検定を除外できることを指摘しました。しかし、他の選択肢はどうですか?正常なコントロールがある場合のコントロールでは、コントロールできる数のプラセボとverumグループをコントロールできるため、2を選択します:Barnard。私の場合、私にはわかりません。一方で、同様の数学的な問題(プラセボ/バームの合計に等しい観測レベルの合計)があるため、バーナードにつながりますが、デザインを変えることができません。 nr。3につながるサンプルを取得する前の観察の正常/奇妙さ:Boschloo。 それでは、どのテストを使用する必要がありますか。その理由は何ですか。もちろんハイパワーが欲しいです。 (私が知りたいもう1つの質問はchisq.test、rの場合に使用する方が良いprop.test(x, alternative = "greater")かどうかです。理論的な側面については、ここで説明します。)

2
シンプソンのパラドックスは、隠し変数からの反転のすべてのインスタンスをカバーしていますか?
以下は、シンプソンのパラドックスの存在の「証明」として提供されている多くの視覚化についての質問であり、用語についての質問かもしれません。 シンプソンのパラドックスは説明すると、(理由の数値例を与えるためにかなり単純な現象であり、なぜこの現象が発生することができますが深いと面白いですが)。パラドックスは、2x2x2の分割表(Agresti、Categorical Data Analysis)が存在し、マージナルアソシエーションが各条件付きアソシエーションとは異なる方向にあることです。 つまり、2つの部分母集団の比率の比較はどちらも一方向に進むことができますが、組み合わせた母集団の比較は他の方向に進みます。シンボル: 存在、B 、C 、D 、E 、F 、Gは、Hよう +のBa 、b 、c 、d、e 、f、g、ha,b,c,d,e,f,g,ha,b,c,d,e,f,g,ha + bc + d&gt; e + fg+ ha+bc+d&gt;e+fg+h \frac{a+b}{c+d} > \frac{e+f}{g+h} しかし とac&lt; egac&lt;eg \frac{a}{c} < \frac{e}{g} bd&lt; fhbd&lt;fh \frac{b}{d} < \frac{f}{h} これは、次の視覚化で正確に表現されています(Wikipediaから): 分数は単に対応するベクトルの勾配であり、短いBベクトルは対応するLベクトルよりも大きい勾配を持っていますが、結合されたBベクトルは結合されたLベクトルよりも小さい勾配を持っていることが例でわかります。 多くの形式で非常に一般的な視覚化があり、特にSimpson'sに関するWikipediaのリファレンスの前に1つあります。 これは交絡の良い例であり、(2つのサブ母集団を分離する)非表示変数が異なるパターンを示す方法です。 ただし、数学的には、そのような画像は、シンプソンのパラドックスとして知られている現象の基礎となっている分割表の表示にまったく対応していません。まず、回帰直線は実数値のポイントセットデータ上にあり、分割表のカウントデータではありません。 また、回帰直線で勾配の任意の関係を持つデータセットを作成することもできますが、分割表では、勾配の違いに制限があります。つまり、母集団の回帰直線は、指定された部分母集団のすべての回帰に直交する可能性があります。しかし、シンプソンズのパラドックスでは、サブグループの比率は、回帰勾配ではありませんが、逆の方向にあったとしても、融合した母集団から遠く離れることはできません(ここでも、ウィキペディアの比率比較画像を参照してください)。 私にとっては、シンプソンのパラドックスの視覚化として後者の画像を見るたびに驚かされるのに十分です。しかし、私はどこでも(私が間違っていると思う)例を目にしているので、知りたいと思っています。 オリジナルのシンプソン/ユールの分割表の例から、回帰直線の視覚化を正当化する実際の値への微妙な変換が欠けていますか? 確かにシンプソンズは交絡エラーの特定のインスタンスです。「シンプソンのパラドックス」という用語は交絡エラーと同等になりました。そのため、どのような計算でも、隠し変数を介した方向の変化はシンプソンのパラドックスと呼ばれますか? 補遺:これは、2xmxn(または連続で2 x m)テーブルへの一般化の例です。 …

1
2x2およびIx2(単一因子-バイナリ応答)分割表のロジスティック回帰とカイ2乗?
2x2およびIx2の分割表でのロジスティック回帰の使用を理解しようとしています。たとえば、これを例として使用します カイ二乗検定とロジスティック回帰の違いは何ですか?次のような複数の名目上の因子(Ix2テーブル)を持つテーブルはどうでしょうか。 ここに同様の質問がありますが、答えは主にカイ二乗がmxnテーブルを処理できるということですが、私の質問は、バイナリの結果と単一の名目上の因子がある場合の具体的なものです。(リンクされたスレッドはこのスレッドも指しますが、これは複数の変数/因子に関するものです)。 それがバイナリ応答を持つ単一の因子(つまり、他の変数を制御する必要がない)の場合、ロジスティック回帰を行う目的の違いは何ですか?

3
G検定とピアソンのカイ2乗検定
分割表で独立性をテストしています。G検定とピアソンのカイ2乗検定のどちらが良いかわかりません。サンプルサイズは数百ですが、いくつかの低い細胞数があります。ウィキペディアのページで述べたように、カイ二乗分布の近似は、ピアソンのカイ二乗検定よりもG検定の方が優れています。しかし、モンテカルロシミュレーションを使用してp値を計算しているので、これら2つのテストの間に違いはありますか?N× MN×MN \times M

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
分布の等価性のカイ2乗検定:許容されるゼロの数はいくつですか?
21の異なる表現型のうち1つしか持つことができない変異体の2つのグループを比較しています。これらの結果の分布が2つのグループ間で類似しているかどうかを確認します。 「分布の等値のカイ2乗検定」を計算し、いくつかのもっともらしい結果を与えるオンライン検定を見つけました。ただし、この表にはかなりの数のゼロがあるため、この場合はカイ二乗を使用できますか? 次の表は、2つのグループと特定の表現型の数を示しています。 2 1 2 3 1 6 1 4 13 77 7 27 0 1 0 4 0 2 2 7 2 3 1 5 1 9 2 6 0 3 3 0 1 3 0 3 1 0 1 2 0 1

1
コクランマンテルヘンツェル検定の解釈方法は?
Cで層化された2つの変数AとBの独立性をテストしています。AとBはバイナリ変数で、Cはカテゴリカル(5つの値)です。AとB(すべての階層を組み合わせたもの)に対するフィッシャーの正確検定を実行すると、次の結果が得られます。 ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * ここで、ORはオッズ比(推定および95%信頼区間)であり*、p &lt;0.05であることを意味します。 各ストラタム(C)に対して同じテストを実行すると、次のようになります。 C=1, OR: 2.31 (0.78 -- 6.13), p = 0.0815 C=2, OR: 2.75 (1.21 -- 6.15), p = 0.0088 * C=3, OR: 0.94 (0.50 …

1
Rのフィッシャーテスト
次のデータセットがあるとします。 Men Women Dieting 10 30 Non-dieting 5 60 私がフィッシャーの正確検定をRで実行する場合、何をalternative = greater(またはそれ以下)意味しますか?例えば: mat = matrix(c(10,5,30,60), 2,2) fisher.test(mat, alternative="greater") 私が得るp-value = 0.01588とodds ratio = 3.943534。また、次のように分割表の行を反転すると、 mat = matrix(c(5,10,60,30), 2, 2) fisher.test(mat, alternative="greater") その後、私が得るp-value = 0.9967とodds ratio = 0.2535796。しかし、代替引数なしで2つの分割表(つまり、fisher.test(mat))を実行すると、が得られますp-value = 0.02063。 その理由を教えていただけませんか。 また、上記の場合の帰無仮説と対立仮説は何ですか? 次のような分割表でフィッシャーテストを実行できますか? mat = matrix(c(5000,10000,69999,39999), 2, 2) PS:私は統計学者ではありません。私はあなたの助け(簡単な英語での回答)が高く評価されるように統計を学ぼうとしています。

1
テーブルに対してフィッシャーの厳密検定とロジスティック回帰を使用した場合の違いは何ですか?
以下のために台、テーブルの上に推論を行うには、2つの方法はまた、フィッシャーの正確確率検定とロジスティック回帰を介して行われます。2 × 22×22 \times 2 フィッシャーの厳密検定を使用すると、私たちは関連の存在にのみ関心があると言われました。しかし、ロジスティック回帰では、関連の大きさに関心があります。 しかし、その理由はわかりません。たとえば、Rで行われるフィッシャーの正確検定では、信頼区間でオッズ比が返されますが、ロジスティック回帰では切片と勾配が返されます。どちらも対数オッズと対数オッズに対応しています。比。 私の質問は、ロジスティック回帰が関連性の大きさをどこにもたらすかです。係数内にあると想定していますが、これは対数オッズ比であり、フィッシャーの正確検定でも同様です。違いは何ですか?β1β1\beta_1

4
対応のあるデータに対するフィッシャーの正確検定
肺がんのケースと一致したコントロール(肺がんなし)を考えます(年齢、性別などに基づく一致)。肺がんに対する喫煙の影響の証拠を見つけるために、分割表でフィッシャーの正確確率検定を使用しました。ただし、これは、コントロールとケースが一致したことを考慮していません。 40404040404040 それで、2つのグループ間の一致を考慮に入れるフィッシャーの正確検定を使用する方法があるかどうか疑問に思いましたか?

2
分割表のベイジアン分析:効果サイズの記述方法
私は、KruschkeのDoing Bayesian Data Analysisの例、特にch。のポアソン指数ANOVAに取り組んでいます。22、彼は分割表の独立性の頻出カイ二乗検定の代替として提示します。 変数が独立している場合(つまり、HDIがゼロを除外する場合)に予想されるよりも多かれ少なかれ頻繁に発生する相互作用に関する情報を取得する方法を確認できます。 私の質問は、このフレームワークでエフェクトサイズをどのように計算または解釈できるかです。たとえば、クルシュケは「青い目と黒い髪の組み合わせは、目の色と髪の色が独立している場合に予想されるよりも頻度が低い」と書いていますが、その関連付けの強さをどのように説明できますか?どの相互作用が他の相互作用よりも極端かを知るにはどうすればよいですか?これらのデータのカイ2乗検定を行った場合、全体的な効果の大きさの尺度としてCramérのVを計算できます。このベイジアンコンテキストでエフェクトサイズを表現するにはどうすればよいですか? これは、本からの自己完結型の例です(でコード化R)。答えがはっきり見えて私から隠されている場合に備えて... df &lt;- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond", "Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel"))) df Blue Brown Green Hazel Black 20 68 5 15 Blond …

2
カテゴリー名義変数間のカテゴリー間の相関
2つのカテゴリー名義変数(両方とも5つのカテゴリー)を持つデータセットがあります。これらの2つの変数からカテゴリ間の潜在的な相関関係を特定できるかどうか(およびその方法)を知りたいのですが。 言い換えると、たとえば変数1のカテゴリの結果が変数2の特定のカテゴリと強い相関を示すかどうか。5つのカテゴリを持つ2つの変数があるため、すべてのカテゴリの相関分析の合計は25の結果になります。 (少なくともそれが私が望むように/期待するように機能する場合)iiijjj 私は問題を具体的な質問に定式化しようとしました: 質問1:カテゴリ変数を値(カテゴリ)ごとに5つの異なるダミー変数に転送するとします。これと同じ手順を2番目の変数に対しても実行します。次に、ダミーの1.iと2.i(たとえば)の相関関係を調べたいと思います。通常の相関係数手順を使用してこの手順を実行するのは統計的に正しいですか?この手順から得られる相関係数は、2つのダミー変数間の相関関係について適切な洞察を提供しますか? 質問2:質問1で説明されている手順が有効な手順である場合、この分析を2つ(またはそれ以上)のカテゴリ名義変数のすべてのカテゴリに対して一度に実行する方法はありますか? 私が使用しているプログラムはSPSS(20)です。

1
2x2テーブルのセルをファイ係数と限界確率で表現する方法
周波数の典型的な2x2テーブルを考えます(この画像に示されています)。表記:行変数はRで表され、値0または1をとります。列変数はCで表され、値0または1をとります。表のセルは、RとCの各組み合わせの頻度を示します。たとえば、bはR = 0およびC = 1の頻度です。私の質問の目的のために、セルの数が合計で除算され、セルの値がセルの結合確率であると仮定します。 bbb Iは、の点で細胞確率表現したいPHI係数(以下に提供式との相関の測度である)と周辺確率及び μ C ≡ P (CμR≡p(R=1)=c+dμR≡p(R=1)=c+d\mu_R\equiv p(R\!=\!1) = c+dです。つまり、次の4つの方程式系を反転させます 。ϕμC≡p(C=1)=b+dμC≡p(C=1)=b+d\mu_C\equiv p(C\!=\!1) = b+dϕμRμC1≡(ad−bc)/(a+b)(c+d)(a+c)(b+d)−−−−−−−−−−−−−−−−−−−−−−√=c+d=b+d=a+b+c+d(by defn)(by defn)(by defn)(constraint)(by defn)ϕ≡(ad−bc)/(a+b)(c+d)(a+c)(b+d)(by defn)μR=c+d(by defn)μC=b+d(constraint)1=a+b+c+d\begin{align} \phi &\equiv (ad-bc)/\sqrt{(a+b)(c+d)(a+c)(b+d)} \tag{by defn}\\ \mu_{R} &= c+d \tag{by defn}\\ \mu_{C} &= b+d \tag{by defn}\\ 1 &= a+b+c+d \tag{constraint} \end{align} と、もちろん、0≤a,b,c,d≤10≤a,b,c,d≤10 \le a,b,c,d \le 1。換言すれば、私は、を解くためにたい、B、C、及びDの点でφ、μ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.