統計とビッグデータ contingency-tables

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

フィッシャーの正確確率検定はどの分布を想定していますか？

私の仕事では、フィッシャーの正確確率検定のいくつかの使用法を見てきましたが、それが自分のデータにどれだけうまく適合するかと思っていました。いくつかの情報源を見て、統計の計算方法を理解しましたが、仮定された帰無仮説の明確で正式な説明を見たことはありません。誰かが私に仮定された分布の正式な説明を説明したり参照したりできますか？分割表の値に関する説明に感謝します。

11 hypothesis-testing chi-squared multinomial contingency-tables fishers-exact

1

クロステーブル分析のどのテスト：BoschlooまたはBarnard？

30人の患者の小さなデータセットから2x2テーブルを分析しています。私たちは、どの治療法を選ぶべきかについてのヒントを与えるいくつかの変数を遡及的に見つけようとしています。変数（obs normal / strange）と処理決定（A / B）は特に興味深いので、データは次のようになります。 Obs/Tr. Dec.normalstrangeA12012B1351825530Obs/Tr. Dec.ABnormal121325strange055121830\begin{array} {|r|r|r|r|} \hline \text{Obs/Tr. Dec.} &\text{A} &\text{B}\\ \hline \text{normal} &12 &13 &25\\ \hline \text{strange} &0 &5 &5\\ \hline &12 &18 &30\\ \hline \hline \end{array} 明らかに、1つのセルは、カイ2乗検定を除外するエントリに欠けており、フィッシャーの正確確率検定は飽和p値を与えません（ただし、まだ<10％）。したがって、私の最初のアイデアは、より強力なテストを見つけることでした。私はブログを読んでおり、この記事では、バーナードのテストとボクロスのテストについて、一般に、強力なテストにつながる3つのシナリオがあります。列と行の合計を修正フィッシャーの正確確率検定→→\rightarrow 列または（xclusive）行合計が固定 Barnardの正確検定→→\rightarrow 何も修正されていない Boschloosの正確な検定→→\rightarrow 上記の記事は、治療Aと治療Bの合計が以前にほとんど知られていないため、フィッシャーの正確確率検定を除外できることを指摘しました。しかし、他の選択肢はどうですか？正常なコントロールがある場合のコントロールでは、コントロールできる数のプラセボとverumグループをコントロールできるため、2を選択します：Barnard。私の場合、私にはわかりません。一方で、同様の数学的な問題（プラセボ/バームの合計に等しい観測レベルの合計）があるため、バーナードにつながりますが、デザインを変えることができません。 nr。3につながるサンプルを取得する前の観察の正常/奇妙さ：Boschloo。それでは、どのテストを使用する必要がありますか。その理由は何ですか。もちろんハイパワーが欲しいです。（私が知りたいもう1つの質問はchisq.test、rの場合に使用する方が良いprop.test(x, alternative = "greater")かどうかです。理論的な側面については、ここで説明します。）

11 chi-squared power contingency-tables fishers-exact

2

シンプソンのパラドックスは、隠し変数からの反転のすべてのインスタンスをカバーしていますか？

以下は、シンプソンのパラドックスの存在の「証明」として提供されている多くの視覚化についての質問であり、用語についての質問かもしれません。シンプソンのパラドックスは説明すると、（理由の数値例を与えるためにかなり単純な現象であり、なぜこの現象が発生することができますが深いと面白いですが）。パラドックスは、2x2x2の分割表（Agresti、Categorical Data Analysis）が存在し、マージナルアソシエーションが各条件付きアソシエーションとは異なる方向にあることです。つまり、2つの部分母集団の比率の比較はどちらも一方向に進むことができますが、組み合わせた母集団の比較は他の方向に進みます。シンボル：存在、B 、C 、D 、E 、F 、Gは、Hよう +のBa 、b 、c 、d、e 、f、g、ha,b,c,d,e,f,g,ha,b,c,d,e,f,g,ha + bc + d> e + fg+ ha+bc+d>e+fg+h \frac{a+b}{c+d} > \frac{e+f}{g+h} しかしとac< egac<eg \frac{a}{c} < \frac{e}{g} bd< fhbd<fh \frac{b}{d} < \frac{f}{h} これは、次の視覚化で正確に表現されています（Wikipediaから）：分数は単に対応するベクトルの勾配であり、短いBベクトルは対応するLベクトルよりも大きい勾配を持っていますが、結合されたBベクトルは結合されたLベクトルよりも小さい勾配を持っていることが例でわかります。多くの形式で非常に一般的な視覚化があり、特にSimpson'sに関するWikipediaのリファレンスの前に1つあります。これは交絡の良い例であり、（2つのサブ母集団を分離する）非表示変数が異なるパターンを示す方法です。ただし、数学的には、そのような画像は、シンプソンのパラドックスとして知られている現象の基礎となっている分割表の表示にまったく対応していません。まず、回帰直線は実数値のポイントセットデータ上にあり、分割表のカウントデータではありません。また、回帰直線で勾配の任意の関係を持つデータセットを作成することもできますが、分割表では、勾配の違いに制限があります。つまり、母集団の回帰直線は、指定された部分母集団のすべての回帰に直交する可能性があります。しかし、シンプソンズのパラドックスでは、サブグループの比率は、回帰勾配ではありませんが、逆の方向にあったとしても、融合した母集団から遠く離れることはできません（ここでも、ウィキペディアの比率比較画像を参照してください）。私にとっては、シンプソンのパラドックスの視覚化として後者の画像を見るたびに驚かされるのに十分です。しかし、私はどこでも（私が間違っていると思う）例を目にしているので、知りたいと思っています。オリジナルのシンプソン/ユールの分割表の例から、回帰直線の視覚化を正当化する実際の値への微妙な変換が欠けていますか？確かにシンプソンズは交絡エラーの特定のインスタンスです。「シンプソンのパラドックス」という用語は交絡エラーと同等になりました。そのため、どのような計算でも、隠し変数を介した方向の変化はシンプソンのパラドックスと呼ばれますか？補遺：これは、2xmxn（または連続で2 x m）テーブルへの一般化の例です。 …

10 mathematical-statistics data-visualization causality contingency-tables simpsons-paradox

1

2x2およびIx2（単一因子-バイナリ応答）分割表のロジスティック回帰とカイ2乗？

2x2およびIx2の分割表でのロジスティック回帰の使用を理解しようとしています。たとえば、これを例として使用しますカイ二乗検定とロジスティック回帰の違いは何ですか？次のような複数の名目上の因子（Ix2テーブル）を持つテーブルはどうでしょうか。ここに同様の質問がありますが、答えは主にカイ二乗がmxnテーブルを処理できるということですが、私の質問は、バイナリの結果と単一の名目上の因子がある場合の具体的なものです。（リンクされたスレッドはこのスレッドも指しますが、これは複数の変数/因子に関するものです）。それがバイナリ応答を持つ単一の因子（つまり、他の変数を制御する必要がない）の場合、ロジスティック回帰を行う目的の違いは何ですか？

10 logistic chi-squared logit contingency-tables

3

G検定とピアソンのカイ2乗検定

分割表で独立性をテストしています。G検定とピアソンのカイ2乗検定のどちらが良いかわかりません。サンプルサイズは数百ですが、いくつかの低い細胞数があります。ウィキペディアのページで述べたように、カイ二乗分布の近似は、ピアソンのカイ二乗検定よりもG検定の方が優れています。しかし、モンテカルロシミュレーションを使用してp値を計算しているので、これら2つのテストの間に違いはありますか？N× MN×MN \times M

10 chi-squared p-value monte-carlo contingency-tables

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

分布の等価性のカイ2乗検定：許容されるゼロの数はいくつですか？

21の異なる表現型のうち1つしか持つことができない変異体の2つのグループを比較しています。これらの結果の分布が2つのグループ間で類似しているかどうかを確認します。「分布の等値のカイ2乗検定」を計算し、いくつかのもっともらしい結果を与えるオンライン検定を見つけました。ただし、この表にはかなりの数のゼロがあるため、この場合はカイ二乗を使用できますか？次の表は、2つのグループと特定の表現型の数を示しています。 2 1 2 3 1 6 1 4 13 77 7 27 0 1 0 4 0 2 2 7 2 3 1 5 1 9 2 6 0 3 3 0 1 3 0 3 1 0 1 2 0 1

10 distributions chi-squared contingency-tables

1

コクランマンテルヘンツェル検定の解釈方法は？

Cで層化された2つの変数AとBの独立性をテストしています。AとBはバイナリ変数で、Cはカテゴリカル（5つの値）です。AとB（すべての階層を組み合わせたもの）に対するフィッシャーの正確検定を実行すると、次の結果が得られます。 ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * ここで、ORはオッズ比（推定および95％信頼区間）であり*、p <0.05であることを意味します。各ストラタム（C）に対して同じテストを実行すると、次のようになります。 C=1, OR: 2.31 (0.78 -- 6.13), p = 0.0815 C=2, OR: 2.75 (1.21 -- 6.15), p = 0.0088 * C=3, OR: 0.94 (0.50 …

10 categorical-data interpretation inference contingency-tables fishers-exact

1

Rのフィッシャーテスト

次のデータセットがあるとします。 Men Women Dieting 10 30 Non-dieting 5 60 私がフィッシャーの正確検定をRで実行する場合、何をalternative = greater（またはそれ以下）意味しますか？例えば： mat = matrix(c(10,5,30,60), 2,2) fisher.test(mat, alternative="greater") 私が得るp-value = 0.01588とodds ratio = 3.943534。また、次のように分割表の行を反転すると、 mat = matrix(c(5,10,60,30), 2, 2) fisher.test(mat, alternative="greater") その後、私が得るp-value = 0.9967とodds ratio = 0.2535796。しかし、代替引数なしで2つの分割表（つまり、fisher.test(mat)）を実行すると、が得られますp-value = 0.02063。その理由を教えていただけませんか。また、上記の場合の帰無仮説と対立仮説は何ですか？次のような分割表でフィッシャーテストを実行できますか？ mat = matrix(c(5000,10000,69999,39999), 2, 2) PS：私は統計学者ではありません。私はあなたの助け（簡単な英語での回答）が高く評価されるように統計を学ぼうとしています。

10 r statistical-significance contingency-tables fishers-exact

1

テーブルに対してフィッシャーの厳密検定とロジスティック回帰を使用した場合の違いは何ですか？

以下のために台、テーブルの上に推論を行うには、2つの方法はまた、フィッシャーの正確確率検定とロジスティック回帰を介して行われます。2 × 22×22 \times 2 フィッシャーの厳密検定を使用すると、私たちは関連の存在にのみ関心があると言われました。しかし、ロジスティック回帰では、関連の大きさに関心があります。しかし、その理由はわかりません。たとえば、Rで行われるフィッシャーの正確検定では、信頼区間でオッズ比が返されますが、ロジスティック回帰では切片と勾配が返されます。どちらも対数オッズと対数オッズに対応しています。比。私の質問は、ロジスティック回帰が関連性の大きさをどこにもたらすかです。係数内にあると想定していますが、これは対数オッズ比であり、フィッシャーの正確検定でも同様です。違いは何ですか？β1β1\beta_1

10 regression logistic inference contingency-tables fishers-exact

4

対応のあるデータに対するフィッシャーの正確検定

肺がんのケースと一致したコントロール（肺がんなし）を考えます（年齢、性別などに基づく一致）。肺がんに対する喫煙の影響の証拠を見つけるために、分割表でフィッシャーの正確確率検定を使用しました。ただし、これは、コントロールとケースが一致したことを考慮していません。 40404040404040 それで、2つのグループ間の一致を考慮に入れるフィッシャーの正確検定を使用する方法があるかどうか疑問に思いましたか？

9 contingency-tables fishers-exact paired-data mcnemar-test

2

分割表のベイジアン分析：効果サイズの記述方法

私は、KruschkeのDoing Bayesian Data Analysisの例、特にch。のポアソン指数ANOVAに取り組んでいます。22、彼は分割表の独立性の頻出カイ二乗検定の代替として提示します。変数が独立している場合（つまり、HDIがゼロを除外する場合）に予想されるよりも多かれ少なかれ頻繁に発生する相互作用に関する情報を取得する方法を確認できます。私の質問は、このフレームワークでエフェクトサイズをどのように計算または解釈できるかです。たとえば、クルシュケは「青い目と黒い髪の組み合わせは、目の色と髪の色が独立している場合に予想されるよりも頻度が低い」と書いていますが、その関連付けの強さをどのように説明できますか？どの相互作用が他の相互作用よりも極端かを知るにはどうすればよいですか？これらのデータのカイ2乗検定を行った場合、全体的な効果の大きさの尺度としてCramérのVを計算できます。このベイジアンコンテキストでエフェクトサイズを表現するにはどうすればよいですか？これは、本からの自己完結型の例です（でコード化R）。答えがはっきり見えて私から隠されている場合に備えて... df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond", "Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel"))) df Blue Brown Green Hazel Black 20 68 5 15 Blond …

9 r bayesian effect-size contingency-tables

2

カテゴリー名義変数間のカテゴリー間の相関

2つのカテゴリー名義変数（両方とも5つのカテゴリー）を持つデータセットがあります。これらの2つの変数からカテゴリ間の潜在的な相関関係を特定できるかどうか（およびその方法）を知りたいのですが。言い換えると、たとえば変数1のカテゴリの結果が変数2の特定のカテゴリと強い相関を示すかどうか。5つのカテゴリを持つ2つの変数があるため、すべてのカテゴリの相関分析の合計は25の結果になります。（少なくともそれが私が望むように/期待するように機能する場合）iiijjj 私は問題を具体的な質問に定式化しようとしました：質問1：カテゴリ変数を値（カテゴリ）ごとに5つの異なるダミー変数に転送するとします。これと同じ手順を2番目の変数に対しても実行します。次に、ダミーの1.iと2.i（たとえば）の相関関係を調べたいと思います。通常の相関係数手順を使用してこの手順を実行するのは統計的に正しいですか？この手順から得られる相関係数は、2つのダミー変数間の相関関係について適切な洞察を提供しますか？質問2：質問1で説明されている手順が有効な手順である場合、この分析を2つ（またはそれ以上）のカテゴリ名義変数のすべてのカテゴリに対して一度に実行する方法はありますか？私が使用しているプログラムはSPSS（20）です。

9 correlation residuals contingency-tables categorical-data

1

2x2テーブルのセルをファイ係数と限界確率で表現する方法

周波数の典型的な2x2テーブルを考えます（この画像に示されています）。表記：行変数はRで表され、値0または1をとります。列変数はCで表され、値0または1をとります。表のセルは、RとCの各組み合わせの頻度を示します。たとえば、bはR = 0およびC = 1の頻度です。私の質問の目的のために、セルの数が合計で除算され、セルの値がセルの結合確率であると仮定します。 bbb Iは、の点で細胞確率表現したいPHI係数（以下に提供式との相関の測度である）と周辺確率及び μ C ≡ P （CμR≡p(R=1)=c+dμR≡p(R=1)=c+d\mu_R\equiv p(R\!=\!1) = c+dです。つまり、次の4つの方程式系を反転させます。ϕμC≡p(C=1)=b+dμC≡p(C=1)=b+d\mu_C\equiv p(C\!=\!1) = b+dϕμRμC1≡(ad−bc)/(a+b)(c+d)(a+c)(b+d)−−−−−−−−−−−−−−−−−−−−−−√=c+d=b+d=a+b+c+d(by defn)(by defn)(by defn)(constraint)(by defn)ϕ≡(ad−bc)/(a+b)(c+d)(a+c)(b+d)(by defn)μR=c+d(by defn)μC=b+d(constraint)1=a+b+c+d\begin{align} \phi &\equiv (ad-bc)/\sqrt{(a+b)(c+d)(a+c)(b+d)} \tag{by defn}\\ \mu_{R} &= c+d \tag{by defn}\\ \mu_{C} &= b+d \tag{by defn}\\ 1 &= a+b+c+d \tag{constraint} \end{align} と、もちろん、0≤a,b,c,d≤10≤a,b,c,d≤10 \le a,b,c,d \le 1。換言すれば、私は、を解くためにたい、B、C、及びDの点でφ、μ …

8 contingency-tables simultaneous-equation

タグ付けされた質問 「contingency-tables」

タグ付けされた質問「contingency-tables」