タグ付けされた質問 「fishers-exact」

分割表の仮説検定。

2
最近のコンピューターの能力を考えると、フィッシャーの正確なテストではなくカイ2乗テストを行う理由はありますか?
ソフトウェアがフィッシャーの正確なテスト計算を非常に簡単に行えるようになったことを考えると、理論的または実用的に、カイ2乗テストがフィッシャーの正確なテストよりも実際に望ましい状況はありますか? フィッシャーの正確なテストの利点は次のとおりです。 2x2より大きい分割表(つまり、任意のr x c表)へのスケーリング 正確なp値を与える 有効な最小予想セル数を持つ必要はありません

2
A / Bテスト:z検定対t検定対カイ二乗対フィッシャーの正確な検定
私は、単純なA / Bテストを扱うときに特定のテストアプローチを選択することで、推論を理解しようとしています(つまり、バイナリレスポン(変換済みまたは未変換)の2つのバリエーション/グループ。例として、以下のデータを使用します) Version Visits Conversions A 2069 188 B 1826 220 トップの答えはここには素晴らしいであり、z、tとカイ二乗検定のための基礎となる仮定のいくつかについて話しています。しかし、私が混乱しているのは、さまざまなオンラインリソースがさまざまなアプローチを引用することであり、基本的なA / Bテストの仮定はほぼ同じであると思うでしょうか? たとえば、この記事ではz-scoreを使用します。 この記事では、次の式を使用します(zscoreの計算と異なるかどうかはわかりません)。 このペーパーは、t test(p 152)を参照しています。 それでは、これらのさまざまなアプローチを支持して、どのような議論ができるのでしょうか?なぜ好みがありますか? もう1つの候補を投入するには、上記の表を2x2分割表として書き直します。フィッシャーの正確確率検定(p5)を使用できます Non converters Converters Row Total Version A 1881 188 2069 Versions B 1606 220 1826 Column Total 3487 408 3895 しかし、このスレッドフィッシャーの正確なテストによると、より小さいサンプルサイズでのみ使用する必要があります(カットオフは何ですか?) そして、tとzのテスト、fテスト(およびロジスティック回帰がありますが、今のところは省略します)があります...私はさまざまなテストアプローチにdrれているように感じていますこの単純なA / Bテストケースのさまざまなメソッドに対して、ある種の引数を作成します。 サンプルデータを使用して、次のp値を取得しています https://vwo.com/ab-split-test-significance-calculator/は0.001のp値(zスコア)を提供します http://www.evanmiller.org/ab-testing/chi-squared.html(カイ二乗検定を使用)は、0.00259のp値を与えます そして、R …

4
2x2より大きい分割表でのフィッシャーの正確検定
2x2の分割表にのみFisherの正確検定を適用するように教えられました。 質問: フィッシャー自身がこのテストを2x2より大きいテーブルで使用することを想像していました(私は彼がテストを考案している間に、老婦人がミルクがお茶に追加されたのか、お茶がミルクに追加されたのかを推測しようとしていたのを知っています) Stataを使用すると、Fisherの正確なテストを任意の分割表に使用できます。これは有効ですか? 分割表の予想セル数が5未満の場合、FETを使用することをお勧めしますか?

3
フィッシャーの正確なテストについて:女性がミルクファーストカップの数を知らなければ、どのテストが適切だっただろうか?
RA Fisherによる有名なレディテイスティングティーの実験では、ミルクファースト/ティーファーストカップの数が知らされます(8カップのうち4カップ)。これは、フィッシャーの正確検定の固定限界総仮定を尊重します。 私は友人とこのテストを行うことを想像していましたが、その考えに衝撃を受けました。女性がミルクファーストカップとティーファーストカップの違いを本当に理解できれば、ミルクファースト/ティーファーストカップの限界合計と、どのカップがどれであるかを把握できるはずです。 そこで質問は次のとおりです。RAFisherがミルクファーストカップとティーファーストカップの合計数を女性に通知していなかった場合、どのテストを使用できたでしょうか。


1
フィッシャーの正確確率検定は不均一なp値を与える
シミュレートされた遺伝学の問題にフィッシャーの正確確率検定を適用しようとしていますが、p値が右に歪んでいるようです。生物学者である私は、すべての統計学者にとって明らかなものを見逃しているだけだと思います。 私のセットアップはこれです:(セットアップ1、限界は固定されていません) 0と1の2つのサンプルがRでランダムに生成されます。各サンプルn = 500、サンプリング0と1の確率は等しいです。次に、各サンプルの0/1の割合をフィッシャーの正確確率検定と比較します(ちょうどfisher.test;他のソフトウェアでも同様の結果を試しました)。サンプリングとテストは30 000回繰り返されます。結果のp値は次のように分布します。 すべてのp値の平均は約0.55、0.0577の5パーセンタイルです。右側の分布も不連続に見えます。 私はできる限りすべてを読んでいますが、この動作が正常であるという兆候は見つかりません-一方、これは単なるシミュレーションデータであるため、バイアスの原因がわかりません。見逃した調整はありますか?サンプルサイズが小さすぎる?それとも、均一に分布されているとは限らず、p値の解釈が異なるのでしょうか。 または、これを100万回繰り返し、0.05分位点を見つけて、これを実際のデータに適用するときの有意差カットオフとして使用する必要がありますか? ありがとう! 更新: マイケルMは0と1の限界値を修正することを提案しました。p値はより良い分布を与えます-残念ながら、それは均一ではなく、私が認識している他の形状でもありません。 実際のRコードを追加する:(設定2、辺縁を修正) samples=c(rep(1,500),rep(2,500)) alleles=c(rep(0,500),rep(1,500)) p=NULL for(i in 1:30000){ alleles=sample(alleles) p[i]=fisher.test(samples,alleles)$p.value } hist(p,breaks=50,col="grey",xlab="p-values",main="") 最終編集: whuberがコメントで指摘しているように、ビニングのために領域が歪んで見えるだけです。セットアップ1(自由限界)とセットアップ2(固定限界)のQQプロットを添付しています。以下のグレンのシミュレーションでも同様のプロットが見られ、これらすべての結果は実際にはかなり均一に見えます。助けてくれてありがとう!

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

2
遺伝子重複レベルによる濃縮分析
生物学的背景 時間の経過とともに、一部の植物種はゲノム全体を複製して、各遺伝子の追加のコピーを取得する傾向があります。このセットアップが不安定なため、これらの遺伝子の多くは削除され、ゲノムは再配置されて安定し、再び複製できるようになります。これらの複製イベントは、種分化および侵入イベントに関連付けられており、理論は、複製が植物の新しい環境への迅速な適応を支援するというものです。 顕花植物の属であるルピナスは、これまでに検出された最も迅速な種分化イベントの1つでアンデスに侵入しました。さらに、最も密接に関連する属であるバプティシアよりも、ゲノムに重複コピーが多いようです。 そして今、数学的問題: ルピナスのメンバーとバプティシアのメンバーのゲノムが配列決定され、各種の約25,000遺伝子の生データが提供されています。既知の機能を持つ遺伝子のデータベースに対してクエリを実行することで、その遺伝子が実行する機能を「推測」できるようになりました。たとえば、Gene1298は「フルクトース代謝、塩ストレス応答、低温ストレス応答」に関連付けられている可能性があります。バプティシアとルピナスの間に重複イベントがあったかどうか、遺伝子の喪失がランダムに起こったかどうか、または特定の機能を実行する遺伝子が維持または削除される可能性が高かったかどうかを知りたいです。 以下のようなテーブルを出力するスクリプトがあります。L *は、機能に関連するすべてのルピナス遺伝子の数です。L 1+は、少なくとも1つの重複コピーが存在する機能に関連するルピナス遺伝子の数です。L 2 +、L 3+などを生成することができますが、L 1+はシーケンス処理のため、L 2+よりもはるかに信頼性の高いグループです。 Function | L * | L 1+ | B * | B 1+ | fructose metabolism | 1000 | 994 | 1290 | 876 | salt stress | 56 | 45 | 90 | 54 | etc. …

2
フィッシャーの正確確率検定はどの分布を想定していますか?
私の仕事では、フィッシャーの正確確率検定のいくつかの使用法を見てきましたが、それが自分のデータにどれだけうまく適合するかと思っていました。いくつかの情報源を見て、統計の計算方法を理解しましたが、仮定された帰無仮説の明確で正式な説明を見たことはありません。 誰かが私に仮定された分布の正式な説明を説明したり参照したりできますか?分割表の値に関する説明に感謝します。

1
クロステーブル分析のどのテスト:BoschlooまたはBarnard?
30人の患者の小さなデータセットから2x2テーブルを分析しています。私たちは、どの治療法を選ぶべきかについてのヒントを与えるいくつかの変数を遡及的に見つけようとしています。変数(obs normal / strange)と処理決定(A / B)は特に興味深いので、データは次のようになります。 Obs/Tr. Dec.normalstrangeA12012B1351825530Obs/Tr. Dec.ABnormal121325strange055121830\begin{array} {|r|r|r|r|} \hline \text{Obs/Tr. Dec.} &\text{A} &\text{B}\\ \hline \text{normal} &12 &13 &25\\ \hline \text{strange} &0 &5 &5\\ \hline &12 &18 &30\\ \hline \hline \end{array} 明らかに、1つのセルは、カイ2乗検定を除外するエントリに欠けており、フィッシャーの正確確率検定は飽和p値を与えません(ただし、まだ<10%)。したがって、私の最初のアイデアは、より強力なテストを見つけることでした。私はブログを読んで おり、この記事では、バーナードのテストとボクロスのテストについて、一般に、強力なテストにつながる3つのシナリオがあります。 列と行の合計を修正フィッシャーの正確確率検定→→\rightarrow 列または(xclusive)行合計が固定 Barnardの正確検定→→\rightarrow 何も修正されていない Boschloosの正確な検定→→\rightarrow 上記の記事は、治療Aと治療Bの合計が以前にほとんど知られていないため、フィッシャーの正確確率検定を除外できることを指摘しました。しかし、他の選択肢はどうですか?正常なコントロールがある場合のコントロールでは、コントロールできる数のプラセボとverumグループをコントロールできるため、2を選択します:Barnard。私の場合、私にはわかりません。一方で、同様の数学的な問題(プラセボ/バームの合計に等しい観測レベルの合計)があるため、バーナードにつながりますが、デザインを変えることができません。 nr。3につながるサンプルを取得する前の観察の正常/奇妙さ:Boschloo。 それでは、どのテストを使用する必要がありますか。その理由は何ですか。もちろんハイパワーが欲しいです。 (私が知りたいもう1つの質問はchisq.test、rの場合に使用する方が良いprop.test(x, alternative = "greater")かどうかです。理論的な側面については、ここで説明します。)

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
コクランマンテルヘンツェル検定の解釈方法は?
Cで層化された2つの変数AとBの独立性をテストしています。AとBはバイナリ変数で、Cはカテゴリカル(5つの値)です。AとB(すべての階層を組み合わせたもの)に対するフィッシャーの正確検定を実行すると、次の結果が得られます。 ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * ここで、ORはオッズ比(推定および95%信頼区間)であり*、p <0.05であることを意味します。 各ストラタム(C)に対して同じテストを実行すると、次のようになります。 C=1, OR: 2.31 (0.78 -- 6.13), p = 0.0815 C=2, OR: 2.75 (1.21 -- 6.15), p = 0.0088 * C=3, OR: 0.94 (0.50 …

3
母集団のr二乗変化の信頼区間を取得する方法
簡単な例のために、2つの線形回帰モデルがあると仮定します モデル1は、3つの予測因子を持っているx1a、x2bと、x2c モデル2には、モデル1からの3つの予測子と2つの追加の予測子がx2aあり、x2b 母集団の分散が説明人口回帰式がある モデル1及びρ 2 (2 )増分分散がある集団におけるモデル2によって説明するモデル2についてΔは、ρ 2 = ρ 2 (2 ) - ρ 2 (1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 私は、の推定のための標準誤差と信頼区間を得ることに興味を持ってい。例にはそれぞれ3および2の予測子が含まれていますが、私の研究対象は、さまざまな数の予測子(たとえば、5および30)に関係しています。私が最初に考えたのは使用していた Δ R 2 、A D J = R 2 のD J (2 ) - R 2 次元J (1 )推定量として、それをブートストラップが、私は確かに、これは適切であるかどうかではなかったです。Δρ2Δρ2\Delta\rho^2Δr2adj=r2adj(2)−r2adj(1)Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)} ご質問 されたの合理的な推定量Δは、ρ …

1
Rのフィッシャーテスト
次のデータセットがあるとします。 Men Women Dieting 10 30 Non-dieting 5 60 私がフィッシャーの正確検定をRで実行する場合、何をalternative = greater(またはそれ以下)意味しますか?例えば: mat = matrix(c(10,5,30,60), 2,2) fisher.test(mat, alternative="greater") 私が得るp-value = 0.01588とodds ratio = 3.943534。また、次のように分割表の行を反転すると、 mat = matrix(c(5,10,60,30), 2, 2) fisher.test(mat, alternative="greater") その後、私が得るp-value = 0.9967とodds ratio = 0.2535796。しかし、代替引数なしで2つの分割表(つまり、fisher.test(mat))を実行すると、が得られますp-value = 0.02063。 その理由を教えていただけませんか。 また、上記の場合の帰無仮説と対立仮説は何ですか? 次のような分割表でフィッシャーテストを実行できますか? mat = matrix(c(5000,10000,69999,39999), 2, 2) PS:私は統計学者ではありません。私はあなたの助け(簡単な英語での回答)が高く評価されるように統計を学ぼうとしています。

1
テーブルに対してフィッシャーの厳密検定とロジスティック回帰を使用した場合の違いは何ですか?
以下のために台、テーブルの上に推論を行うには、2つの方法はまた、フィッシャーの正確確率検定とロジスティック回帰を介して行われます。2 × 22×22 \times 2 フィッシャーの厳密検定を使用すると、私たちは関連の存在にのみ関心があると言われました。しかし、ロジスティック回帰では、関連の大きさに関心があります。 しかし、その理由はわかりません。たとえば、Rで行われるフィッシャーの正確検定では、信頼区間でオッズ比が返されますが、ロジスティック回帰では切片と勾配が返されます。どちらも対数オッズと対数オッズに対応しています。比。 私の質問は、ロジスティック回帰が関連性の大きさをどこにもたらすかです。係数内にあると想定していますが、これは対数オッズ比であり、フィッシャーの正確検定でも同様です。違いは何ですか?β1β1\beta_1

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.