私は、単純なA / Bテストを扱うときに特定のテストアプローチを選択することで、推論を理解しようとしています(つまり、バイナリレスポン(変換済みまたは未変換)の2つのバリエーション/グループ。例として、以下のデータを使用します)
Version Visits Conversions
A 2069 188
B 1826 220
トップの答えはここには素晴らしいであり、z、tとカイ二乗検定のための基礎となる仮定のいくつかについて話しています。しかし、私が混乱しているのは、さまざまなオンラインリソースがさまざまなアプローチを引用することであり、基本的なA / Bテストの仮定はほぼ同じであると思うでしょうか?
- このペーパーは、t test(p 152)を参照しています。
それでは、これらのさまざまなアプローチを支持して、どのような議論ができるのでしょうか?なぜ好みがありますか?
もう1つの候補を投入するには、上記の表を2x2分割表として書き直します。フィッシャーの正確確率検定(p5)を使用できます
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
しかし、このスレッドフィッシャーの正確なテストによると、より小さいサンプルサイズでのみ使用する必要があります(カットオフは何ですか?)
そして、tとzのテスト、fテスト(およびロジスティック回帰がありますが、今のところは省略します)があります...私はさまざまなテストアプローチにdrれているように感じていますこの単純なA / Bテストケースのさまざまなメソッドに対して、ある種の引数を作成します。
サンプルデータを使用して、次のp値を取得しています
https://vwo.com/ab-split-test-significance-calculator/は0.001のp値(zスコア)を提供します
http://www.evanmiller.org/ab-testing/chi-squared.html(カイ二乗検定を使用)は、0.00259のp値を与えます
そして、R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
では0.002785305のp値を与える
かなり近いと思います...
とにかく、通常はサンプルサイズが数千であり、回答率が10%以下であるオンラインテストで使用する方法について、健全な議論を期待しています。私の腸はカイ二乗を使用するように私に言っていますが、私はそれを他の多くの方法よりも選択している理由を正確に答えたいと思っています。