A / Bテスト:z検定対t検定対カイ二乗対フィッシャーの正確な検定


38

私は、単純なA / Bテストを扱うときに特定のテストアプローチを選択することで、推論を理解しようとしています(つまり、バイナリレスポン(変換済みまたは未変換)の2つのバリエーション/グループ。例として、以下のデータを使用します)

Version  Visits  Conversions
A        2069     188
B        1826     220

トップの答えはここには素晴らしいであり、z、tとカイ二乗検定のための基礎となる仮定のいくつかについて話しています。しかし、私が混乱しているのは、さまざまなオンラインリソースがさまざまなアプローチを引用することであり、基本的なA / Bテストの仮定はほぼ同じであると思うでしょうか?

  1. たとえば、この記事ではz-scoreを使用します。ここに画像の説明を入力してください
  2. この記事では、次の式を使用します(zscoreの計算と異なるかどうかはわかりません)。

ここに画像の説明を入力してください

  1. このペーパーは、t test(p 152)を参照しています。

ここに画像の説明を入力してください

それでは、これらのさまざまなアプローチを支持して、どのような議論ができるのでしょうか?なぜ好みがありますか?

もう1つの候補を投入するには、上記の表を2x2分割表として書き直します。フィッシャーの正確確率検定(p5)を使用できます

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

しかし、このスレッドフィッシャーの正確なテストによると、より小さいサンプルサイズでのみ使用する必要があります(カットオフは何ですか?)

そして、tとzのテスト、fテスト(およびロジスティック回帰がありますが、今のところは省略します)があります...私はさまざまなテストアプローチにdrれているように感じていますこの単純なA / Bテストケースのさまざまなメソッドに対して、ある種の引数を作成します。

サンプルデータを使用して、次のp値を取得しています

  1. https://vwo.com/ab-split-test-significance-calculator/は0.001のp値(zスコア)を提供します

  2. http://www.evanmiller.org/ab-testing/chi-squared.html(カイ二乗検定を使用)は、0.00259のp値を与えます

  3. そして、R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valueでは0.002785305のp値を与える

かなり近いと思います...

とにかく、通常はサンプルサイズが数千であり、回答率が10%以下であるオンラインテストで使用する方法について、健全な議論を期待しています。私の腸はカイ二乗を使用するように私に言っていますが、私はそれを他の多くの方法よりも選択している理由を正確に答えたいと思っています。


程度の -とあなたの質問はすでにここで回答され-tests:stats.stackexchange.com/questions/85804/...tzt
ティム

このデモンストレーションは非常に役立ちました。これは、比率のz検定が2x2分割表の均質性のカイ2乗検定と本質的に同等であることを示しています。rinterested.github.io/statistics/chi_square_same_as_z_test.html
yueyanw

回答:


24

これらのテストは、さまざまな理由とさまざまな状況で使用します。

  1. z z zzテスト。我々の観察は、独立して、未知の平均との正規分布から引き出されていることを前提としてい検定知ら分散。我々は定量的なデータを持っていたときに主に使用され-test。(すなわち、げっ歯類の体重、個体の年齢、収縮期血圧など)ただし、プロポーションに関心がある場合は、検定も使用できます。(つまり、少なくとも8時間睡眠をとる人の割合など)zzz

  2. t t t ztテスト。我々の観察は、独立して、未知の平均との正規分布から引き出されていることを前提としてい検定不明の分散。検定では母集団の分散がわからないことに注意してください。これは母集団の分散を知るよりもはるかに一般的であるため、一般にはよりも適切ですが、サンプルサイズが大きい場合は実際には2つの差はほとんどありません。tttz

-と -tests、あなたの対立仮説は、一つのグループのあなたの母平均(または人口の割合)がないか等しい、未満、またはそれ以上の人口の平均値(または割合)や他のグループに比べていることになります。これは、目的とする分析の種類によって異なりますが、帰無仮説と対立仮説は、2つのグループの平均/割合を直接比較します。tzt

  1. カイ二乗検定。一方、 -と -tests懸念定量的データ(またはの場合比率)、カイ二乗試験は、定性的データに適しています。繰り返しますが、仮定は、観測は互いに独立しているということです。この場合、特定の関係を求めているわけではありません。あなたの帰無仮説は、変数1と変数2の間に関係が存在しないというものです。あなたの対立仮説は、関係が存在するということです。これは、この関係がどのように存在するか(つまり、関係がどの方向に進むか)を特定するものではありませんが、独立変数とグループの間に関係が存在する(または存在しない)証拠を提供します。t zztz

  2. フィッシャーの正確検定。カイ2乗検定の1つの欠点は、漸近的であることですこれは、非常に大きなサンプルサイズに対して値が正確であることを意味します。ただし、サンプルサイズが小さい場合、値はあまり正確ではない可能性があります。そのため、Fisherの正確検定では、データの値を正確に計算でき、サンプルサイズが小さい場合に貧弱な近似に依存することはありません。p pppp

サンプルサイズについては引き続き説明します。サンプルが十分な大きさであるかどうかについては、さまざまなリファレンスでさまざまなメトリックが提供されます。信頼できるソースを見つけ、そのルールを見て、そのルールを適用して必要なテストを見つけるだけです。あなたが「好き」なルールを見つけるまで、私はいわば「買い物をしません」。

最終的に、選択するテストは、a)サンプルサイズとb)仮説をどの形式にしたいかに基づいている必要があります。A / Bテストの特定の効果(たとえば、私のBグループのテストスコアが高い)を探している場合は、保留中のサンプルサイズと母集団の知識を使用して、テストまたはテストを選択します分散。リレーションシップが単に存在することを示したい場合(たとえば、AグループとBグループは独立変数に基づいて異なりますが、どちらのグループのスコアが高いかは気にしません)、カイ2乗検定またはフィッシャーの正確検定はサンプルサイズに応じて適切。tzt

これは理にかなっていますか?お役に立てれば!


詳細な回答をありがとう!詳細に説明します。いくつか質問があります。
L XANDOR

カイ二乗およびフィッシャーの正確検定が効果の方向を示さない方法をさらに説明していただけますか?すべての推論統計テストが、2つのサンプルセットが異なる母集団から抽出されたか同じ母集団から抽出されたかについて信頼レベルを提供する場合、平均値の方向差が保持されるとは言わない数学的理論についてはどうですか(Bグループより高いスコアを持っています)?
クリスF

明確にするために、カイ2乗検定とフィッシャーの正確検定は同じことを行っていますが、p値の計算方法はわずかに異なります。(これはカイ2乗での近似値であり、フィッシャーの正確な値での正確な計算です。)カイ2乗について説明し、フィッシャーの一般化を行います。ここでの問題は前提です。「すべての推論統計テストが、2つのサンプルが引き出されるかどうかについて信頼レベルを提供する場合...」-それは、カイ2乗テストが行​​うことではありません。カイ二乗検定のための帰無仮説は...何の関連性と対立仮説がないことである
マットBrems

... 2つのカテゴリ変数間に何らかの関連があるということです。あなたは単に関連の存在をテストしているだけであり、特定の方向を事前に指定しているのではありません。(特定の関係を指定するあまり知られていない統計があるので、可能です。ただし、これはカイ2乗検定が行うように設計されたものではありません。)その後に基づいて特定の方向関係があることを推測するには関連の存在を単にテストするために設計された異なる仮説セットの下で計算されたp値は誤りです。
マットブレムス16年

H0:μ=0HA:μ0tpμμH0:μ0HA:μ>0pα=0.05μ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.