G検定とt検定の違い、およびA / B検定にはどちらを使用すべきですか?


8

G-試験はカイ二乗分布の迅速な推定値を取得する方法であって、著者によって推奨され、このよく知られたA / Bテストのチュートリアル

このツールは正規分布を想定し、平均の差を使用して信頼度を計算します。

GテストとTテストの違いは何ですか?A / Bテストの有効性を測定するために各方法を使用することの利点または欠点は何ですか?

私は、A / Bテストフレームワークの結果を測定するために使用する必要があるものを見つけようとしています。私たちのフレームワークには2つの一般的な使用例があります。訪問者のグループを均等に分割し、それぞれに異なる機能を示し、他のページ(たとえば、サインアップページ)でコンバージョンを測定します。訪問者のグループをテストのためにコントロールグループ(90%)と実験グループ(10%)に分け、他のページでコンバージョンを測定します。

私たちのウェブサイトは1日あたり1000から200,000の訪問を取得します(あまり変化しない実際の数を隠すためにわざと漠然としています)。これらの訪問は、約300ページにわたって指数分布して分割されます。

おかげで、ケビン


4
訪問者を無作為化すること(つまり、コントロールまたは実験的処理の50:50の確率)は、実験的処理が訪問者にとってひどいことを何も行わないと仮定すると、一般的には良い設計です。また、1000〜200,000は大きな範囲です。静かな/忙しい日の訪問者が(平均して)コントロール/実験的な治療によって異なる影響を受けると考える理由はありますか?
ゲスト

こんにちは。実際の数を共有したくないので、範囲はあいまいです。日間の変動は大きくありません。
ケビン・バーク

こんにちはケビン。1つのポイントを明確にしていただけませんか。タイトルは、と違いについて尋ねています。質問を読むと、代わりに、2つのタイプのサンプル分割のどちらを使用するかに興味があるかのように読み取られます。実際、現在投稿されている1つの回答が、後者に関する質問を解釈したようです。これについて簡単に説明できますか?乾杯。tGt
枢機卿

私はGテストとTテストの違いにもっと興味があります。明確にするために質問を更新します。
ケビン・バーク

回答:


8

一般に、テスト統計を計算するのにあまり近似的でないテストの方が優れていますが、サンプルサイズが大きくなると、すべて同じ結果に収束します。

したがって、A / Bテストは一般的にバイナリ結果に焦点を当てているため、...

簡潔な答え:

近似性が低いため、G検定を使用します。

長い答え:

A / Bテストでのt検定は、サンプルサイズが等しくなく、分散が等しくない場合、2つの分布の差をt分布で近似します。2つの分布は不明である可能性がありますが、それらの平均と分散はそれを説明するのに十分であると見なされます(そうでない場合、結論はあまり役に立ちません)。これはもちろん正規分布に当てはまります。

μ=np,σ2=np(1p)np(1p)9np

つまり、要約すると、t検定を適用することは問題ありませんが、2項のケースをより一般的なケースに変換するために2つの近似が実行されます。これは、G検定や(さらに優れた)フィッシャーの正確検定は、この特別な場合に利用できます。特にサンプルサイズが20以下の場合(別の経験則)、Fisherの正確確率検定を適用する必要がありますが、これは固体のA / B検定では問題にならないと思います。


p=.9p=.1

@gung指摘してくれてありがとう、タイプミスでした。Btw:使用されているリファレンスはHartung:Statistik、Oldenbourg 14th Edition(残念ながらドイツ語でのみ利用可能)
steffen

5

あなたが参照したベン・ティリーのページは、初心者向けのA / Bテストの優れた要約です。しかし、より詳細な質問/研究設計の問題に入ると、より詳細な主要なソースを探す価値があります。Kohavi et alは、包括性と可読性の良い組み合わせであるABテストに関する独創的な論文を発表しました。私はそれを強くお勧めします:http : //exp-platform.com/Documents/GuideControlledExperiments.pdf

あなたの質問に戻って、あなた自身に尋ねるべきである本当の質問は:

  1. 結果を大幅に向上させるには、処理と制御を行うために必要なインプレッション数を教えてください。
  2. 私が心配している最小のエフェクトサイズは何ですか?コントロールよりも5%以上、または.005%優れた治療法に関心がありますか?
  3. 複数の治療の場合、治療を互いに比較するシナリオはありますか、それとも各治療をコントロールと比較するだけで十分ですか?
  4. 実験の意図しない副作用によって治療群が影響を受けないようにするために測定することが重要な変数はどれですか。コハビ紙は、Webサイトのパフォーマンスの点でこれの優れた例を示しています。治療の経験が遅く、何らかの理由(より多くの画像、別のサーバー、ダーティコード)で制御している場合、これはテストを大幅に失敗させる可能性があります。
  5. ユーザーまたはインプレッションを実験に登録する方が理にかなっていますか?言い換えると、セッション/トライアル期間中、ユーザーが常にコントロールまたは治療体験を得られるようにすることは理にかなっていますか、それとも各ページインプレッションを個別にテストに登録できますか?

これらの質問に取り組むにつれて、最終的にはテストパラメーターについての理解が深まります。ドメイン知識と組み合わせること(例えば、あなたのサイトには、あなたがのために制御したいという強い周期的なパターンを経験するかどうか)、実験にユーザーを露出させるための食欲(あなたが実際に喜んで多くのユーザーに治療経験を表示、またはあなたがむしろ含まれています潜在的な損傷)および結果を取得するための望ましい速度、この理解は、コントロールと治療の間で全体的なトラフィックを分割する方法を最終的に決定する方にあなたを導きます。

特定の質問に「依存する」と答えるのは嫌いですが、この場合、サイトと実験で何が起こっているかによります。特定の条件下では、トラフィックを50/50または90/10に分割するかどうかに大きな違いはありませんが、状況によってはこれが非常に重要になる場合があります。YMMV、しかし上で引用した論文のような良い参考文献は間違いなくあなたを正しい方向に動かします。


3
丁寧で親切な返信ありがとうございます。あなたはここに数ヶ月ここにいると思いますが、これはあなたの最初の返答なので、サイトにあなたを歓迎する良い機会のようです。時間が経つにつれ、より多くのアドバイスを提供してくれることを願っています。
whuber

4

StackExchangeポイントなどがないため、元の投稿にはコメントできませんが、p値については、ABBAは単純な正規近似ベースのZ検定を使用しませんが、ページをざっと読んで、どう思うか見てみましょう。ABBAは、サンプルサイズ100までの正確な二項統計を使用しますが、それを超えると、連続性補正を伴う通常の近似に依存します。「近似の少ない」テストと大きく異なるケースは見たことがありませんが、このようなケースに遭遇した場合は、そのようなケースを確認することに非常に興味があります。

どのような場合でも、t分布やt検定はありません。

信頼区間については、常に正常な近似に依存しますが、非常にうまく機能するAgresti-Coullメソッドを使用します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.