A / Bテストのサンプルサイズを安全に決定する


22

私は、A / Bテストツールの構築を検討しているソフトウェアエンジニアです。統計のバックグラウンドはしっかりしていませんが、ここ数日間はかなりの読書をしています。

ここで説明する方法論に従い、関連するポイントを以下にまとめます。

このツールにより、デザイナーとドメインエキスパートは、特定のURLで受信したトラフィックを2つ以上のURLに分割するようにWebサイトを構成できます。たとえば、http://example.com/hello1に到着するトラフィックは、http://example.com/hello1http://example.com/hello2に分割できます。トラフィックはターゲットURL間で均等に分割され、各ターゲットURLでのマーケティングプロセスのパフォーマンスが比較されます。

この実験では、サンプルサイズNは訪問者に対応します。このテストでは、訪問者がマーケティングプロセスで特定のアクションをいつ実行するかを表す用語である「コンバージョン」を測定します。コンバージョンはパーセンテージで表され、より高いコンバージョン率が望まれます。これにより、テストは独立した比率の比較になります。このツールは、安全な結果のテストを作成するために簡単に使用できる必要があります。の適切な値を選択することNが重要です。

上記のリンクされた記事では、2つの独立した比率の検出力分析を使用してを見つけていますN。この方法では、コントロールの変換率を事前に把握し、目標とする変換改善を指定する必要があります。また、有意水準95%および統計的検出力80%を指定します。

質問:

  1. N音を決定するこの方法はありますか?その場合、テストを開始する前にコントロールの変換率を決定する最も安全な方法は何ですか?
  2. Nコントロールの変換率を事前に知る必要のない適切な判断方法はありますか?
  3. リンクされた記事の方法論は適切ですか?そうでない場合、私にリンクできるアクセス可能な簡単に消化できる方法はありますか?

回答:


12

この種のテストを行うための最も一般的な方法は、二項比例信頼区間を使用することです(http://bit.ly/fa2K7Bを参照)

2つのパスの「真の」変換率を知ることはできませんが、これにより、「99%の信頼で、AはBよりも変換に効果的です」という効果が得られます。

例:パスAで1000回の試行を実行したと仮定します。これらの1000回の試行のうち、121回が成功した変換(変換率0.121)であり、この0.121の結果の99%信頼区間が必要です。99%信頼区間のためのZスコアはそれほど式に従って、(あなただけのテーブルで、このアップを見て)2.576である だから、99%の信頼度で、私たちは言うことができる0.094 P0.148 pはプロセスAの「真」の変換率であります

p^±2.5760.12110.1211000p^±0.027
0.094p^0.148p^

プロセスBに同様の間隔を作成すると、間隔を比較できます。間隔が重ならない場合、98%の信頼度で一方が他方より優れていると言えます。(各区間について確信しているのは99%だけなので、比較に関する全体的な確信は0.99 * 0.99です)

NN

幸運を祈ります。(ところで、プロセスBを応援しています)。


2
@ronnyサイトへようこそ。ここは初めてなので、よくある質問をご覧ください。とりわけ、このサイトはサポートしていますLATEバツp^

p^0.094p^0.148sucessestrialsp^p

この答えは間違っています。具体的には、「間隔が重ならない場合、98%の信頼度で一方が他方より優れていると言うことができます」が間違っています。2つの非重複99%信頼区間が与えられた場合、少なくとも99%のように差が0を除外するという信頼。間隔が同じサイズの場合、その差は99.97%レベルで顕著です。stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan

@Bscanあなたのコメントは他の値にも当てはまりますか?たとえば、同じサイズの30%の非重複信頼区間が2つある場合、平均の差は少なくとも30%であると言うことは正しいですか(称賛によると)?
フェリペアルメイダ

1
@Felipe、はい、コメントはすべての値に対して保持され、重複しない30%信頼区間は、差が0を除外するという信頼が少なくとも30%であることを意味します。ただし、これは平均が30%異なるという意味ではありません。真の手段は非常に似ているかもしれません。それらがまったく同じではないことを証明しようとしています。
Bscan

8

私見、それが行く限り、ポストは正しい方向に行く。しかしながら:

  • 提案された方法は、ベースライン変換率と予想される変化量の2つの仮定を暗黙的に行います。サンプルサイズは、これらの仮定をどの程度満たしているかに大きく依存します。現実的だと思われるp1とp2のいくつかの組み合わせについて、必要なサンプルサイズを計算することをお勧めします。これにより、サンプルサイズの計算が実際にどれだけ信頼できるかがわかります。

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    したがって、実際の変換率が10%ではなく9%の場合、新しいフォームの10%を超える変換率を検出するには、シナリオごとに別の2000ケースが必要です。

テストが完了したら、実際の観測に基づいて比率の信頼区間を計算できます。

  • n
    nsig.level

こんにちは、これらの方法を批評するために時間を割いてくれてありがとう。(1-α)²≈10%の計算では、「α」とは何を指しますか?テストデータのキャプチャには長い時間がかかるため、3つの比率をテストする場合、この実験をどのように構築することを提案しますか。複数のテストを実行することを伴わない安全な方法はありますか?3つの選択肢がある場合、3つのテストはそれほど負担になりませんが、4つの選択肢がある場合、組み合わせの数は最大6つになります。
jkndrkn

1
@jkndrkn:αは、元の形式(別名αエラーまたはタイプIエラー)から誤って変更される確率です。更新された回答を参照してください。
cbeleitesは

1
@jkndrkn:複数のテスト:Fleiss et.al .:このようなテストの手順についてのレートと割合の統計的方法をご覧ください。ただし、このような複数のテストのキーポイントは、テストを定義する前に、専門知識を使用して代替の数を可能な限り削減することです(必要なサンプルサイズは代替の数とともに爆発するため)(既にわかっています)。
cbeleitesは、モニカをサポートします

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.