実験を再実行してWeb A / Bテストを検証します-これは有効ですか?


11

先日、A / Bテスト会社によるウェビナーで、居住者の「データサイエンティスト」に、実験を再実行して結果を検証する必要があることを説明してもらいました。前提として、95%の信頼度を選択した場合、誤検知の可能性は5%(1/20)です。同じ制約で実験を再実行すると、1/400になります(これは0.05 ^ 2 = 1/400と決定したと仮定しています)

これは有効な発言ですか?(つまり、「2回実行すると、2つの統計的有意性の勝利=偽陽性の1/400の確率」)?それはあなたの有意水準を上げるためのより良いアプローチだったでしょうか?

ビジネスの観点から、私が懸念しているのは、実験を再実行することです。つまり、より多くのユーザーを劣ったページ(処理)にさらし、潜在的な売り上げを失うことになります。


2
こんにちはジョン、Stats.SEへようこそ!どちらかの回答に満足している場合は、いずれかを受け入れるか、探しているものについてより明確な質問を提供する必要があります。
クリストファーアデン

ジョン、私は本当の問題は文脈に関係していると思います。人々が一度に1つのことだけを学習することにリソースを費やすことはまれです。正当な理由で、データを最大限に活用したいと考えています。つまり、各データセットは複数のテストに使用されます。さらに、テストは事後的なものである場合もあります。データに見られるパターンに触発されたものです。そのような場合、テストは実際に望ましい95%(またはそれ以上)の信頼性を持たず、複製が不可欠です。では、「実験」とは正確にはどういう意味ですか?答えはその細部にかかっています!
whuber

実験の繰り返しと有意性の値については、次のXKCDコミックを確認してください:xkcd.com/882 それを読んだ後、上のwhuberコメントを確認してください。
Lucas Gallindo 14年

whuber:詳細がわからないので申し訳ありませんが、私はWebサイトの最適化を参照しているので、例として、私のホームページの2つのバージョンを試し、それぞれにユーザーを50/50に分割します。
John

回答:


3

当面は誤検知の確率を無視して、次のように考えます。

  1. 実験を2回実行して同じ結果が得られた場合、2つの真陽性結果または2つの偽陽性結果が連続していたかどうかはわかりません。
  2. 実験を2回実行して2つの異なる結果が得られた場合、どちらが真陽性でどちらが偽陽性の結果であるかはわかりません。

どちらの場合も、念のため、3番目の実験を実行する必要があります。これは、比較的安価な実験では問題ないかもしれませんが、コストが潜在的に高い(顧客を失うような)場合は、本当にメリットを考慮する必要があります。

確率を見ると、初めて実験を実行するとき、偽陽性の可能性は1/20です。2回目の実験を実行するときは、まだ 1/20の確率で偽陽性が発生します(各サイコロが特定の数を取得する1/6の確率でサイコロを振ると考えてください)。1/400の確率で2つの誤検知が続けて発生します。

本当の問題は、厳格な手順で明確に定義された仮説を立て、サンプルサイズ、エラーのレベル、および余裕のある信頼できる間隔を持つことです。実験の繰り返しは探索に任せるべき

  1. 時間をかけて顧客
  2. 組織による変更
  3. 競争によって行われた変更

2番目の推測結果ではなく。これをマネージャーに説明することは言うより簡単です。


mjc、コメントに感謝します-これはまさに私が探していたものです。
John

2

ええ、あなたの実験が理想的であると仮定して、そのステートメントは正しいです。しかし、理想的な実験を行うことは、この感情が信用を与えるよりもはるかに困難です。「実世界」のデータは乱雑で複雑であり、そもそも解釈が困難です。欠陥のある分析、隠れた変数(めったに「同じ制約」が存在することはほとんどありません)、または仕事をしているデータサイエンティストと彼らがしているマーキングエグゼクティブの間の誤コミュニケーションの途方もない余地があります。

ビジネスの観点からは、優れた方法論を確保し、結果に自信が持てないようにします。あなたが考えるよりもトリッキーな挑戦。それらを取得したら、その5%に取り組みます。


ありがとう、それが最初の質問に答えます。2番目の質問についてはどうですか:「あなたの有意水準を上げるためのより良いアプローチでしょうか?」Rでクイックシミュレーションを実行するだけで(同じ効果のサイズとパワーを維持し、有意性の値のみを変更)、95%の有意性で2X実験を実行するのではなく、97.5%の有意性を選択するだけで、最大4.8%少ないデータを収集できます。明確にする必要があります。「もっと良かったのではないか」と質問した場合、収集するデータを少なくすることで同じ最終結果を達成できるでしょうか。
John
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.