私は何年も前に統計を勉強しましたが、すべてを忘れてしまったので、これらは特定のものよりも一般的な概念的な質問のように思えるかもしれませんが、ここに私の問題があります。
私はUXデザイナーとしてeコマースのウェブサイトで働いています。数年前に構築されたA / Bテストフレームワークがあり、それを疑い始めています。
すべての決定を下すメトリックはコンバージョンと呼ばれ、サイトにアクセスして最終的に何かを購入するユーザーの割合に基づいています。
そこで、[購入]ボタンの色を緑から青に変更するテストを行います。
コントロールは既に持っているもので、平均コンバージョン率がわかる緑色のボタンです。実験では、緑色のボタンを青色のボタンに置き換えています。
95%の有意性が満足のいく信頼レベルであることに同意し、実験をオンにして、実行したままにします。
ユーザーがサイトにアクセスすると、舞台裏で50/50の確率でコントロールバージョン(緑色のボタン)と実験バージョン(青いボタン)に送信されます。
7日後の実験を見ると、サンプルサイズが3000(1500が対照に、1500が実験に)、統計的有意性が99.2%の実験に有利な変換で10.2%の増加が見られます。素晴らしいと思います。
実験が続行され、サンプルサイズが大きくなると、コンバージョンが+ 9%増加し、98.1%の有意性が見られます。OK、実験をもっと長く続けると、実験では統計的有意性がわずか92%でコンバージョンが5%増加するだけで、フレームワークは95%の有意性に達する前に4600個のサンプルが必要だと言っています。
実験はどの時点で決定的ですか?
事前にサンプルサイズに同意し、実験を完了すると、あらゆるメトリックが99%の重要性に10%改善するという臨床試験プロセスを考えると、その薬は市場に出るという決定が下されます。しかし、もし4000人を対象に実験を行い、どんな指標でも5%改善し、わずか92%の有意性が見られた場合、その薬は市場に出ることはできません。
事前にサンプルサイズに同意し、そのサンプルサイズに達したら停止して、実験をオフにする時点で有意性が99%だった場合に結果に満足する必要がありますか?