実験を開始する前にサンプルサイズを決定するか、実験を無期限に実行しますか?


12

私は何年も前に統計を勉強しましたが、すべてを忘れてしまったので、これらは特定のものよりも一般的な概念的な質問のように思えるかもしれませんが、ここに私の問題があります。

私はUXデザイナーとしてeコマースのウェブサイトで働いています。数年前に構築されたA / Bテストフレームワークがあり、それを疑い始めています。

すべての決定を下すメトリックはコンバージョンと呼ばれ、サイトにアクセスして最終的に何かを購入するユーザーの割合に基づいています。

そこで、[購入]ボタンの色を緑から青に変更するテストを行います。

コントロールは既に持っているもので、平均コンバージョン率がわかる緑色のボタンです。実験では、緑色のボタンを青色のボタンに置​​き換えています。

95%の有意性が満足のいく信頼レベルであることに同意し、実験をオンにして、実行したままにします。

ユーザーがサイトにアクセスすると、舞台裏で50/50の確率でコントロールバージョン(緑色のボタン)と実験バージョン(青いボタン)に送信されます。

7日後の実験を見ると、サンプルサイズが3000(1500が対照に、1500が実験に)、統計的有意性が99.2%の実験に有利な変換で10.2%の増加が見られます。素晴らしいと思います。

実験が続行され、サンプルサイズが大きくなると、コンバージョンが+ 9%増加し、98.1%の有意性が見られます。OK、実験をもっと長く続けると、実験では統計的有意性がわずか92%でコンバージョンが5%増加するだけで、フレームワークは95%の有意性に達する前に4600個のサンプルが必要だと言っています。

実験はどの時点で決定的ですか?

事前にサンプルサイズに同意し、実験を完了すると、あらゆるメトリックが99%の重要性に10%改善するという臨床試験プロセスを考えると、その薬は市場に出るという決定が下されます。しかし、もし4000人を対象に実験を行い、どんな指標でも5%改善し、わずか92%の有意性が見られた場合、その薬は市場に出ることはできません。

事前にサンプルサイズに同意し、そのサンプルサイズに達したら停止して、実験をオフにする時点で有意性が99%だった場合に結果に満足する必要がありますか?


1
ランキングと選択に基づいて異なるアプローチを使用することを検討してください。
pjs

この映画に出会いました(youtube.com/watch?v=fl9V0U2SGeI)。あなたの質問に正確に答えているように思えます。
ネイサン

また、研究の根底にあるものは、非常に反射的で動きが速いことであり、継続的な繰り返しテストが必要です。新しいサイト、標準、スタイルが表示されると、レイアウト、色、ボタンなどが高速で移動します。また、高レベルの組み合わせの問題(そのボタンは、背景色などを微調整して異なる結果を返す場合があります)。その結果、有意水準に関係なく、結果が非​​常に強く見えても、結果に非常に高い「真の」信頼レベルを持たせることはできません(確かに長期間ではありません)。
フィリップ

回答:


11

あなたが探しているコンセプトはシーケンシャル分析だと思います。このサイトには、おそらく有用な用語でタグ付けされた多くの質問があります。おそらく、適応シーケンシャル分析のためのp値の調整(カイ二乗検定)ですか?開始する場所になります。こちらのウィキペディアの記事もご覧ください。別の便利な検索用語はアルファ支出です。これは、繰り返し見るたびに、アルファ(重要度レベル)を使い果たしたと見なす必要があるという事実に由来しています。多重比較を考慮せずにデータを覗き続けると、質問で概説したような問題に遭遇します。


おかげで、それはいくつかの良い読書の推奨事項です。そうでなければ、何を検索すればよいのかさえ知りません。これを消費します。
テック75

5

実験はどの時点で決定的ですか?

これが思考の誤りがあるところだと思います。「因果関係を推論的に証明する」ことを意味する場合、実験が「決定的」になるポイントはありません。統計的検定を含む実験を行う場合、どの証拠が十分であると考えるかに関してコミットメントを行う必要があります。

統計的に健全な実験手順により、既知の誤検知率と誤検知率の結果が得られます。有意性のしきい値として0.05を使用する手順を選択した場合、実際に違いがない場合の5%で、テストで違いがあることがわかります。

説明した方法で手順から逸脱する場合(事前に停止点を選択せず​​、計算されたp値が0.05を下回るまでテストを実行するか、肯定的な結果が得られるまで実験全体を複数回実行する、など)、実際には違いがない場合に、テストで違いが存在することを示す可能性高めています。あなたはあなたの変更が効果的だと思うようにだまされる可能性高めています。yourselfされないでください。

このペーパーを読む:データ収集および分析における偽陽性心理学の非公開の柔軟性により、あらゆるものを重要なものとして提示できます

説明する正確なシナリオ(実験をいつ停止するかわからない)など、テスト手順を不適切に妨害して、だまされる可能性を高めるいくつかの方法を強調しています。

他の回答は、これらの問題を軽減するためのソリューションを提供します(逐次分析、多重比較のためのBonferroni補正)。しかし、これらのソリューションは、偽陽性率を制御できますが、通常、実験の能力を低下させ、差異存在する場合に差異を検出する可能性を低くます。


他にもエラーが1つあります。「どんなメトリックでも99%の重要度に10%改善する」という話をします。有意差検定では、サンプルで観測された違いが実際の根本的な違いによるものなのか、ランダムなノイズによるものなのを知ることができるだけです。違いの真の大きさについての信頼区間を提供しません。


3

ここで間違った質問をしていると思います。あなたが尋ねている質問は、統計的検定に関するものです。正しい質問は、「なぜ時間の経過とともに効果が変化するのか?」

コンバージョンのために0/1変数を測定している場合(購入しましたか?)、最初のセッションで購入しなかったユーザーが戻ってきて後で購入する可能性があります。つまり、コンバージョン率は時間とともに増加し、後の訪問ではなく最初の訪問で顧客が購入する効果は失われます。

言い換えれば、最初にあなたが測定しているものを正しくし、次にあなたがどのように測定しているのを心配ます。


3

これが、試行前に明確な基準を定義する必要があるまさにその理由です。@mdeweyが示すように、トライアルを定期的に評価する確立された方法がありますが、これらはすべて、決定に対する混乱を防ぐために明確な停止クリテロンを必要とします。2つの重要な問題は、複数の比較を修正する必要があることと、各分析が独立していないことですが、その結果は以前の分析の結果に大きく影響されます。

別の方法として、商業的に関連する引数に基づいてセットのサンプルサイズを定義することをお勧めします。

まず、企業は、商業的に関連するコンバージョン率の変化とは何かに同意する必要があります(つまり、変更を永続的に展開するための商業的主張を正当化するために必要な差の大きさ)。これに同意しなければ、賢明なベンチマークはありません。

商業的に関連する最小の効果サイズが決定されると(テストするステップの重要度に応じてケースバイケースで変化する可能性があります)、真の効果を見逃して会社が受け入れるリスクのレベルに同意します(ベータ)および偽の効果を受け入れるため(アルファ)。

これらの数値をサンプルサイズ計算機と出来上がりに接続すると、決定するサンプルサイズが設定されます。


編集

小さいサンプルサイズを使用し、十分な効果が得られることを期待することは、偽りの経済です(学術出版のために物議を醸す仮説を生成するのではなく、実行可能な信頼できる結果であるため)。偏りのないサンプリングを仮定すると、低いサンプルサイズでは、偶然すべてが反対の極端に向かうサンプルをランダムに選択する確率は、高いサンプルサイズの場合よりも高くなります。これにより、実際には差がない場合でも帰無仮説を棄却する可能性が高くなります。したがって、これは実際に実際の影響を与えていない変更を押し進めることを意味するか、さらに悪いことにわずかにマイナスの影響を与えます。これは、@ Scienceが言っていることを説明する別の方法です

「実際に違いがないときに、テストで違いが存在することを示す可能性を高めています」

統計分析を事前に指定することのポイント(説明する固定サンプルサイズまたは複数の評価戦略)は、タイプIとIIの両方のエラーの要求を適切にバランスさせることです。現在の戦略は、タイプIのエラーに焦点を当てており、タイプIIを完全に無視しているように見えます。

他の多くの回答者が結果は決して決定的なものではないと述べていますが、タイプIとIIの両方のエラーとビジネスへの影響を検討している場合、結果に基づいて変更を実装するかどうかを最も確信できるでしょう。結局、意思決定は、リスクのレベルに満足し、「事実」を不変として扱わないことです。

私は、あなたが見る結果に影響を与えているかもしれないあなたの研究デザインの他の側面に興味を持っています。彼らはあなたが望むものではないいくつかの微妙な要因を明らかにしているかもしれません。

サンプルのために選ばれた人々はすべて新しい訪問者、すべての再訪問者ですか、それとも区別されていませんか?確立された顧客は、何か新しいもの(特定の色ではなく変化に偏っている)を求める傾向が強いかもしれませんが、新しい顧客にとってはすべてが新しいものです。

実際のクリックは、研究の時間枠内で繰り返されますか?

調査期間中に複数回訪問した場合、同じバージョンが表示されますか、それともその場でランダムに割り当てられますか?

定期的な訪問者が含まれている場合、露出疲労の危険があります(新しいものではないため、気を散らすことはありません)


これをありがとう。事前に商業的に関連する変換の変更に同意することについて、重要な点を挙げてください。しかし、eコマースと同様に、コンバージョンのわずかな変化は売上に影響を与える可能性があり、非常に低い価値になります。
Tech 75

必要な最小の差が小さいことは問題ではなく、適切に電源が供給されることを確認します。
ReneBt

0

一般的には、最初に(仮説検定の統計的検出力を制御するために)サンプルサイズを決定してから、実験を実行する必要があります。

現在の位置に応じて、一連の仮説検定を組み合わせたように聞こえます。フィッシャーの方法をご覧になることをお勧めします。さらに、おそらくフィッシャーの方法を依存テスト統計に適応させるためのブラウンの方法またはコストの方法を調べたいと思うでしょう。別の回答者が述べたように、ボタンの色に関係なく、顧客のコンバージョン(またはコンバージョンなし)は、次回の訪問で購入するかどうかに影響を与えます。

後付け:

  1. フィッシャーの方法とその拡張に関する詳細情報とソースは、フィッシャーの方法に関するウィキペディアの記事に記載されています。
  2. 私は実験が決してないことを言及することは重要であると感じ、本当に決定的。小さいp値は、結果が決定的であることを示すのではなく、取得したデータに基づいて帰無仮説が発生する可能性が低いことのみを示します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.