タグ付けされた質問 「ab-test」

A / Bテストは、スプリットテストまたはバケットテストとも呼ばれ、Webサイト、電子メール、またはその他の商用製品のバリアントの有効性を制御して比較します。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
A / Bテストのサンプルサイズを安全に決定する
私は、A / Bテストツールの構築を検討しているソフトウェアエンジニアです。統計のバックグラウンドはしっかりしていませんが、ここ数日間はかなりの読書をしています。 ここで説明する方法論に従い、関連するポイントを以下にまとめます。 このツールにより、デザイナーとドメインエキスパートは、特定のURLで受信したトラフィックを2つ以上のURLに分割するようにWebサイトを構成できます。たとえば、http://example.com/hello1に到着するトラフィックは、http://example.com/hello1とhttp://example.com/hello2に分割できます。トラフィックはターゲットURL間で均等に分割され、各ターゲットURLでのマーケティングプロセスのパフォーマンスが比較されます。 この実験では、サンプルサイズNは訪問者に対応します。このテストでは、訪問者がマーケティングプロセスで特定のアクションをいつ実行するかを表す用語である「コンバージョン」を測定します。コンバージョンはパーセンテージで表され、より高いコンバージョン率が望まれます。これにより、テストは独立した比率の比較になります。このツールは、安全な結果のテストを作成するために簡単に使用できる必要があります。の適切な値を選択することNが重要です。 上記のリンクされた記事では、2つの独立した比率の検出力分析を使用してを見つけていますN。この方法では、コントロールの変換率を事前に把握し、目標とする変換改善を指定する必要があります。また、有意水準95%および統計的検出力80%を指定します。 質問: N音を決定するこの方法はありますか?その場合、テストを開始する前にコントロールの変換率を決定する最も安全な方法は何ですか? Nコントロールの変換率を事前に知る必要のない適切な判断方法はありますか? リンクされた記事の方法論は適切ですか?そうでない場合、私にリンクできるアクセス可能な簡単に消化できる方法はありますか?

4
2つの独立した比率の検出力解析で停止ルールを作成するにはどうすればよいですか?
私は、A / Bテストシステムに取り組んでいるソフトウェア開発者です。安定した統計情報の背景はありませんが、過去数か月にわたって知識を集めてきました。 一般的なテストシナリオでは、Webサイト上の2つのURLを比較します。訪問者が訪問LANDING_URLし、URL_CONTROLまたはのいずれかにランダムに転送されますURL_EXPERIMENTAL。訪問者はサンプルを構成し、訪問者がそのサイトで望ましいアクションを実行すると勝利条件が達成されます。これはコンバージョンを構成し、コンバージョン率はコンバージョン率です(通常はパーセンテージで表されます)。特定のURLの一般的なコンバージョン率は、0.01%から0.08%の範囲です。テストを実行して、新しいURLと古いURLを比較する方法を決定します。場合はURL_EXPERIMENTALアウトパフォームに表示されURL_CONTROL、我々は交換してくださいURL_CONTROLとURL_EXPERIMENTAL。 単純な仮説検定手法を使用したシステムを開発しました。このシステムを開発するために、ここで別のCrossValidatedの質問に対する回答を使用しました。 テストは次のように設定されます。 のコンバージョン率の見積もりCRE_CONTROLは、URL_CONTROL履歴データを使用して計算されます。 所望の目標転化率CRE_EXPERIMENTALのがURL_EXPERIMENTAL設定されています。 通常、有意水準0.95が使用されます。 通常、0.8の累乗が使用されます。 一緒に、これらの値はすべて、目的のサンプルサイズを計算するために使用されます。power.prop.testこのサンプルサイズを取得するためにR関数を使用しています。 すべてのサンプルが収集されるまでテストが実行されます。この時点で、の信頼区間 CR_CONTROLとがCR_EXPERIMENTAL計算されます。それらが重ならない場合、勝者は0.95の有意水準と0.8の検出力で宣言できます。 ただし、テストのユーザーには2つの大きな懸念があります。 1.テスト中のある時点で、明確な勝者を示すのに十分なサンプルが収集された場合、テストを停止できませんか? 2.テストの終了時に勝者が宣言されていない場合、勝者を見つけるのに十分なサンプルを収集できるかどうかを確認するためにテストをさらに実行できますか? ユーザーが私たち自身のユーザーが望むことを正確に行えるようにする市販ツールが数多く存在することに注意してください。上記には多くの誤fallがあることを読みましたが、停止ルールのアイデアに出くわしたので、独自のシステムでそのようなルールを使用する可能性を調査したいと思います。 検討したい2つのアプローチを次に示します。 1.を使用power.prop.testして、現在の測定変換率を現在のサンプル数と比較し、勝者を宣言するのに十分なサンプルが収集されているかどうかを確認します。 例:次の動作がシステムに存在するかどうかを確認するテストが設定されています。 CRE_CONTROL:0.1 CRE_EXPERIMENTAL:0.1 * 1.3 これらのパラメーターでは、サンプルサイズNは1774です。 ただし、テストが進んで325サンプルに達すると、CRM_CONTROL(コントロールの測定された変換率)は0.08およびCRM_EXPERIMENTAL0.15です。power.prop.testこれらの変換率で実行Nされ、325であることがわかりました。正確CRM_EXPERIMENTALに、勝者であると宣言するために必要なサンプルの数です。この時点で、テストを終了できることを願っています。同様に、テストが1774サンプルに達しても勝者が見つからない場合、2122サンプルに達しCRM_CONTROL、0.1 CRM_EXPERIMENTALの結果と0.128が勝者を宣言できる結果であることを示すのに十分です。 関連する質問のユーザ少ないサンプルを有し、またに対して脆弱であることを停止し、このようなテストは、早期奨励のためにあまり信憑性であることをお勧め推定バイアスとタイプIとタイプIIエラーの数が増加。この停止ルールを機能させる方法はありますか?これは、プログラミング時間の短縮を意味するため、推奨されるアプローチです。おそらく、この停止ルールは、テストを早期に停止する必要がある場合、テストの信頼性を測定する何らかの数値スコアを提供することで機能するでしょうか? 2. 順次分析またはSPRTを使用します。 これらのテスト方法は、私たちが見つけた状況に合わせて設計されています。ユーザーがテストを開始し、テストで余分な時間を無駄にしないようにテストを終了するにはどうすればよいですか。テストの実行が長すぎるか、異なるパラメーターでテストをやり直す必要があります。 上記の2つの方法のうち、数学が少し理解しやすく、プログラミングが簡単なように見えるため、SPRTを好みます。ただし、このコンテキストで尤度関数を使用する方法がわかりません。誰かが尤度比、尤度比の累積和を計算する方法の例を構築し、モニタリングを続行する状況、帰無仮説と対立仮説を受け入れる状況を示す例を続けることができる場合、 SPRTが正しい方法であるかどうかを判断するのに役立ちます。

2
最適なサンプルサイズに達する前にA / Bテストを停止するのはなぜ間違っているのですか?
私の会社では、A / Bテスト(ウェブサイトのバリエーションで実行)の結果を提示する責任があります。私たちは、私が今見つける午前何かがある、月のテストを実行し、その後、我々は有意に達し(または重要性を長時間テストを実行した後に到達されていない場合は放棄)まで定期的にp値を確認してください間違って練習。 私は今、この習慣をやめたいのですが、そうするために、なぜこれが間違っているのかを理解したいと思います。効果サイズ、サンプルサイズ(N)、アルファ有意性基準(α)および統計的検出力、または選択または暗黙のベータ(β)が数学的に関連していることを理解しています。しかし、必要なサンプルサイズに達する前にテストを停止すると、正確に何が変わるのでしょうか。 私はここでいくつかの投稿(つまりthis、this、this)を読みましたが、私の推定には偏りがあり、Type 1エラーの発生率が劇的に増加します。しかし、それはどのようにして起こりますか?数学的説明、つまり、サンプルサイズが結果に与える影響を明確に示すものを探しています。上で述べた要因間の関係に関係していると思いますが、正確な式を見つけて自分で計算することはできませんでした。 たとえば、テストを途中で停止すると、タイプ1のエラー率が高くなります。よし。しかし、なぜ?タイプ1のエラー率を上げるとどうなりますか?ここでは直感が欠けています。 助けてください。

3
A / B検定に使用する統計検定は何ですか?
それぞれ1000サンプルのコホートが2つあります。各コホートで2つの量を測定します。最初のものはバイナリ変数です。2番目は、重いテール分布に従う実数です。各コホートが各メトリックに対して最適に機能するかどうかを評価したいと思います。選択できる統計的検定は多数あります。人々はz検定を提案し、他はt検定を使用し、他はMann-Whitney Uを使用します。 ケースのメトリックごとに、どのテストを選択する必要がありますか? 1つのテストでコホート間の有意差が示唆され、他のテストで有意差がないことが示唆された場合はどうなりますか?
12 ab-test 

2
実験を再実行してWeb A / Bテストを検証します-これは有効ですか?
先日、A / Bテスト会社によるウェビナーで、居住者の「データサイエンティスト」に、実験を再実行して結果を検証する必要があることを説明してもらいました。前提として、95%の信頼度を選択した場合、誤検知の可能性は5%(1/20)です。同じ制約で実験を再実行すると、1/400になります(これは0.05 ^ 2 = 1/400と決定したと仮定しています) これは有効な発言ですか?(つまり、「2回実行すると、2つの統計的有意性の勝利=偽陽性の1/400の確率」)?それはあなたの有意水準を上げるためのより良いアプローチだったでしょうか? ビジネスの観点から、私が懸念しているのは、実験を再実行することです。つまり、より多くのユーザーを劣ったページ(処理)にさらし、潜在的な売り上げを失うことになります。

1
ベイジアンA / Bテストの式が意味をなさない
ベイジアン手法を使用してABテストの結果を計算するために、ベイジアンabテストの式を使用しています。 Pr(pB>pA)=∑i=0αB−1B(αA+i,βB+βA)(βB+i)B(1+i,βB)B(αA,βA)Pr(pB>pA)=∑i=0αB−1B(αA+i,βB+βA)(βB+i)B(1+i,βB)B(αA,βA) \Pr(p_B > p_A) = \sum^{\alpha_B-1}_{i=0} \frac{B(\alpha_A+i,\beta_B+\beta_A)}{(\beta_B+i)B(1+i,\beta_B)B(\alpha_A, \beta_A)} どこ 1プラス Aの成功数αAαA\alpha_A 1プラス Aの失敗数βAβA\beta_A 1プラス Bの成功数αBαB\alpha_B 1プラス Bの失敗数βBβB\beta_B はベータ関数ですBBB データの例: control: 1000 trials with 78 successes test: 1000 trials with 100 successes 標準的な非ベイジアンプロップテストでは、重要な結果が得られます(p <10%): prop.test(n=c(1000,1000), x=c(100,78), correct=F) # 2-sample test for equality of proportions without continuity correction # # data: …
10 r  bayesian  ab-test 

3
ベイジアンABテスト
1か月あたりのアクセス数が5,000回しかないページでABテストを実行しています。テストとコントロール間の+ -1%の差を測定するために必要なトラフィックレベルに到達するには、時間がかかりすぎます。ベイジアン統計を使用して、テストの成績が良かったかどうかを判断できる可能性があると聞きました。ベイジアン統計を使用して現在のデータを分析するにはどうすればよいですか? Visitors Conversions Control 1345 1165 Test A 961 298 Test B 1274 438

2
ウィルコクソンの順位和検定は、寄付の合計が異なるかどうかを確認する正しい検定ですか?
バックグラウンド: 私のソフトウェアは、ユーザーに任意の金額の寄付を求めています。ユーザーにテスト寄付のリクエストを分割して、尋ねる最良の方法を見つけました:50%がリクエストバージョン1を取得し、50%がリクエストバージョン2を取得し、どちらがより良いかを確認します。 ほとんどすべてのユーザーが0ドルを寄付しますが、一部は寄付します。結果は次のようになります。 Number of users Number of donations Dollar amounts donated GROUP A 10,000 10 40,20,20,20,15,10,10,5,5,5 GROUP B 10,000 15 50,20,10,10,10,10,10,10,5,5,5,5,5,5,5 1つのグループが勝者であるか、それとも同点であるか、または確実にするためにより大きなサンプルが必要かどうかを知りたい。(この例は、議論を簡単にするために残されていますが、重要な結果を得るためには、ほぼ確実に大きなサンプルが必要です。) 私がすでに測定しているもの: 1つのグループで寄付の数が大幅に増えましたか?どれくらい大きい? 私はこのp値と信頼区間をABBA Thumbtackツールを使用して測定し、寄付の数とユーザーの数のみを使用して、金額は無視しています。その方法論については、「基礎となる統計とは」に説明されています。そのリンクのセクション。(それは私の頭の上にありますが、寄付率の差をアグレスティクーリ間隔の通常の確率変数としてとることによって信頼区間を計算すると思います。) 1つのグループが寄付した金額は大きく異なりますか? 順列テストを実行してこのp値を測定します。すべての2N被験者を2つのN被験者グループに繰り返しシャッフルし、グループ間の合計金額の差を毎回測定し、差が> =観察されたシャッフルの割合を見つけます。差。(これは、ドルの代わりにクラッカーに対して同じことを行うこのカーンアカデミーのビデオに基づいて有効だと思います。) Rのwilcox.test: wilcox.test()R についてのいくつかの質問: wilcox.test(paired=FALSE)上記のデータの表を入力した場合、上記のツールでまだ回答されていない新しい質問に答えて、テストの実行を継続するか、勝者を宣言するか、ネクタイを宣言するかを判断するためのより多くの洞察を与えますか? もしそうなら、それはどんな正確な質問に答えますか?

1
AB検定と帰無仮説の検定
違いを理解しようとしています 帰無仮説のテスト(つまり、Rのprop.testと同様に、「目標」の確率が2つの異なる母集団で同じであることのテスト) ここで説明されているようなベイジアン式を使用したA / Bテスト:http : //www.evanmiller.org/bayesian-ab-testing.html 違いはありますか?どちらが望ましいですか? 私が直面している問題は次のようなものです: コントロールグループには100,000インプレッション、100リアクションテストグループには50,000インプレッションと55リアクション

3
G検定とt検定の違い、およびA / B検定にはどちらを使用すべきですか?
G-試験はカイ二乗分布の迅速な推定値を取得する方法であって、著者によって推奨され、このよく知られたA / Bテストのチュートリアル。 このツールは正規分布を想定し、平均の差を使用して信頼度を計算します。 GテストとTテストの違いは何ですか?A / Bテストの有効性を測定するために各方法を使用することの利点または欠点は何ですか? 私は、A / Bテストフレームワークの結果を測定するために使用する必要があるものを見つけようとしています。私たちのフレームワークには2つの一般的な使用例があります。訪問者のグループを均等に分割し、それぞれに異なる機能を示し、他のページ(たとえば、サインアップページ)でコンバージョンを測定します。訪問者のグループをテストのためにコントロールグループ(90%)と実験グループ(10%)に分け、他のページでコンバージョンを測定します。 私たちのウェブサイトは1日あたり1000から200,000の訪問を取得します(あまり変化しない実際の数を隠すためにわざと漠然としています)。これらの訪問は、約300ページにわたって指数分布して分割されます。 おかげで、ケビン

1
頻度論者は、バイナリ応答に関してグループAがグループBを上回る可能性をどのように計算しますか
...(オプション)Google Web Optimizerのコンテキスト内。 2つのグループとバイナリ応答変数があるとします。これで、次の結果が得られます。 オリジナル:401回の試行、125回の成功した試行 組み合わせ16:試行441件、成功141件 差は統計的に有意ではありませんが、Combination16がOriginalを上回る確率を計算できます。 「オリジナルを打つチャンス」を計算するために、私はベイジアンアプローチを使用しました。これがコードです: trials <- 10000 resDat<-data.frame("orig"=rbeta(trials,125+1,401-125+1), "opt"=rbeta(trials,144+1,441-144+1)) length(which(resDat$opt>resDat$orig))/trials これは0.6764になります。 頻度主義者が「打つチャンス...」を計算するために使用するテクニックはどれですか?たぶん、フィッシャーの正確確率検定のべき関数ですか? オプション:Google Webオプティマイザーのコンテキスト Google Webオプティマイザーは、多変量テストまたはA / Bテストを制御するためのツールです。これは導入部にすぎません。これは質問自体には関係ないためです。 上記の例は、ここにあるGoogle Webオプティマイザー(GWO)の説明ページ(「推定コンバージョン率の範囲」のセクションまでスクロールしてください)、特に図2から取得したものです。 ここで、GWOは67.8%を「オリジナルを倒すチャンス」を提供しますが、これは私の結果とは少し異なります。私はグーグルがより頻繁な手法のようなアプローチを使用していると思います、そして私は疑問に思いました:それは何であることができるでしょうか? 編集:この質問は消える寸前だったので(私はその特定の性質が原因であると思います)、私は一般的な興味があると言い換えました。

2
ウェブサイト最適化のための多変量テストの背後にある数学
多変量のウェブサイトコンバージョンデータから(十分な数の)与えられた適切な統計的推論を行うための理論的なリソース(本、チュートリアルなど)を探しています。 私は数学が関係しているので、ウェブ上でマーケティング以外の優れたものを見つけることができません。私が回答したい種類の質問:単一の変数(例:テキストの色)はどのくらいの影響がありますか?変数間の相関関係は何ですか?モデリングにはどのタイプの分布が使用されていますか(ガウス、二項など)?統計を使用して結果を分析する場合-確率変数と見なす必要があるもの-異なるバリエーションまたはインプレッションのバイナリコンバージョンまたは非コンバージョンの結果を取得するWebページ要素? さまざまなウェブサイト最適化テスト方法とその利点\落とし穴に関する情報はたくさんあります。多変量統計一般に関する情報はたくさんあります。ウェブサイト最適化のこの特定のコンテキストにおける技術統計について説明しているリソースを知っていますか? 情報ありがとうございます!

2
PythonまたはRでのA / Bテスト[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 8か月前に閉鎖。 A / Bテスト: http://20bits.com/articles/statistical-analysis-and-ab-testing/ http://elem.com/~btilly/effective-ab-testing/ 私はA / Bテストに精通していませんが、A / Bテストの実行に使用できる特定のパッケージ/ライブラリがRまたはPythonにあるかどうか疑問に思っていました。
8 r  python  ab-test 

4
合計のA / Bテスト比率
環境 オンラインで商品を販売する会社について、次のシナリオを考えます。ユーザーは複数のアイテム(つまり、アイテムのバスケット)を購入できます。そのうちのいくつかは特に重要で、特に追跡されます(スターアイテムと呼びましょう)。 販売されたスターアイテムの数と総売上の両方に影響を与える可能性のあるアルゴリズムの変更(推奨、リスク評価、ターゲティングの追加など)をテストしたいと考えています。 これは標準のA / Bテストセットアップです。ランダム化ユニットはユーザーレベルにあります。 A / Bテストの目的は、アルゴリズム変更の影響を比較することです。コントロールグループには元のアルゴリズムがあり、バリアントには新しいアルゴリズムがあります。 重要な指標の1つは、総売上に対するスターアイテムの売上の比率として定義されます。これは、各AまたはBグループのスコープ内のすべてのユーザーのすべてのトランザクションにわたる合計です。 つまり、分析単位はトランザクションレベルにあり、ランダム化単位とは異なります。 メトリックは、テストの全期間(2週間など)にわたって計算されます。 使用されるメトリックの詳細 グループAと一連のユーザー与えられた場合、各ユーザーは多数のトランザクションに関与しています。テスト期間中のグループAのすべてのユーザーのすべてのトランザクションのセットは、。UA={u1,u2,...,uNA}UA={u1,u2,...,uNA}U_A = \{u_1,u_2,...,u_{N_A} \}tuntunt_{u_n}TATAT_ATA={tu11,tu12,...tunm}TA={tu11,tu12,...tunm}T_A = \{ t_{u_{11}}, t_{u_{12}}, ... t_{u_{nm} } \} グループAの対象メトリックは、グループAのスコープ内のすべてのトランザクションに対して定義されます。合計は、ユーザーレベルではなくトランザクションレベルです。 MetricA=∑ti∈TAsales star items $∑ti∈TAsales $MetricA=∑ti∈TAsales star items $∑ti∈TAsales $\text{Metric}_A = \frac{\sum_{t_{i} \in T_A} \text{sales star items }$}{\sum_{t_{i} \in T_A} \text{sales }$ } もちろん、ユーザーレベルの平均を計算するように定義を変更することもできます。これによりすべてが簡略化されますが、これは使用されているメトリックではありません。 ご質問 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.