R-A / Bテストでのpower.prop.test、prop.test、および等しくないサンプルサイズ


8

成功の2つの比率の差が統計的に有意であるかどうかを判断しようとしている実験に必要なサンプルサイズを知りたいとしましょう。これが私の現在のプロセスです:

  1. 履歴データを見て、ベースライン予測を確立します。過去に、行動を起こすと10%の成功率になり、行動しないと9%の成功率になると言います。これらの結論は統計的に検証されていませんが、比較的大量のデータ(10,000以上の観測)に基づいていると仮定します。
  2. これらの仮定をpower.prop.testにプラグインして、以下を取得します。

     power.prop.test(p1=.1,p2=.11,power=.9)
    
     Two-sample comparison of proportions power calculation 
    
              n = 19746.62
             p1 = 0.1
             p2 = 0.11
      sig.level = 0.05
          power = 0.9
    alternative = two.sided
    
  3. したがって、これは、比率間の有意差を検出するために、A / Bテストの各グループで最大20000のサンプルサイズが必要になることを示しています。

  4. 次のステップは、各グループで20,000の観測値を使用して実験を実行することです。グループB(アクションなし)は20,000回の観測のうち2300回の成功を収めていますが、グループA(アクションを実行)は20,000回の観測のうち2200回の成功を収めています。

  5. prop.testを実行する

    prop.test(c(2300,2100),c(20000,20000))
    
    2-sample test for equality of proportions with continuity correction
    
    data:  c(2300, 2100) out of c(20000, 20000)
    X-squared = 10.1126, df = 1, p-value = 0.001473
    alternative hypothesis: two.sided
    95 percent confidence interval:
    0.003818257 0.016181743
    sample estimates:
    prop 1 prop 2 
    0.115  0.105
    
  6. したがって、比率が等しいという帰無仮説を棄却できると言います。

ご質問

  • この方法は正しいですか、それとも少なくとも正しい方向に進んでいますか?
  • alt="greater"power.prop.testが両側テストであったとしても、prop.testで指定してp値を信頼できますか?
  • prop.testのp値が.05より大きい場合はどうなりますか?統計的に有意なサンプルがあると仮定する必要がありますが、2つの比率の間に統計的に有意な差はありませんか?さらに、統計的有意性は、prop.testのp値に固有のものですか?つまり、power.prop.testも必要ですか?
  • 50/50に分割できず、たとえば95/5に分割する必要がある場合はどうなりますか?この場合のサンプルサイズを計算する方法はありますか?
  • プロポーションのベースライン予測がどうあるべきかわからない場合はどうなりますか?私が推測し、実際の比率がかなりずれている場合、それは私の分析を無効にしますか?

あなたが埋めることができる他のギャップがあれば大いに感謝されます-この投稿の複雑な性質に対する私の謝罪 ありがとうございました!

回答:


3

この方法は正しいですか、それとも少なくとも正しい方向に進んでいますか?

はい、かなり良いアプローチだと思います。

power.prop.testが両側テスト用であったとしても、prop.testでalt = "greater"を指定してp値を信頼できますか?

私は確かではないんだけど、私はあなたが使用する必要があると思うalternative="two.sided"ためprop.test

prop.testのp値が.05より大きい場合はどうなりますか?統計的に有意なサンプルがあると仮定する必要がありますが、2つの比率の間に統計的に有意な差はありませんか?さらに、統計的有意性は、prop.testのp値に固有のものですか?つまり、power.prop.testも必要ですか?

はい、p値が.05より大きい場合、サンプル間に検出可能な差があるという確信はありません。はい、統計的有意性はp値に内在していますが、サンプルサイズを決定するために実験を開始する前に、power.prop.testが依然として必要です。power.prop.testは、実験を設定するために使用され、実験prop.testの結果を評価するために使用されます。

ところで、各グループの信頼区間を計算して、それらが信頼レベルで重複しているかどうかを確認できます。これは、次の手順に従って、[分布から多くの信頼区間計算する]で実行できます。

私の意味を視覚化するには、プラグインされたサンプルデータを使用してこの計算機を見てください:http ://www.evanmiller.org/ab-testing/chi-squared.html#!2300/20000; 2100/ 20000@95

結果は次のとおりです。

各グループの信頼区間

各グループの信頼区間の範囲を示すグラフィックが表示されます。

50/50に分割できず、たとえば95/5に分割する必要がある場合はどうなりますか?この場合のサンプルサイズを計算する方法はありますか?

power.prop.test分割は問題ではないため、これを使用する必要があるのはこのためです。重要なのは、各グループの最小サンプルサイズを満たすことです。95/5の分割を行うと、5%を取得しているバリエーションの最小サンプルサイズに到達するまでの時間が長くなります。

プロポーションのベースライン予測がどうあるべきかわからない場合はどうなりますか?私が推測し、実際の比率がかなりずれている場合、それは私の分析を無効にしますか?

砂に線を引き、検出可能な妥当な効果を推測し、必要なサンプルサイズを計算する必要があります。で計算されたサンプルサイズを満たすのに十分な時間やリソースなどがない場合はpower.prop.test、検出可能な効果を下げる必要があります。通常、このように設定し、さまざまなdelta値を実行して、その効果を得るために必要なサンプルサイズを確認します。

#Significance Level (alpha)
alpha <- .05

# Statistical Power (1-Beta)
beta <- 0.8

# Baseline conversion rate
p <- 0.2   

# Minimum Detectable Effect
delta <- .05

power.prop.test(p1=p, p2=p+delta, sig.level=alpha, power=beta, alternative="two.sided")

1
Javid、回答で質問の一部を引用するとき> は、単に太字にするのではなく、(引用されたブロックの先頭にある)ブロック引用を示すためのマークアップを使用することを検討します。
Glen_b-モニカを復活させる14

2
「95/5の分割を行った場合、5%に達しているバリエーションの最小サンプルサイズに到達するまでの時間が長くなります。」-これは少なくともテストの指定された検出力を満たすための控えめなアプローチですが、「小さい」グループと「大きい」グループ(たとえばn1)が1つある場合、実際にはpower.prop.testに入力された指定された検出力を超えます。 = 19746、n2 = 375174)。等しくないサンプルサイズの電力要件を満たすより正確な方法が望ましいと考えられます。
鉱山労働者の
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.