データには3つのグループがあり、それぞれに二項分布があります(つまり、各グループには成功または失敗の要素があります)。成功の予測確率はありませんが、真の成功率の近似として、それぞれの成功率にのみ頼ることができます。私はこの質問を見つけましたが、これは近いですが、このシナリオに正確に対処していないようです。
テストを簡略化するために、2つのグループがあるとしましょう(このベースケースから3つのグループを拡張できます)。
- グループ1の試行: = 2455
- グループ2試験: = 2730
- グループ1の成功: = 1556
- グループ2の成功: = 1671
予想される成功確率はありません。サンプルから知っていることだけです。したがって、2つのグループの成功率は次のとおりです。
- グループ1の成功率: = 1556/2455 = 63.4%
- グループ2の成功率: = 1671/2730 = 61.2%
各サンプルの成功率はかなり近いです。しかし、私のサンプルサイズも非常に大きいです。二項分布のCDFを調べて、最初の分布との違いを確認すると(最初はヌルテストであると仮定します)、2番目の分布が達成される可能性は非常に小さくなります。
Excelの場合:
1-BINOM.DIST(1556,2455,61.2%、TRUE)= 0.012
ただし、これは最初の結果の分散を考慮せず、最初の結果がテスト確率であると見なします。
これらの2つのデータサンプルが実際に互いに統計的に異なるかどうかをテストするより良い方法はありますか?
prop.test
:prop.test(c(1556, 1671), c(2455, 2730))
。