ハッカーの確率的プログラミングとベイジアンA / Bテストのように、ベイジアン方式でA / Bテストを実行しようとしています。どちらの記事は、意思決定者が決定したと仮定し、より良い、単にいくつかの基準の確率に基づいて、例えばれるバリアントのどの、したがって、優れています。この確率は、そこから結論を引き出すのに十分な量のデータがあったかどうかについての情報を提供しません。そのため、いつテストを停止するかは不明です。
そこに2つのバイナリRV車、であると仮定し及び、私はそれがどのように可能性を推定することを、およびの観察に基づいて、および。さらに、および事後者がベータ配布されているとします。
およびのパラメータを見つけることができるので、事後標本をサンプリングして、を推定できます。。Pythonでの例:
import numpy as np
samples = {'A': np.random.beta(alpha1, beta1, 1000),
'B': np.random.beta(alpha2, beta2, 1000)}
p = np.mean(samples['A'] > samples['B'])
たとえば、取得できます。今、私はようなものを持ちたいと思い。
私は信頼できる間隔とベイズ因子について調査しましたが、それらがまったく当てはまる場合、このケースでそれらを計算する方法を理解できません。これらの追加の統計をどのように計算すれば、良い終了基準が得られますか?