統計的に有意になるまで分割テストを実行することが「悪いこと」になるのはなぜですか？（またはそれは？）

「A / Bテストを実行しない方法」についての記事を読みました。

そして、私はまだ著者の推論が正確に何であるかを理解していません。誰かが私のためにそれを馬鹿にできますか？

時間の経過とともに分割テストの結果を読むと、誤解を招くのではないかと思います。私はそれを他の人に説明できるほど十分に理解したいと思っています。

何か助けは？

statistical-significance experiment-design

— ジャスティン・ボゾニエ
ソース

これは「3つのうち最高の2つ」の現象です。 あなたは冗談を知っています：

「それを弾いてみましょう。」

「よし、行け！」

「おっと、負けました。あと2回フリップして、勝者が合計3回の中で最高だったとしたらどうですか。」

有意性検定は、コイン投げとまったく同じです（ただし、通常、バイアスされたコインを使用します）。短いテストを実行してもそれが重要ではない場合、テストを延長することで（一部は運により）重要になる可能性があります。

これの逆（私はこれの "裏側"と言いたくなります:-)）は、特定の数のテストを実施する予定があり、偶然に「重要な」結果が表示される場合でも、それは否定的ではありません。これは最初のコンテストの逆に似ています。

「ひっくり返してみましょう。3点中2点がベストですか？」

「よし、行け！」

「ハ、私は最初のフリップに勝ったので、私は勝ちます！」

そうは言っても、進むにつれて（名目）有意性を監視できるテストのバージョンがあることに注意してください。これらは、一方的な、いわゆる慈悲のルールになりすぎたときにコンテストを早期に終了するようなものです。初期の段階で、違いが実際にあることが非常に明白になった場合、テストを終了することで時間と労力を節約できます。これらは逐次仮説検定手順と呼ばれます。長期的に見れば全体的に費やす時間と労力が少なくなるので、これらがABテストを実施する標準的な方法であるべきであるという良いケースが考えられます。

— whuber
ソース