私の経験は、オンラインでのA / B実験から来ています。問題は通常、不十分な研究や間違ったものの測定です。しかし、圧倒的な研究では、比較可能な研究よりも信頼区間が狭く、p値が低く、分散が異なる可能性があるように思えます。これは同様の研究を比較することを難しくすることができると思います。たとえば、適切な検出力を使用して過剰検出研究を繰り返した場合、効果を正確に再現しても、p値は高くなります。大きなサンプルに現れる可能性が高い外れ値がある場合、サンプルサイズを大きくすると、ばらつきが生じたり、ばらつきが生じたりする可能性があります。
また、私のシミュレーションでは、関心のある効果以外の効果が、より大きなサンプルで大きくなる可能性があることを示しています。したがって、p値は結果が実際である確率を正確に示しますが、たとえば、偶然、制御できなかった一時的な影響、およびおそらく他のいくつかの組み合わせなど、考えている以外の理由で実際の値である可能性があります気づかずに導入した小さな効果。研究が少し圧倒されている場合、これのリスクは低いです。多くの場合、問題は適切なパワーを知ることが難しいことです。たとえば、ベースラインメトリックと最小ターゲット効果が推測であるか、予想とは異なることが判明した場合などです。
また、サンプルが多すぎると、適合度テストが重要ではない偏差に敏感になりすぎて、直観に反する結果になる可能性があると主張する記事にも出会いました。
とはいえ、低電力よりも高電力の方を優先するのが最善だと私は信じています。