科学のための帰無仮説検定(NHT)の累積的な試みとしての有用性を批判する統計学者や研究者の増加に対応して、統計的推論に関する米国心理学会タスクフォースはNHTの全面禁止を回避しましたが、代わりに研究者に提案しましたNHTから導出されたp値に加えて、効果サイズを報告します。
ただし、効果の大きさは研究間で簡単に蓄積されません。メタ分析アプローチは効果サイズの分布を蓄積できますが、通常、効果サイズは生の効果の大きさと特定の実験のデータにおける説明のつかない「ノイズ」の比として計算されます。つまり、効果サイズの分布は研究間での影響の生の大きさのばらつきだけでなく、研究間でのノイズの発現のばらつきもあります。
対照的に、効果の強さ、尤度比の代替尺度は、研究ごとの直感的な解釈の両方を可能にし、メタ分析のために研究全体で簡単に集約することができます。各研究内で、尤度は、効果を含まないモデルに対する特定の効果を含むモデルの証拠の重みを表し、たとえば、「Xの効果の尤度比の計算その効果については、それぞれのヌルよりも8倍以上の証拠を明らかにしました」。さらに、尤度比は、1未満の尤度比がヌルが優先されるシナリオを表し、この値の逆数を取ることが効果に対するヌルの証拠の重みを表す限り、ヌルの結果の強さの直感的な表現も可能にします。特に、尤度比は、2つのモデルの説明されていない分散の比として数学的に表されます。これは、効果によって説明される分散のみが異なり、したがって効果サイズからの概念的な大きな逸脱ではありません。一方、研究全体の効果の証拠の重みを表すメタ分析尤度比の計算は、単に研究全体の尤度比の積をとる問題です。
したがって、効果/モデルに有利な大まかな証拠の程度を確立しようとする科学にとって、尤度比が道であると主張します。
効果の特定のサイズでのみモデルを微分できる微妙なケースがあります。その場合、データが効果パラメーター値と一貫していると思われる区間のある種の表現が好ましい場合があります。実際、APAタスクフォースは、この目的に使用できる信頼区間を報告することも推奨していますが、これも不適切なアプローチだと思います。
信頼区間は嘆かわしいほど誤解されることがよくあります(学生や研究者も同様)。また、CIにゼロを含めることによるNHTでの使用能力が、推論的慣行としてのNHTの絶滅をさらに遅らせるのに役立つことも恐れています。
代わりに、理論が効果のサイズによってのみ微分可能である場合、各効果の事前分布が各モデルによって個別に定義され、結果の事後分布が比較されるベイズのアプローチがより適切であることをお勧めします。
このアプローチは、p値、効果サイズ、信頼区間を尤度比に置き換え、必要に応じてベイジアンモデル比較で十分と思われますか?ここで悪用された代替手段が提供するいくつかの必要な推論機能を逃しますか?