尤度比とベイジアンモデル比較は、帰無仮説検定の優れた十分な代替手段を提供しますか?


13

科学のための帰無仮説検定(NHT)の累積的な試みとしての有用性を批判する統計学者や研究者の増加に対応して、統計的推論に関する米国心理学会タスクフォースはNHTの全面禁止を回避しましたが、代わりに研究者に提案しましたNHTから導出されたp値に加えて、効果サイズを報告します。

ただし、効果の大きさは研究間で簡単に蓄積されません。メタ分析アプローチは効果サイズの分布を蓄積できますが、通常、効果サイズは生の効果の大きさと特定の実験のデータにおける説明のつかない「ノイズ」の比として計算されます。つまり、効果サイズの分布は研究間での影響の生の大きさのばらつきだけでなく、研究間でのノイズの発現のばらつきもあります。

対照的に、効果の強さ、尤度比の代替尺度は、研究ごとの直感的な解釈の両方を可能にし、メタ分析のために研究全体で簡単に集約することができます。各研究内で、尤度は、効果を含まないモデルに対する特定の効果を含むモデルの証拠の重みを表し、たとえば、「Xの効果の尤度比の計算その効果については、それぞれのヌルよりも8倍以上の証拠を明らかにしました」。さらに、尤度比は、1未満の尤度比がヌルが優先されるシナリオを表し、この値の逆数を取ることが効果に対するヌルの証拠の重みを表す限り、ヌルの結果の強さの直感的な表現も可能にします。特に、尤度比は、2つのモデルの説明されていない分散の比として数学的に表されます。これは、効果によって説明される分散のみが異なり、したがって効果サイズからの概念的な大きな逸脱ではありません。一方、研究全体の効果の証拠の重みを表すメタ分析尤度比の計算は、単に研究全体の尤度比の積をとる問題です。

したがって、効果/モデルに有利な大まかな証拠の程度を確立しようとする科学にとって、尤度比が道であると主張します。

効果の特定のサイズでのみモデルを微分できる微妙なケースがあります。その場合、データが効果パラメーター値と一貫していると思われる区間のある種の表現が好ましい場合があります。実際、APAタスクフォースは、この目的に使用できる信頼区間を報告することも推奨していますが、これも不適切なアプローチだと思います。

信頼区間は嘆かわしいほど誤解れることがよくあります学生や研究者も同様)。また、CIにゼロを含めることによるNHTでの使用能力が、推論的慣行としてのNHTの絶滅をさらに遅らせるのに役立つことも恐れています。

代わりに、理論が効果のサイズによってのみ微分可能である場合、各効果の事前分布が各モデルによって個別に定義され、結果の事後分布が比較されるベイズのアプローチがより適切であることをお勧めします。

このアプローチは、p値、効果サイズ、信頼区間を尤度比に置き換え、必要に応じてベイジアンモデル比較で十分と思われますか?ここで悪用された代替手段が提供するいくつかの必要な推論機能を逃しますか?


より焦点を絞った質問かもしれませんか?おそらく、特定の推論問題への尤度指向のアプローチに関するものでしょうか?
共役前

2
しかし、私たちはここにいます:博覧会:完全なモデルの比較証拠の測定のために、通常パラメータで識別される効果サイズの測定を混同しましたか?LRは後者の候補にしか見えません。また、尤度関数を単独で、または組み合わせて、データがモデルについて伝えようとしていることをすべて伝えたい場合は、基本的にベイジアンです。それが尤度原理だからです。(さあ、水が美しい:-)
共役前

タイトルと最終的なパラグラフは、信頼区間の使用を提案するのか、信頼区間を置き換えるのかについて意見が分かれているようです。
ワンストップ

@onestop:実際、タイトルを変更するのを忘れたことに気付いた。質問を書いている間、信頼区間について考えを変えました。タイトルを編集しました。混乱をおologiesびします。
マイクローレンス

@Conjugate Prior:最初の2つの文に完全に同意します。ただし、事前確率や尤度のみに基づく推論の考え方が気に入らない場合は、ベイジアンにならずに尤度の原則を受け入れることができます-Edwards books.google.com/books?id=2a_XZ-gvct4CとRoyall books.googleの書籍を参照.COM /図書?ID = oysWLTFaI_gC。誰か(そして私は誰とどこを覚えているといいのですが)かつてこれを卵を割るがオムレツを食べないことに例えましたが。
ワンストップ

回答:


3

少なくとも心理学の研究者としての私にとって、ベイジアンアプローチの主な利点は次のとおりです。

1)ヌルを支持して証拠を蓄積できます

2)連続テストの理論的および実用的な問題を回避する

3)Nが大きいためにnullを拒否する脆弱性がない(前のポイントを参照)

4)小さな効果で作業する場合により適しています(大きな効果の場合、フリークエンティスト法とベイジアン法の両方が常にほぼ一致する傾向があります)

5)実行可能な方法で階層モデリングを行うことができます。たとえば、多項処理ツリーモデルなどの一部のモデルクラスにアイテムと参加者の効果を導入することは、ベイジアンフレームワークで行う必要があります。そうしないと、計算時間が非常に長くなります。

6)「実際の」信頼区間を取得します

7)データの尤度、事前分布、および確率の3つが必要です。最初にデータから取得し、2番目に構成し、3番目に必要な比例関係がまったくありません。わかりました、多分私は少し誇張します;-)

全体として、あなたはあなたの質問を逆にすることができます:これはすべて、古典的な頻度主義の統計が十分ではないことを意味しますか?「いいえ」と言うのは、あまりにも過酷な評決だと思います。ほとんどの問題は、p値を超えて、エフェクトサイズ、アイテムエフェクトの可能性、調査結果を一貫して再現する(1つの実験論文が多すぎる!)

しかし、ベイズではすべてがそれほど簡単ではありません。ネストされていないモデルを使用して、たとえばモデルを選択します。これらのケースでは、結果は結果に大きく影響するため、事前分布は非常に重要です。また、事前分布を正しくするために使用したいほとんどのモデルについてそれほど多くの知識を持っていないことがあります。また、非常に長い時間がかかります....

ベイズに飛び込むことに興味があるかもしれない人のために、2つの参考文献を残します。

LeeとWagenmakersによる「認知科学のためのベイジアングラフィカルモデリングのコース」

Ntzoufrasによる「 WinBUGS を使用したベイジアンモデリング」

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.