4
ジョージ・ボックス、ガリット・シュムエリと科学的方法について?
(この質問はPhilosophy SEにより適しているように思われるかもしれません。統計学者がBoxとShmueliの発言についての私の誤解を明確にすることを望んでいます。したがって、ここに投稿します)。 (ARIMAの名声の)ジョージボックスは次のように述べています。 「すべてのモデルは間違っていますが、一部は有用です。」 Galit Shmueliは有名な論文「説明するか予測する」で次のように主張しています(そして彼女に同意する他の人を引用しています)。 説明と予測は同じではなく、一部のモデルは予測が上手ではありませんが、上手く説明できます。 原則に対するこれらは何らかの形で矛盾していると感じます。 モデルがうまく予測できない場合、それは有用ですか? さらに重要なことは、モデルが十分に説明している場合(ただし、必ずしも十分に予測できるとは限らない場合)、何らかの方法で真でなければなりません(つまり、間違っていない)。それでは、Boxの「すべてのモデルが間違っている」とどのようにメッシュするのでしょうか。 最後に、モデルがうまく説明しているが、うまく予測できない場合、それはどのように科学的ですか?ほとんどの科学的境界基準(検証主義、改ざん主義など)は、科学的記述に予測力が必要であること、または口語的であることを意味します。将来の結果を予測する必要があります。 私の質問: Boxの声明とShmueliのアイデアは本当に矛盾していますか、それとも何かが欠けていますか。たとえば、予測力のないモデルはまだ有用でしょうか。 ボックスとShmueliの文がある場合ではない矛盾し、それはモデルが間違っているために何を意味するのでしょうし、うまく予測できないが、それでも説明力を持っていますか?別の言い方をすれば、正確さと予測能力の両方を奪うと、モデルには何が残りますか? モデルに説明力があるが予測力がない場合、どのような実証的検証が可能ですか?Shmueliは、説明にAICを使用し、予測にBICを使用するなどのことを言及していますが、それが問題をどのように解決するかわかりません。予測モデルでは、AIC、またはBIC、またはR2R2R^2またはL1L1L1正則化などを使用できますが、最終的にはサンプルテストと実稼働環境でのパフォーマンスがモデルの品質を決定します。しかし、うまく説明できるモデルについては、どのような損失関数がモデルを本当に評価できるのかわかりません。科学哲学には、過少決定の概念がありますこれはここで適切と思われます:与えられたデータセットについて、データに適合するようにいつでも何らかの分布(または分布の混合)と損失関数LLLを賢明に選択できます(したがって、それを説明すると主張できます)。また、閾値は、そのLLLモデルが適切にデータを任意で説明することを主張する人のための下でなければならない(種類p値などから、なぜそれはp<0.05p<0.05p < 0.05としないp<0.1p<0.1p < 0.1又はp<0.01p<0.01p < 0.01?)。 上記に基づいて、どのように説明するモデルを客観的に検証できますか?