タグ付けされた質問 「explanatory-models」

4
ジョージ・ボックス、ガリット・シュムエリと科学的方法について?
(この質問はPhilosophy SEにより適しているように思われるかもしれません。統計学者がBoxとShmueliの発言についての私の誤解を明確にすることを望んでいます。したがって、ここに投稿します)。 (ARIMAの名声の)ジョージボックスは次のように述べています。 「すべてのモデルは間違っていますが、一部は有用です。」 Galit Shmueliは有名な論文「説明するか予測する」で次のように主張しています(そして彼女に同意する他の人を引用しています)。 説明と予測は同じではなく、一部のモデルは予測が上手ではありませんが、上手く説明できます。 原則に対するこれらは何らかの形で矛盾していると感じます。 モデルがうまく予測できない場合、それは有用ですか? さらに重要なことは、モデルが十分に説明している場合(ただし、必ずしも十分に予測できるとは限らない場合)、何らかの方法で真でなければなりません(つまり、間違っていない)。それでは、Boxの「すべてのモデルが間違っている」とどのようにメッシュするのでしょうか。 最後に、モデルがうまく説明しているが、うまく予測できない場合、それはどのように科学的ですか?ほとんどの科学的境界基準(検証主義、改ざん主義など)は、科学的記述に予測力が必要であること、または口語的であることを意味します。将来の結果を予測する必要があります。 私の質問: Boxの声明とShmueliのアイデアは本当に矛盾していますか、それとも何かが欠けていますか。たとえば、予測力のないモデルはまだ有用でしょうか。 ボックスとShmueliの文がある場合ではない矛盾し、それはモデルが間違っているために何を意味するのでしょうし、うまく予測できないが、それでも説明力を持っていますか?別の言い方をすれば、正確さと予測能力の両方を奪うと、モデルには何が残りますか? モデルに説明力があるが予測力がない場合、どのような実証的検証が可能ですか?Shmueliは、説明にAICを使用し、予測にBICを使用するなどのことを言及していますが、それが問題をどのように解決するかわかりません。予測モデルでは、AIC、またはBIC、またはR2R2R^2またはL1L1L1正則化などを使用できますが、最終的にはサンプルテストと実稼働環境でのパフォーマンスがモデルの品質を決定します。しかし、うまく説明できるモデルについては、どのような損失関数がモデルを本当に評価できるのかわかりません。科学哲学には、過少決定の概念がありますこれはここで適切と思われます:与えられたデータセットについて、データに適合するようにいつでも何らかの分布(または分布の混合)と損失関数LLLを賢明に選択できます(したがって、それを説明すると主張できます)。また、閾値は、そのLLLモデルが適切にデータを任意で説明することを主張する人のための下でなければならない(種類p値などから、なぜそれはp&lt;0.05p&lt;0.05p < 0.05としないp&lt;0.1p&lt;0.1p < 0.1又はp&lt;0.01p&lt;0.01p < 0.01?)。 上記に基づいて、どのように説明するモデルを客観的に検証できますか?

1
説明モデリングのバイアスを最小化する理由 (ガリット・シュムエリの「説明するか予測する」)
この質問はGalit Shmueliの論文「説明するか予測する」を参照しています。 具体的には、セクション1.5「説明と予測は異なる」で、シュムエリ教授は次のように書いています。 説明モデリングでは、基礎となる理論の最も正確な表現を得るために、バイアスを最小化することに重点が置かれます。 これは私が論文を読むたびに私を困惑させました。どのような意味で、推定値のバイアスを最小化すると、基礎となる理論の最も正確な表現が得られますか? 私はまた、教授Shmueliの話見て、ここで、JMPディスカバリー・サミット2017で配信、そして彼女は述べています: ...収縮モデル、アンサンブルのようなもの、あなたはそれらを見ることはありません。これらのモデルは、設計上、全体的なバイアス/分散を減らすためにバイアスを導入するためです。それが彼らがそこにいない理由であり、それをすることは理論的に意味をなさない。モデルを意図的に偏らせるのはなぜですか? これは本当に私の質問に光を当てるものではなく、単に私が理解していないという主張を言い直しているだけです。 理論に多くのパラメータがあり、それらを推定するためのデータが少ない場合、推定誤差は分散によって支配されます。この状況で、リッジ回帰のようなバイアスのある推定手順を使用するのが不適切なのはなぜですか(結果として、より低い分散のバイアスのある推定になります)?

1
説明モデルのLASSO:パラメーターが縮小されているかどうか?
データを理解することを主な目的とする分析を行っています。データセットは相互検証(10k)に十分な大きさで、予測子には連続変数とダミー変数の両方が含まれ、結果は連続です。主な目標は、モデルを解釈しやすくするために、いくつかの予測子を除外することが理にかなっているかどうかを確認することでした。 質問: 私の質問は、「どの変数が結果を説明し、その説明の「十分に強い」部分であるか」です。ただし、Lassoのラムダパラメーターを選択するには、交差検証、つまり予測有効性を基準として使用します。推論を行う場合、予測有効性は、私が尋ねている一般的な質問に対する十分な代案ですか? LASSOは8つの予測子のうち3つだけを保持したとしましょう。そして今、私は「これらが結果にどのような影響を与えるか」と自問します。たとえば、性別の違いを発見しました。投げ縄収縮後の係数は、女性のスコアが男性よりも1ポイント高いことを示しています。しかし、収縮がない場合(つまり、実際のデータセットでは)、スコアは2.5ポイント高くなります。 私の「本当の」性別効果としてどれをとりますか?予測の妥当性によってのみ行くと、それは収縮係数になります。 または、ある文脈で、統計に精通していない人々のためにレポートを書いていると言います。どの係数を彼らに報告しますか?

1
完全(グローバル)回帰モデルに基づく推論は適切ですか?
完全なモデルに基づく推論は適切であり、適切な場合はどのような状況ですか? 応答変数といくつかの候補予測子変数の間の潜在的な関係に関心があり、何らかの形の回帰(たとえば、一般化線形モデル)を使用してそれに答えるとします。どの予測因子が「重要」であるか、または応答と明らかに真の関係にあるかを推測する1つのアプローチは、情報理論的基準(たとえばAIC)に基づくモデル比較です。最終モデルで保持されない変数は応答とある程度の関係があるかもしれませんが、モデルに保持されている他の予測子を考えると、それらは本質的に追加の実質的な情報を提供しません。 完全な(グローバル)モデル(すべての候補予測子を含む)を単純に当てはめて、そこで停止し、t統計(または他の統計)とp値のみに基づいて個々の予測子に基づいて推論する方が適切な場合はありますかこの完全なモデルでは、さらにモデルを選択する必要はありませんか? 私は、潜在的な欠点はあるものの、これを行うのが賢明なことかもしれないという提案に遭遇しました(例:Whittingham et al。「なぜなぜ生態学と行動に段階的モデリングを使用するのですか?」(2006)。偏りはありませんが、モデルの他の(「重要でない」)変数がそれらに影響を与える可能性があるため、他のソースはこれらの推定値とp値は信頼できないと述べています。 潜在的な生物学的関係を理解することを目的とする場合、どの方法がより適切でしょうか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.