説明モデリングのバイアスを最小化する理由 (ガリット・シュムエリの「説明するか予測する」)


15

この質問はGalit Shmueliの論文「説明するか予測する」を参照しています。

具体的には、セクション1.5「説明と予測は異なる」で、シュムエリ教授は次のように書いています。

説明モデリングでは、基礎となる理論の最も正確な表現を得るために、バイアスを最小化することに重点が置かれます。

これは私が論文を読むたびに私を困惑させました。どのような意味で、推定値のバイアスを最小化すると、基礎となる理論の最も正確な表現が得られますか?

私はまた、教授Shmueliの話見て、ここで、JMPディスカバリー・サミット2017で配信、そして彼女は述べています:

...収縮モデル、アンサンブルのようなもの、あなたはそれらを見ることはありません。これらのモデルは、設計上、全体的なバイアス/分散を減らすためにバイアスを導入するためです。それが彼らがそこにいない理由であり、それをすることは理論的に意味をなさない。モデルを意図的に偏らせるのはなぜですか?

これは本当に私の質問に光を当てるものではなく、単に私が理解していないという主張を言い直しているだけです。

理論に多くのパラメータがあり、それらを推定するためのデータが少ない場合、推定誤差は分散によって支配されます。この状況で、リッジ回帰のようなバイアスのある推定手順を使用するのが不適切なのはなぜですか(結果として、より低い分散のバイアスのある推定になります)?



@エイドリアンそれは素晴らしい質問です、よく尋ねられます。私もその答えを徹底的に見てみたいです!
マシュードゥルーリー

回答:


6

これは確かに大きな質問であり、計量経済学と社会科学の研究における統計モデルの使用の世界へのツアーが必要です(私が見たものから、説明的または予測的な仕事をする応用統計学者とデータマイナーは通常対処しませんこの形式のバイアス)。この記事で使用した「バイアス」という用語は、計量経済学者と社会科学者が経験的研究から因果関係を推測することに対する深刻な危険として扱うものです。それはあなたの統計モデルとそれの基礎となる因果理論モデル違いを指します。関連用語は「モデル仕様」であり、目標が因果的説明である場合に「理論に関して」「回帰モデルを正しく指定する」ことが重要であるため、計量経済学で重く教えられているトピックです。見る簡単な説明については、仕様に関するウィキペディアの記事を参照してください。主要な誤仕様の問題は、「省略された変数バイアス」(OVB)と呼ばれる仕様不足であり、そこにあるはずの回帰から説明変数を省略します(理論上)-これは従属変数と相関する変数であり、少なくとも1つの説明変数を使用します。このタイプのバイアスの意味を説明するこのきちんとした説明を参照してください。理論的な観点から、OVBはモデルから因果関係を推測する能力を損ないます。

私の論文の付録で説明するか、予測するか?指定不足の(「間違った」)モデルの予測力が高い場合がある例を示す例があります。しかし、うまくいけば、なぜそれが「良い因果説明モデル」の目標と矛盾するのかを見ることができます。


2
予測モデルと説明モデルにはまだ多くの混乱があると思います。大手保険会社のデータサイエンティストにインタビューし、彼のチームで予測モデルまたは説明モデルを構築するかどうかを尋ねました。彼は「それは本当に問題ではない」と言った-私は彼が違いを知っていたとは思わない。
ロバートF
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.