回答のほとんどは、説明のためのモデリングと予測のためのモデリングが何であり、なぜ異なるのかを明確にするのに役立ちました。これまでのところ明確ではないのは、それらがどのように異なるかです。それで、私は役に立つかもしれない例を提供すると思いました。
大学のGPAを学業準備の機能としてモデル化することに興味があるとします。アカデミック準備の尺度として、次のものがあります。
- 適性検査スコア;
- HS GPA; そして
- 合格したAPテストの数。
予測戦略
目標が予測である場合、これらの変数をすべて線形モデルで同時に使用する可能性があり、主な関心事は予測精度です。College GPAを予測するのに最も有用であると判明した変数は、最終モデルに含まれます。
説明のための戦略
目標が説明である場合、データ削減についてより懸念し、独立変数間の相関について慎重に考えるかもしれません。私の主な関心事は係数の解釈です。
例
相関予測子を使用した一般的な多変量問題では、「予期しない」回帰係数を観察することは珍しくありません。独立変数間の相互関係を考えると、これらの変数の一部について、それらのゼロ次関係と同じ方向ではなく、直感に反して説明するのが難しいと思われる部分係数を見ることは驚くことではありません。
たとえば、モデルが(適性テストのスコアとAPテストの成功数を考慮に入れて)高い高校のGPAが低い大学のGPAに関連付けられていることを示唆しているとします。 これは予測の問題ではありませんが、このような関係を解釈するのが難しい説明モデルの問題を引き起こします。このモデルは、最高のサンプル予測を提供する可能性がありますが、アカデミック準備とカレッジGPAの関係を理解する助けにはなりません。
代わりに、説明的戦略では、主成分分析、因子分析、SEMなど、何らかの形での変数削減を求めて、次のことを行います。
- 「学業成績」の最良の尺度である変数に注目し、その1つの変数にカレッジGPAをモデル化する。または
- 元の変数ではなく、アカデミック準備の3つの測定値の組み合わせから派生した因子スコア/潜在変数を使用します。
これらの戦略は、モデルの予測力を低下させる可能性がありますが、アカデミック準備が大学GPAとどのように関連しているかについての理解を深める可能性があります。