段階的な選択にはさまざまな問題があります。私はここで私の答えで段階的に議論しました:自動モデル選択のためのアルゴリズム。その答えでは、私は主に推論の問題に焦点を合わせていませんでしたが、係数が偏っているという事実に注目しています(試してみる選手は変数に類似しています)。係数はそれらの真の値から離れて偏っているので、サンプル外の予測誤差は大きくなります、ceteris paribus。
バイアスと分散のトレードオフの概念を考えてみましょう。あなたは、予測誤差の分散として、モデルの精度を考えた場合(すなわち、MSE:)、予想される予測誤差が分散の3つの異なるソースの合計は次のとおりです。E [(Y I - Y I )2 ] = V R(F)+ [ B I S (1 / n ∑ (y私− y^私)2
これらの3つの項は、関数の推定値の分散、推定値のバイアスの2乗、およびデータ生成プロセスの既約誤差です。(後者はデータが確定的ではないために存在します。平均よりも近い予測は得られません。)前者の2つは、モデルを推定するために使用された手順に由来します。デフォルトでは、OLSはモデルの推定に使用される手順であると考えるかもしれませんが、OLS推定よりも段階的に選択すると言う方がより正確です。
E[(y私− y^私)2] =Var( f^)+ [ B i a s(f^)]2+ V a r(ε )
手順です。バイアス分散のトレードオフの考え方は、説明モデルは公平性を正しく強調しているのに対し、予測モデルは、分散が十分に減少している場合、バイアスされた手順を使用することから利益を得る可能性があります(詳細な説明については、
収縮方法で解決される問題を参照)
?)。
これらのアイデアを念頭に置いて、私の答えの一番上にリンクされているポイントは、大きなバイアスが引き起こされているということです。すべてが等しい場合、サンプルの予測が悪化します。残念ながら、段階的な選択では推定値の分散は減少しません。せいぜい、その分散は同じですが、それは同様に非常に可能性の高い分散がはるかに悪いようにすることです(例えば、@Glen_bは時代の唯一の15.5%もシミュレーション研究に選ばれた右の変数は、ここで議論されたレポート:なぜ段階的な選択を実行した後に誤解を招くp値?)。