ステップワイズ回帰手法はモデルの予測力を高めますか?


8

ステップワイズ回帰の多くの問題のいくつかを理解しています。ただし、学術的な取り組みとして、予測モデルに段階的回帰を使用したいと仮定し、それがパフォーマンスに与える影響をよりよく理解したいとします。

たとえば、線形モデルが与えられた場合、モデルで段階的回帰を実行すると、新しいデータが提示されたときにモデルの予測力が増加または減少する傾向がありますか?

ステップワイズ回帰が予測能力に及ぼす理論的な影響はありますか?

実践的な経験も役立ちます。おそらく、ステップワイズ回帰が予測を向上させる状況とそうでない状況です。


8
これはわかりません。まず、予測力の問題を含む問題を無視するように依頼してから、そのような問題があるかどうかを尋ねます。私たちのサイトで答えを検索してみませんか? 人気の1つはstats.stackexchange.com/questions/20836にあります。
whuber

3
(p値、係数バイアスなどではなく)予測力を取り巻く問題に焦点を当てたいと思います。あなたのフィードバックに基づいて、私は私の質問の表現を曖昧にしないようにします。サイトを検索した結果、フルモデルの予測パフォーマンスに固有の回答が得られませんでした。
鉱山掘り下げ機、2017

1
「〜の問題を無視する」には、予測力に焦点を合わせたとしても、より良い代替案を無視することが含まれますか
Matthew Drury

@MatthewDrury私は主に段階的回帰の影響に興味があります。そうは言っても、私は同様の自動化された方法の結果に確実に興味があるでしょう。
2017

最後の3つの段落には、3つの異なるものがありますか?解決したい正確な問題または目標は何ですか?
Subhash C. Davar 2017

回答:


7

段階的な選択にはさまざまな問題があります。私はここで私の答えで段階的に議論しました:自動モデル選択のためのアルゴリズム。その答えでは、私は主に推論の問題に焦点を合わせていませんでしたが、係数が偏っているという事実に注目しています(試してみる選手は変数に類似しています)。係数はそれらの真の値から離れて偏っているので、サンプル外の予測誤差は大きくなります、ceteris paribus。

バイアスと分散のトレードオフの概念を考えてみましょう。あなたは、予測誤差の分散として、モデルの精度を考えた場合(すなわち、MSE:)、予想される予測誤差が分散の3つの異なるソースの合計は次のとおりです。E [Y I - Y I 2 ] = V RF+ [ B I S 1/Σyy^2
これらの3つの項は、関数の推定値の分散、推定値のバイアスの2乗、およびデータ生成プロセスの既約誤差です。(後者はデータが確定的ではないために存在します。平均よりも近い予測は得られません。)前者の2つは、モデルを推定するために使用された手順に由来します。デフォルトでは、OLSはモデルの推定に使用される手順であると考えるかもしれませんが、OLS推定よりも段階的に選択すると言う方がより正確です。

E[yy^2]=Varf^+[Basf^]2+Varε
手順です。バイアス分散のトレードオフの考え方は、説明モデルは公平性を正しく強調しているのに対し、予測モデルは、分散が十分に減少している場合、バイアスされた手順を使用することから利益を得る可能性があります(詳細な説明については、収縮方法で解決される問題を参照))。

これらのアイデアを念頭に置いて、私の答えの一番上にリンクされているポイントは、大きなバイアスが引き起こされているということです。すべてが等しい場合、サンプルの予測が悪化します。残念ながら、段階的な選択では推定値の分散は減少しません。せいぜい、その分散は同じですが、それは同様に非常に可能性の高い分散がはるかに悪いようにすることです(例えば、@Glen_bは時代の唯一の15.5%もシミュレーション研究に選ばれた右の変数は、ここで議論されたレポート:なぜ段階的な選択を実行した後に誤解を招くp値?)。


3
p

2
ありがとう、@ CliffAB。ずいぶん前に賛成しましたが、忘れていました。実質的な答えは、EDAモデルは新しいサンプルでの複製後に真剣に検討する価値があり、予測モデルはホールドアウトデータに対して検証した後に真剣に検討する価値があることを示唆しています。私はそれらの両方に同意します。あなたのシミュレーションでは段階的にうまくいったことを認めますが、状況がそれを支持するように細かく作られていることは確かに同意します。
ガン-モニカの復活

0

正確な効果は、モデルと「真実」に依存しますが、もちろんそれは私たちにはわかりません。特定のケースでの段階的検証の効果は、相互検証するか、単純なトレーニングとテストのアプローチを使用して確認できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.