ステップワイズモデル選択のメリットについてはすでに説明しましたが、「ステップワイズモデル選択」または「ステップワイズ回帰」が正確に何であるかは、はっきりしなくなりました。私はそれを理解したと思ったが、もう確かではない。
私の理解では、これらの2つの用語は同義語であり(少なくとも回帰のコンテキストでは)、データが与えられた場合、「最適」または「最良」のモデルにおける予測変数の最適なセットの選択を指します。(ここにWikipediaのページがあり、ここに役立つと思われる別の概要があります。)
以前のいくつかのスレッド(例:ここでは自動モデル選択のアルゴリズム)に基づいて、段階的なモデル選択は主要な罪と見なされているようです。それでも、それは、尊敬されている統計学者と思われるものを含め、常に使用されているようです。または、用語を混同していますか?
私の主な質問は:
「段階的モデル選択」または「段階的回帰」とは、次のことを意味します
。A)尤度比検定などの逐次仮説検定を行うか、p値を調べるか。(ここに関連する投稿があります:段階的な選択を実行した後にp値が誤解を招くのはなぜですか?)これはそれが意味することであり、なぜ悪いのですか?
または
B)AIC(または類似の情報量基準)に基づく選択も同様に悪いと考えていますか?自動モデル選択のアルゴリズムの回答から、これも批判されているようです。一方、ウィッティンガム等。(2006; pdf)1 情報理論(IT)アプローチに基づく変数選択は段階的選択とは異なることを示唆しているようです(有効なアプローチのようです)...?そして、これが私のすべての混乱の原因です。
フォローアップするために、AICベースの選択が「段階的」に該当せず、不適切であると見なされる場合、追加の質問を次に示します。
このアプローチが間違っている場合、なぜそれが教科書や大学のコースなどで教えられているのですか?それはすべて間違っていますか?
モデルに残す必要がある変数を選択するための適切な代替手段は何ですか?相互検証とトレーニングテストデータセット、およびLASSOを使用するための推奨事項を見つけました。
考えられるすべての変数を無差別にモデルに投入し、段階的な選択を行うことには問題があることに誰もが同意できると思います。もちろん、いくつかの健全な判断は、最初に何が起こるかを導くべきです。しかし、いくつかの(たとえば生物学的)知識に基づいて、可能な限られた数の予測変数から始めて、これらすべての予測変数が私たちの応答を説明しているとしたらどうでしょうか。このモデル選択のアプローチにはまだ欠陥がありますか?また、異なるモデル間のAIC値が非常に類似している場合(およびそのような場合にマルチモデル推論が適用される場合)は、「最良の」モデルの選択が適切でない場合があることを認めます。しかし、AICベースの段階的選択を使用するという根本的な問題は依然として問題ですか?
どの変数が応答をどのように説明しているように見えるのかを調べている場合、「すべてのモデルが間違っているが、一部は有用である」ことがわかっているため、なぜこのアプローチが間違っているのでしょうか。
1. Whittingham、MJ、Stephens、PA、Bradbury、RB、およびFreckleton、RP(2006)。なぜ生態学と行動でまだ段階的モデリングを使用するのですか?Journal of Animal Ecology、75、pp。1182〜1189。