このサイトで、p値ベース、AIC、BICなど、あらゆる種類の基準を使用した変数の段階的な選択の使用に信じられないほど多くの投稿を読みました。
これらの手順が一般に、変数の選択に非常に悪い理由を理解しています。ここでの gungのおそらく有名な投稿は、その理由を明確に示しています。最終的には、仮説を立てるのに使用したのと同じデータセットで仮説を検証しています。これは単なるデータのedです。さらに、p値は共線性や外れ値などの量の影響を受け、結果が大きく歪むなど。
しかし、私は最近かなり時系列の予測を研究しており、特にARIMAモデルの最適な順序を見つけるための段階的選択の使用について彼がここで言及している Hyndmanの評判の高い教科書に出会いました。実際、forecast
R のパッケージでは、auto.arima
デフォルトで知られているよく知られているアルゴリズムは、(p値ではなくAICを使用して)ステップワイズ選択を使用します。彼はまた、このウェブサイト上の複数の投稿とうまく調和するp値ベースの機能選択を批判しています。
最終的に、目標が予測/予測の優れたモデルを開発することである場合、最後に何らかの方法で常に相互検証する必要があります。ただし、p値以外の評価指標の手順自体に関しては、これは多少不一致です。
この文脈での段階的なAICの使用について、しかしこの文脈からも一般的には誰も意見がありますか?私は、段階的な選択はどれも貧弱だと信じていると教えられてきましたが、正直なところ、auto.arima(stepwise = TRUE)
サンプル結果からより良い結果を得ていますauto.arima(stepwise = FALSE)
が、これは単なる偶然かもしれません。