私が理解していることから、(少なくとも回帰コンテキストでは)p値に基づいた変数選択には大きな欠陥があります。AIC(または同様の)に基づく変数の選択も、同様の理由でいくつかの欠陥があると考えられますが、これは少し不明瞭に見えます(たとえば、このトピックに関する私の質問といくつかのリンクを参照してください。)。
ただし、これら2つの方法のいずれかを使用して、モデル内の最適な予測子のセットを選択するとします。
Burnham and Anderson 2002(モデル選択およびマルチモデル推論:実用的な情報理論的アプローチ、83ページ)では、AICに基づく変数選択と仮説検定に基づく変数選択を混在させないでください:「帰無仮説および情報理論的アプローチのテスト一緒に使用しないでください。これらは非常に異なる分析パラダイムです。」
一方、Zuur et al。2009(R、ページ541とエコロジーで拡張子を持つ混合効果モデル)の使用を提唱するように見える最初の最適なモデルを見つけ、その後、仮説検定を使用して「微調整」を実行するAICを:「欠点はAICが保守的であることができるということです、AICが最適なモデルを選択したら、(アプローチ1からの仮説検定を使用して)微調整を適用する必要がある場合があります。」
これにより、どちらのアプローチに従うべきかについて、両方の本の読者が混乱していることがわかります。
1)これらは、統計的思考の異なる「キャンプ」であり、統計学者の間の不一致のトピックですか?これらのアプローチの1つは、単に「時代遅れ」になっていますが、執筆時点では適切と考えられていましたか?または、最初から単純に間違っているのでしょうか?
2)このアプローチが適切となるシナリオはありますか?たとえば、私は生物学的背景から来ています。そこでは、どの変数が応答に影響を与えているか、またはそれを推進しているように見えるかを判断しようとしています。多くの場合、説明変数の候補がいくつかありますが、どちらが「重要」かを(相対的な観点から)見つけようとしています。また、候補予測変数のセットは、生物学的関連性があると考えられるものに既に削減されていますが、これには5-20の候補予測変数が含まれている場合があります。