一般的なデータベースの変数選択手順(たとえば、順方向、逆方向、ステップワイズ、すべてのサブセット)では、次のような望ましくないプロパティを持つモデルが生成される傾向があります。
- ゼロから偏る係数。
- 標準誤差が小さすぎ、信頼区間が狭すぎます。
- 公示された意味を持たない統計とp値をテストします。
- 過度に楽観的なモデル適合の推定値。
- 意味のない用語が含まれる(例えば、下位の用語の除外)。
それでも、変数選択手順は持続します。変数選択の問題を考えると、なぜこれらの手順が必要なのですか?それらの使用の動機は何ですか?
議論を始めるためのいくつかの提案....
- 解釈可能な回帰係数が必要ですか?(多くのIVを持つモデルで誤解されていますか?)
- 無関係な変数によって導入された分散を排除しますか?
- 独立変数間の不要な共分散/冗長性を排除しますか?
- パラメーター推定の数を減らす(検出力、サンプルサイズの問題)
他にありますか?変数選択手法によって対処される問題は、変数選択手順が導入する問題よりも多かれ少なかれ重要ですか?いつ使用する必要がありますか?いつ使用すべきではありませんか?