心理学やその他の分野では、次のような段階的な回帰の形式がよく使用されます。
- 残りの予測子(最初はモデルにない予測子)を見て、最大のr平方変化をもたらす予測子を特定します。
- r平方変化のp値がアルファ(通常.05)より小さい場合は、その予測子を含めて手順1に戻ります。それ以外の場合は停止します。
たとえば、SPSSのこの手順を参照してください。
この手順は、さまざまな理由で日常的に批判されています(StataのWebサイトでこの議論を参照してください)。
特に、StataのWebサイトには、Frank Harrellによるいくつかのコメントがまとめられています。私は主張に興味があります:
[ステップワイズ回帰]は、大きく偏ったR乗値を生成します。
具体的には、私の現在の研究のいくつかは、母集団r-squareの推定に焦点を当てています。母集団のr二乗によって、母集団の方程式を生成する母集団データによって説明される分散の割合を参照します。私がレビューしている既存の文献の多くは、段階的な回帰手順を使用しており、提供された推定値が偏っているかどうか、もしそうであればどの程度かを知りたいです。特に、典型的な研究では、30の予測変数、n = 200、.05のエントリのアルファ、および.50前後のr二乗推定値があります。
私が知っていること:
- 漸近的に、係数がゼロでない予測子は統計的に有意な予測子となり、r-squareは調整されたr-squareと等しくなります。したがって、漸近的な段階的回帰では、真の回帰方程式と真の母集団r平方を推定する必要があります。
- サンプルサイズが小さい場合、一部の予測子が省略される可能性があるため、すべての予測子がモデルに含まれていた場合よりもr平方が小さくなります。しかし、データをサンプリングするためのr-squareの通常のバイアスもr-squareを増加させます。したがって、私の素朴な考えは、これらの2つの対立する力が特定の条件下で不偏のr二乗になる可能性があるということです。より一般的には、バイアスの方向は、データのさまざまな機能とアルファ包含基準に依存します。
- より厳密なアルファ包含基準(たとえば、.01、.001など)を設定すると、データの生成に予測子が含まれる確率が低くなるため、予想される推定r-squareが低くなります。
- 一般に、r-squareは母集団r-squareの上方に偏った推定値であり、この偏りの程度は、予測子が多くなり、サンプルサイズが小さくなると増加します。
質問
最後に、私の質問:
- 段階的回帰からのr 2乗は、どの程度まで人口r 2乗の偏った推定値になりますか?
- このバイアスは、サンプルサイズ、予測子の数、アルファ包含基準、またはデータのプロパティにどの程度関連していますか?
- このトピックに関する参照はありますか?