たとえば、線形回帰モデルを考えてみましょう。データマイニングで、AIC基準に基づいて段階的な選択を行った後、p値を見て、各真の回帰係数がゼロであるという帰無仮説をテストするのは誤解を招くと聞きました。代わりに、モデルに残っているすべての変数がゼロとは異なる真の回帰係数を持っていると考える必要があると聞きました。誰も私に理由を説明できますか?ありがとうございました。
たとえば、線形回帰モデルを考えてみましょう。データマイニングで、AIC基準に基づいて段階的な選択を行った後、p値を見て、各真の回帰係数がゼロであるという帰無仮説をテストするのは誤解を招くと聞きました。代わりに、モデルに残っているすべての変数がゼロとは異なる真の回帰係数を持っていると考える必要があると聞きました。誰も私に理由を説明できますか?ありがとうございました。
回答:
AIC基準に基づいて段階的な選択を行った後、p値を見て、各真の回帰係数がゼロであるという帰無仮説をテストすることは誤解を招きます。
実際、p値は、帰無仮説が真である場合に、少なくともあなたが持っているものと同じくらい極端な検定統計量を見る確率を表します。場合真である、p値は、均一な分布を持っている必要があります。
しかし、段階的な選択の後(または実際、モデル選択へのさまざまな他のアプローチの後)、モデルに残っているそれらの項のp値は、帰無仮説が真であることがわかっていても、その特性を持ちません。
これは、(使用した正確な基準に応じて)p値が小さいまたは小さい傾向がある変数を選択するために発生します。これは、モデルに残された変数のp値は、通常、単一のモデルを近似した場合よりもはるかに小さいことを意味します。モデルのクラスに真のモデルが含まれている場合、またはモデルのクラスが真のモデルに非常に近い柔軟性を持っている場合、選択は平均して、真のモデルよりもさらに適合すると思われるモデルを選択します。
[さらに、基本的に同じ理由で、残っている係数はゼロから遠ざかり、標準誤差は低く偏ります。これは、信頼区間と予測にも影響します。たとえば、予測は狭すぎます。]
これらの効果を確認するには、いくつかの係数が0であるものとそうでないもので多重回帰を行い、ステップワイズ手順を実行してから、係数がゼロの変数を含むモデルについて、結果のp値を調べます。
(同じシミュレーションで、係数の推定値と標準偏差を調べて、ゼロ以外の係数に対応するものも影響を受けることを発見できます。)
つまり、通常のp値を意味のあるものと見なすことは適切ではありません。
代わりに、モデルに残っているすべての変数を重要とみなすべきだと聞きました。
ステップワイズ後のモデル内のすべての値を「有意とみなす」べきかどうかについては、それをどのように見るのが有用な方法なのかわかりません。「意味」とはどういう意味ですか?
以下stepAIC
は、n = 100のシミュレートされた1000個のサンプルと10個の候補変数(いずれも応答に関連しない)でデフォルト設定でRを実行した結果です。いずれの場合も、モデルに残っている用語の数がカウントされました。
正しいモデルが選択されたのは15.5%だけでした。残りの時間には、モデルにはゼロと変わらない用語が含まれていました。候補変数のセットに係数ゼロの変数があることが実際に可能である場合、モデルの真の係数がゼロである項がいくつかある可能性があります。その結果、それらすべてを非ゼロとみなすことは良い考えだとは明確ではありません。