1
線形回帰における変数バイアスの省略
変数バイアスの省略について、哲学的な質問があります。 我々は、一般的な回帰モデル(母集団モデル)は サンプルが由来である(Y 、X 1、。。。、X N)、次いで、及びOLS推定値は非常にうまく挙動する条件の束。Y=β0+β1X1+...+βnXn+υ,Y=β0+β1X1+...+βnXn+υ, Y= \beta_0 + \beta_1X_1 + ... + \beta_nX_n + \upsilon, (Y,X1,...,Xn)(Y,X1,...,Xn)(Y,X_1,...,X_n) 私たちは主な変数の1を省略した場合、我々は、それを知って、、このかもしれないバイアスの推定値β 0、β 1、。。。、β K - 1、β 、K + 1、。。。、β nは。これは、少なくとも、推定上の変数の残りの効果影響を与えるY、そしてまたについて仮説検定β 1、β 2、。。。、予測値は信頼できないため。XkXkX_kβ0,β1,...,βk−1,βk+1,...,βnβ0,β1,...,βk−1,βk+1,...,βn\beta_0, \beta_1, ..., \beta_{k-1}, \beta_{k+1}, ..., \beta_nYYYβ1,β2,...β1,β2,...\beta_1, \beta_2, ... 実は、どの変数が真の母集団モデルにあるのかわかりません。代わりに、候補者が多数あり、そこから分析して最も適切なサブセットを見つける必要があります。この変数選択のプロセスでは、OLS推定と仮説検定を再度使用します。これに基づいて、さまざまな変数を拒否または含めます。しかし、各候補モデルは関連する変数を省略しているため(真のモデルを見つけることはできません)、これらの決定は偏った結果に基づいているのではないでしょうか。では、なぜ彼らを信頼すべきなのでしょうか。 (たとえば、1つの変数を選択してから残りを追加するフォワードステップワイズ法を考えています。推論を行うモデルを比較し、省略された変数がすべてを妨害している可能性があると考えています。) 私はそれを考え始めるまでこのトピックについて心配しすぎたことは一度もありませんでしたし、どこか間違っていると確信しています。