予測変数が欠落している重回帰

$(y,x_{1},x_{2},\cdots, x_{n})$ との形式のデータセットが与えられたとします $(y,x_{1},x_{2},\cdots, x_{n-1})$ 。値に基づいて $y$ を予測するタスクが与えられます。：我々は2つの回帰どこ見積もり $x$

\begin{aligned} （1） & y & = f_{1} （ {バツ}_{1} 、 \dots 、 {バツ}_{ん - 1} 、 {バツ}_{ん} ） \\ （2） & y & = f_{2} （ {バツ}_{1} 、 \dots 、 {バツ}_{ん - 1} ） \end{aligned}

$\begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align}$

我々はまた、の値を予測する回帰推定の値に基づいて、：であり、 $x_{n}$ $(x_{1},\cdots, x_{n-1})$

\begin{matrix} （3） & {バツ}_{ん} = f_{３} （ {バツ}_{1} 、 \dots 、 {バツ}_{ん - 1} ） \end{matrix}

$x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3}$

値が与えられたとすると、を予測する2つの異なる方法があることになります。 $(x_{1},\cdots, x_{n-1})$ $y$

\begin{aligned} （4） & y & = f_{1} （ {バツ}_{1} 、 \dots 、 {バツ}_{ん - 1} 、 f_{３} （ {バツ}_{1} 、 \dots 、 {バツ}_{ん - 1} ） ） \\ （5） & y & = f_{2} （ {バツ}_{1} 、 \dots 、 {バツ}_{ん - 1} ） \end{aligned}

$\begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align}$

一般的にどちらが良いでしょうか？

最初の方程式は2つの形式のデータポイントからの情報を利用するので、2番目の方程式は予測子値を持つデータポイントのみからの情報を利用するため、より良いと思います。統計に関するトレーニングは限られているため、専門家のアドバイスを求めたいと思います。 $n-1$

また、一般的に、情報が不完全なデータに対する最善のアプローチは何ですか？つまり、次元すべてに値がないデータから最も多くの情報を抽出するにはどうすればよいでしょうか。 $n$

regression multiple-regression missing-data multicollinearity multiple-imputation

— Xiaowen Li
ソース

実績による見積もりと見積もりによる見積もり-決定:)

— PhD

本当にそれは簡単ですか？

— Xiaowen Li

答えは、場合によります。どのくらいのデータが欠落していますか？全体でどのくらいのデータがありますか？予測変数はいくつありますか？

— Joel W.

+1、これは本当に興味深く、明確に述べられた質問だと思います。しかし、この状況を考える上で、より多くの情報が役立ちます。

$x_n$ $y$ $(1)$ $(2)$ $x_n$ $y$ $(1)$

$(x_1, \cdots, x_{n-1})$ $x_n$ $x_n$ $(1)$ $(2)$

$(4)$ $(1)$ $(2)$ $(4)$

$(1)$ $y$ $x_n$ $(3)$ $(4)$ $(3)$ $(4)$ $n-1$ $(2)$

— gung-モニカの回復
ソース

x_{n}

$x_n$

わかりました、これは回帰を理解することだけだと思いました。私は多重代入を検討します。

— gung-モニカの復活

r^{2}

$r^2$

回帰に関する抽象的な議論をありがとう。真実を見つける方法として統計を見ると、統計は美しく興味深いものになる可能性があります。データセットを

— 使い終わっ

パラメトリック分数補完をチェックする必要があります。これは、アイオワ州のJae Kwang Kimが行った作業で、この状況に最適です。biomet.oxfordjournals.org/content/98/1/119.abstractを

— StatsStudent