予測変数が欠落している重回帰


9

yバツ1バツ2バツの形式のデータセットが与えられたとしますyバツ1バツ2バツ1xの値に基づいてyを予測するタスクが与えられます。:我々は2つの回帰どこ見積もり yとバツ

(1)y=f1バツ1バツ1バツ(2)y=f2バツ1バツ1

我々はまた、の値を予測する回帰推定の値に基づいて、X 1X N - 1:であり、 X N =をfを3X 1X N - 1バツバツ1バツ1

(3)バツ=fバツ1バツ1

値が与えられたとすると、yを予測する2つの異なる方法があることになります。バツ1バツ1y

(4)y=f1バツ1バツ1fバツ1バツ1(5)y=f2バツ1バツ1

一般的にどちらが良いでしょうか?

最初の方程式は2つの形式のデータポイントからの情報を利用するので、2番目の方程式は予測子値を持つデータポイントのみからの情報を利用するため、より良いと思います。統計に関するトレーニングは限られているため、専門家のアドバイスを求めたいと思います。1

また、一般的に、情報が不完全なデータに対する最善のアプローチは何ですか?つまり、次元すべてに値がないデータから最も多くの情報を抽出するにはどうすればよいでしょうか。


実績による見積もりと見積もりによる見積もり-決定:)
PhD

本当にそれは簡単ですか?
Xiaowen Li

答えは、場合によります。どのくらいのデータが欠落していますか?全体でどのくらいのデータがありますか?予測変数はいくつありますか?
Joel W.

回答:


6

+1、これは本当に興味深く、明確に述べられた質問だと思います。しかし、この状況を考える上で、より多くの情報が役立ちます。

バツy12バツy1

バツ1バツ1バツバツ12

4124

1yバツ4412

2複数代入


バツ

1
わかりました、これは回帰を理解することだけだと思いました。私は多重代入を検討します。
gung-モニカの復活

r2

回帰に関する抽象的な議論をありがとう。真実を見つける方法として統計を見ると、統計は美しく興味深いものになる可能性があります。データセットを
使い終わっ

パラメトリック分数補完をチェックする必要があります。これは、アイオワ州のJae Kwang Kimが行った作業で、この状況に最適です。biomet.oxfordjournals.org/content/98/1/119.abstractを
StatsStudent
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.