なぜ制御変数がある場合とない場合で回帰を実行することが多いのですか?


8

私はしばしば、低nデータセット(〜100観測)から回帰を実行します。多くの場合、結果は制御変数を含めることでのみ重要になります。しかし、私はしばしば(常に膨大な数の観察がある)人々が「制御変数の有無にかかわらず」回帰を実行したと主張するジャーナル記事をよく見ます。

なぜ制御変数がある場合とない場合で回帰を実行することが多いのですか?


それで、いくつかの変数を統計的に制御したときにのみ結果が得られる場合、それはどういう意味ですか?
ChrisStata

回答:


5

まず用語について少し。定義により、制御変数はスタディを通じて一定に保たれるため、回帰で使用することはできません。あなたはおそらく統計的に制御されるべき変数を意味します。共変量やブロッキング係数など(ランダム化ブロック実験計画後)

このような変数を使用して回帰またはANOVAを実行するのは、予測変数から効果を洗い流すだけでなく、主に自分の効果が重要かどうかを確認するためです。それが重要である場合、モデルへの包含は完全に保証されます。そうでない場合は、モデルから除外することをお勧めします。

これは、ブロッキング要因にとって最も重要です。有意ではないにもかかわらずモデルに残しておくと、エラー項dfの減少により予測変数の影響を見逃すリスクがあります。ブロッキング係数はErrorとそのdfの両方を減少させ、競合状況が発生します。予測因子の意義がダウンしたり、「何が勝つ」に応じてアップする-エラー平方和のそのの秋の秋のDF。これが、より簡潔なモデルを好むことがある理由かもしれません。

これのもう1つの理由は、100もの中程度のサンプルの場合、多くのIVが重要または重要であるように見えても、過剰適合につながることです。


はい、申し訳ありませんが、統計的に制御している変数です。
ChrisStata

適切であろうとなかろうと、共変量はしばしば経済学において制御変数または制御と呼ばれます。
Peutch

3

共変量を含めるもう1つの理由は、共変量が文献で重要であることです。過去に大きな影響があることがわかっている(それ自体で、または他のパラメーターに影響を与える)共変量が研究に大きな影響を及ぼさないことを実証できれば、興味深いものを発見しました。


2

通常、これは結果と治療変数の回帰があることを意味します。次に、モデルに追加できる他のコントロールがあります-重要になる可能性がある他の共変量です。著者はまず、治療のみを含む単純なモデルを実行します。次に、調査結果の堅牢性をチェックし、他の変数を含めます。特に、他の共変量を含めることで、単純なモデルで推定された影響を低減または排除するかどうかを尋ねます。

さらに、他の共変量を含めると、通常、標準誤差が減少します。この場合、作成者は、推定された影響が単純なモデルとコントロールを含むモデルの間で比較的類似していることに気付くかもしれませんが、後者のみが推定値が有意です(通常、0とは異なります)。作成者は、標準誤差が小さいため、後者のモデルを使用して推論(仮説検定、信頼区間)を実行します。


1

上記の回答に加えて、適切な変数がある場合とない場合のモデルの比較を含むいくつかの共変量選択手法があります。そして、共変量を追加する効果を説明したい場合、そもそも参照として、粗い(調整されていない)モデルが必要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.