回帰モデルの変数の制御と研究デザインの変数の制御の違いは何ですか？

研究デザインで変数を制御する方が、回帰モデルでその場で制御するよりも、エラーを減らすのに効果的だと思います。

これら2つの「制御」のインスタンスの違いを正式に説明してもらえますか？エラーを削減し、より正確な予測を行う上で、それらはどれほど効果的ですか？

regression experiment-design controlling-for-a-variable

— mrt
ソース

「スタディデザインで変数を制御する」とは、すべてのスタディユニットで変数を一定にすること、または変数のレベルを各スタディユニットに個別に設定するように変数を操作することを意味します。つまり、研究デザインの変数を制御するということは、真の実験を行っているということです。これの利点は、因果関係を推測するのに役立つことです。

理論的には、回帰モデルの変数を制御することは、因果関係の推測にも役立ちます。ただし、これは、応答に直接因果関係があるすべての変数を制御する場合にのみ当てはまります。そのような変数を省略した場合（おそらく、その変数を含めることを知らなかった）、それが他の変数と相関している場合、因果関係の推論は偏り、不正確になります。実際には、すべての関連変数を知っているわけではないため、統計的制御は、確認できない大きな仮定に依存するかなり厄介な試みです。

しかし、あなたの質問は因果関係を推測するのではなく、「エラーを減らしてより正確な予測をもたらす」ことについて尋ねています。これは別の問題です。研究デザインを通じて特定の変数を一定にする場合、その変数に起因する応答の変動性はすべて排除されます。一方、変数を単純に制御する場合は、少なくともサンプリング誤差の影響を受けるその影響を推定しています。言い換えれば、統計的管理は、長期的に見れば、サンプルの残差分散を減らすのにそれほど良いものではありません。

ただし、エラーを減らしてより正確な予測を取得することに関心がある場合は、サンプル内の精度ではなく、主にサンプル外のプロパティに関心があると考えられます。そしてそこに摩擦があります。変数を何らかの形で操作して（一定に保つなどして）変数を制御すると、元の自然な観察よりも人工的な状況が作成されます。つまり、実験は、観察研究よりも外部妥当性 /一般化可能性が低くなる傾向があります。

はっきりしない場合、一定の値を保持する真の実験の例は、すべて遺伝的に同一である近交系マウスを使用して、マウスモデルでの治療を評価することです。一方、変数を制御する例としては、疾患の家族歴をダミーコードで表し、その変数を重回帰モデルに含める場合があります（「他の変数の制御」はどのように正確に行われますか？、そしてどのように2番目のIVを追加すると、1番目のIVが重要になりますか？）。

— gung-モニカの回復
ソース

素晴らしい説明！@gung

— アーロン・ゼン