実験で制御変数を使用していますか？

治療群への割り当てがランダムな状況で、ベースライン共変量をいくつも制御する必要があるのはなぜですか？

私の理解では、治療をランダムに割り当てると、治療変数が厳密に外因性になり、適切に反事実と見なすことができるコントロールグループが作成されます。私が考えることができる唯一の例外は、サンプルサイズが小さい場合であり、そのランダムな割り当ては依然として不均衡なグループを生成する可能性があります。

どんな考えでも大歓迎です。ありがとう！

experiment-design treatment-effect random-allocation

— ロブ
ソース

回答:

頻度主義の観点から、順列分布に基づく未調整の比較は、（適切に）無作為化された研究に従って常に正当化できます。順列分布との類似性により、共通のパラメトリック分布（たとえば、分布または分布）に基づく推論についても、同様の正当化を行うことができます。実際、事後分析に基づいて選択された共変量を調整すると、実際にはタイプIのエラーが増大するリスクがあります。この正当化は、観測されたサンプルのバランスの程度、またはサンプルのサイズとは関係がないことに注意してください（小さいサンプルの場合、順列分布はより離散的であり、 $t$ $F$ $t$ または分布）。 $F$

とはいえ、共変量を調整すると線形モデルの精度が向上することを多くの人が知っています。具体的には、共変量を調整すると、結果が予測され、治療変数と相関しない場合に、推定治療効果の精度が向上します（ランダム化研究の場合と同様）。ただし、あまり知られていないのは、これが非線形モデルに自動的に引き継がれないことです。たとえば、RobinsonとJewell [1]は、ロジスティック回帰の場合、共変量を制御すると、結果が予測できる場合でも、推定される治療効果の精度が低下することを示しています。しかし、推定された治療効果は、共変量について調整し、また、調整モデルに大きいので、結果を予測し無作為化試験後に治療効果がないという帰無仮説を検証する際の効率を高めます。

[1] LDロビンソンとNPジュエル。ロジスティック回帰モデルでの共変量調整に関するいくつかの驚くべき結果。国際統計レビュー、58（2）：227–40、1991。

— フィル・シューム
ソース

こんにちは-興味深い答え。これについてオフラインで会話することに興味がありますか？

— rolando2 14年

結果が他の観察可能な要因と同様に治療に依存している場合、後者を管理することで影響の見積もりの精度が向上することがよくあります（つまり、治療効果の標準誤差が小さくなります）。サンプルサイズが小さい場合、これは役立ちます。

以下は、処理がランダムであるにもかかわらず、標準誤差が3分の1に縮小する単純なシミュレーションです。

. set obs 100
obs was 0, now 100

. gen treat =mod(_n,2)

. gen x=rnormal()

. gen y = 2 + 3*treat + 1*x + rnormal()

. reg y treat

      Source |       SS       df       MS              Number of obs =     100
-------------+------------------------------           F(  1,    98) =  112.75
       Model |  209.354021     1  209.354021           Prob > F      =  0.0000
    Residual |  181.973854    98  1.85687606           R-squared     =  0.5350
-------------+------------------------------           Adj R-squared =  0.5302
       Total |  391.327875    99  3.95280682           Root MSE      =  1.3627

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       treat |   2.893814   .2725345    10.62   0.000     2.352978     3.43465
       _cons |   2.051611    .192711    10.65   0.000     1.669183     2.43404
------------------------------------------------------------------------------

. reg y treat x

      Source |       SS       df       MS              Number of obs =     100
-------------+------------------------------           F(  2,    97) =  180.50
       Model |  308.447668     2  154.223834           Prob > F      =  0.0000
    Residual |  82.8802074    97  .854435127           R-squared     =  0.7882
-------------+------------------------------           Adj R-squared =  0.7838
       Total |  391.327875    99  3.95280682           Root MSE      =  .92436

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       treat |   2.918349   .1848854    15.78   0.000     2.551403    3.285295
           x |   1.058636   .0983022    10.77   0.000     .8635335    1.253739
       _cons |   1.996209    .130825    15.26   0.000     1.736558     2.25586
------------------------------------------------------------------------------

— Dimitriy V. Masterov
ソース

+1-もう1つの理由は、治療との相互作用の影響を特定することですが、これには、言及されたOPのような他の要因を単に「制御」するだけではありません。

— アンディW

ありがとう！したがって、1つ以上の共変量が測定しようとしている結果に影響を与える場合、それらをモデルに含めると、ランダムに割り当てられた治療効果の推定の精度が向上しますが、実際の値の推定には影響しません治療係数、正しい？

— Robb

はい、そうです。

— Dimitriy V.Masterov 2014年

オフトピックのpingについての謝罪：[randomized-experiment]を[random-allocation]タグの同義語にするというメタの提案があります（stats.meta.stackexchange.com/a/4651）。この提案に投票するには、このタグで十分な評判があります：stats.stackexchange.com/tags/random-allocation/synonyms-通過するには4つの賛成票が必要です。提案に同意しない場合は、メタにコメントして理由を説明することを検討してください。このコメントはまもなく削除します。乾杯。

— アメーバ2017年