OLS回帰を実行しようとしています。
DV:1年にわたる重量の変化(初期重量-終了重量)
IV:運動するかどうか。
しかし、体重の多い人は、thinnerせた人よりも運動単位あたりの体重が減るのが妥当と思われます。したがって、制御変数を含めたかったのです。
- CV:初期開始重量。
ただし、従属変数ANDを制御変数として計算するために両方で初期重みが使用されるようになりました。
これでいいですか?これはOLSの前提に違反しますか?
OLS回帰を実行しようとしています。
DV:1年にわたる重量の変化(初期重量-終了重量)
IV:運動するかどうか。
しかし、体重の多い人は、thinnerせた人よりも運動単位あたりの体重が減るのが妥当と思われます。したがって、制御変数を含めたかったのです。
ただし、従属変数ANDを制御変数として計算するために両方で初期重みが使用されるようになりました。
これでいいですか?これはOLSの前提に違反しますか?
回答:
「変化スコアに対する独立変数の効果をテストするときに、ベースライン測定値を制御変数として含めることは有効ですか?」という文字通りの質問に答えるには、答えはnoです。答えは「いいえ」です。変更スコアを従属変数として使用すると、構築によりベースラインスコアがエラー項と相関するため、変更スコアに対するベースラインの推定効果は解釈不能です。
を使用して
とを回帰するモデルがあります; T X
定義によりこれは同等です。
ここで、ベースラインを共変量として含めると、方程式の両側に項があるという問題が発生するはずです。これは、が本質的にエラー項と相関しているため、解釈できないことを示しています。β 3 Y 1
今、様々な答えでは混乱の一部は、異なるモデルがために同じ結果が得られるという事実に由来すると思われる治療効果、私の上記の処方で。したがって、従属変数として変化スコアを使用するモデルの治療効果を「レベル」を使用するモデルと比較する場合(各モデルは共変量としてベースラインを含む)、治療効果の解釈は次のようになります。同じ。続く2つのモデルでは同じであり、それらに基づいた推論も同じです(Bruce Weaverには、同等性を示すSPSSコードが投稿されています)。Y 1 β 1 T
だから、議論する人もいます(Felixがこのスレッドで行っているように、Bruce WeaverがSPSS googleグループに関するいくつかの議論で行ったように))モデルは同じ推定治療効果をもたらすため、どちらを選択しても問題ありません。変更スコアモデルのベースライン共変量は解釈できないため、共変量としてベースラインを含めるべきではありません(推定される治療効果が同じかどうかに関係なく)。そこで、これは別の質問を提起します。変化スコアを従属変数として使用することのポイントは何ですか?フェリックスも既に述べたように、ベースラインを共変量として除外する従属変数として変化スコアを使用するモデルは、レベルを使用するモデルとは異なります。明確にするために、後続のモデルは異なる治療効果をもたらします(特に治療がベースラインと相関している場合)。
これは、以前の文献では「主のパラドックス」として注目されています。どのモデルが正しいのでしょうか?さて、ランダム化された実験の場合、レベルモデルが望ましいと言えます(ただし、ランダム化をうまく行えば、平均的な治療効果はモデル間で非常に近いはずです)。他の人はレベルモデルが望ましい理由を指摘していますが、チャーリーの答えは、レベルモデルのベースラインとの相互作用効果を推定できるという点で優れています(ただし、変更スコアモデルではできません)。非常によく似た質問に対するこの回答の Whuberは、変化スコアが異なる治療間の相関をどのように誘導するかを示しています。
治療がランダムに割り当てられていない状況では、変化スコアを従属変数として使用するモデルをさらに考慮する必要があります。変更スコアモデルの主な利点は、結果の時間不変予測変数が制御されることです。したがって、上記の定式化では、は時間を通じて一定であり(たとえば、特定の体重になる遺伝的素因など)、は個人が運動を選択するかどうかと相関します(は観察されません)。その場合、変更スコアモデルが望ましいです。また、治療への選択がベースライン値と相関している場合、変化スコアモデルが好ましい場合があります。ポールアリソンの論文で、回帰分析の従属変数としてのスコアの変更では、これらと同じ例を示しています(トピックに関する私の見解に大きく影響したため、読むことを強くお勧めします)。
これは、ランダム化されていない設定では変更スコアが常に望ましいと言っているわけではありません。ベースラインがポストウェイトに実際の因果効果をもたらすと予想される場合は、レベルモデルを使用する必要があります。ベースラインに因果効果があると予想され、治療への選択がベースラインと相関している場合、治療効果はベースライン効果と混同されます。
重みの対数を従属変数として使用できるというチャーリーのメモを無視しました。私はそれが可能性を秘めているとは思いませんが、最初の質問には多少非公平です。別の質問では、変数の対数を使用するのが適切な場合について説明しました(そして、この場合にも適用されます)。ログに記録された体重を使用することも同様に適切であるかどうかについてあなたをガイドするのに役立つ主題に関するおそらく以前の文献があります。
引用
Allison、Paul D.1990。スコアを回帰分析の従属変数として変更します。社会学的方法論 20:93-114。公開PDFバージョン。
アンディの答えは、経済学者の物事の見方のようです。臨床試験では、ほとんどの場合、応答変数のベースラインバージョンを調整して、出力を大幅に増加させることが受け入れられています。ベースライン変数を条件とするため、それらを全体のエラー用語と混同する「エラー用語」はありません。唯一の問題は、ベースライン共変量の測定誤差が別のXと混同され、他のXの効果が歪められる場合です。全体として好ましい方法は、変化を計算するのではなく、ベースラインを調整し、応答変数をモデル化することです。この理由の1つは、変更がYの変換を正しく行うことに大きく依存しており、その変更が回帰モデル一般に適用されないことです。たとえば、Yが順序であれば、2つの順序変数の差は順序ではなくなります。
@ocramの推論を少し変更して、
したがって、これが正しいモデルである場合、差は重みに依存すると言うことは、最終値が初期値に依存し、係数が何であってもよいことを意味します。上の差異の回帰を実行しておよびまたは同じ変数の端重量はあなたにすべてのものが、上の同じ係数与えるべきである。しかし、このモデルが正確に正しくない場合、これらの回帰は他の係数にも異なる結果を与えます。
この設定は、開始時の体重が治療の影響ではなく、体重の差を予測することを意味することに注意してください。これには相互作用項、おそらく
別のアプローチは、を計算すること ここで、は重量の成長率です。これがあなたの結果かもしれません。係数は、これらの予測変数が重量の割合の変化にどのように関連するかを示します。これは、たとえば、体重が130ポンドの人の体重を10%減らす運動係数(0.1に100を掛けた係数)によって体重が13ポンド減るのに対し、プログラムは20ポンドずつ200ポンドの参加者の体重。この場合、右側に初期重量(またはそのログ)を含める必要はないかもしれません。rx
プログラムの影響が開始時の体重に依存すると考えられる場合、相互作用用語が必要になる場合があります。作用項でを使用すると、プログラムは体重の成長率の変更に関連付けられます。プログラムの開始時の体重が1ポンド増えるに、成長率の変化が増加します(これは、治療と開始体重の両方に関する期待値のクロス部分微分です)。W 0 β 1 β 1
相互作用用語でを使用すると、プログラムの影響は、プログラムの開始時に参加者が1ポンドごとにずつ増加します。β 1 / wは0
ご覧のように、インタラクション用語のクロスパーシャルは解釈するのが少し難しい場合がありますが、興味のある影響を捉えることができます。
編集:Andy Wの議論はモデルCを落とすように私を説得しました。別の可能性を追加しました:ランダム係数モデル(別名マルチレベルモデルまたは混合効果モデル)による変更の分析
差分スコアの使用については多くの科学的な議論がありました。私のお気に入りのテキストは、ロゴサ(1982、[1])とフィッツモーリス、レアード、ウェア(2004、[2])です。
一般に、データを分析するには次の3つの可能性があります。
モデルAとモデルBは、ベースラインが変化スコアと相関している場合(例:重い人ほど減量が多い)、および/または治療の割り当てがベースラインと相関している場合、非常に異なる結果を生成できます。
これらの問題について詳しく知りたい場合は、引用された論文またはこちらとこちらをご覧ください。
AまたはBが望ましい条件を経験的に比較する最近のシミュレーション研究[3]もあります。
欠損値のない完全にバランスの取れた設計の場合、モデルDはモデルAと同等である必要があります。ただし、個人間のばらつきに関する詳細情報を提供し、より多くの測定ポイントに簡単に拡張でき、不均衡なデータが存在する場合でも優れた特性を備えていますおよび/または欠損値。
一番下の行として:あなたの場合、ベースライン(モデルB)に制御された事後測定値を分析します。
[1] Rogosa、D.、Brandt、D.、およびZimowski、M.(1982)。変化を測定するための成長曲線アプローチ。Psychological Bulletin、92、726-748。
[2]フィッツモーリス、GM、レアード、NM、ウェア、JH(2004)。縦断的分析の適用。ニュージャージー州ホーボーケン:ワイリー。
Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.
、BとCの同等性を示すのは誰ですか?
この質問については、Josh Angristのhttp://www.mostlyharmlesseconometrics.com/2009/10/adding-lagged-dependent-vars-to-differenced-models/をご覧ください。彼は、モデルに遅延DVを含めることに大きく反対します。上記の回答にない彼の回答には何もありませんが、質問に対するさらに簡潔な回答が役立つ場合があります。
グリモア等。(2005)変更スコアの分析時にベースライン調整を使用して対処。健康状態の変化がベースライン評価に先行する場合、または従属変数に大きな測定誤差がある場合、従属変数として変化スコアを使用する回帰モデルにベースライン共変量が含まれる場合、バイアスが発生することがあります。フランクハレルの答え「唯一の問題は、ベースラインの共変量の測定誤差が別のXと混同され、他のXの効果が歪められる場合です。」Glymourが扱うのと同じバイアスを反映している可能性があります。
Glymour(2005)「ベースライン調整は、変化の分析にいつ役立つのか?教育と認知変化の例。American Journal of Epidemiology 162:267-278
Ocramは正しくありません。重みの違いは、初期の重みを考慮しません。具体的には、初期重量は、最終重量を減算することで取得されます。
したがって、初期の重みを制御する場合、仮定に違反しないと主張します。
(BMIと最初のBMIの差を取る場合、同じロジックが適用されます。)
Andy Wの評論家の後の更新は、私が正しいとOcramが間違っている理由(少なくとも私の観点から)でより正式にさせてくれました。
各人が持っている絶対的な体重レベルがあります(たとえば、200ポンドではなく約100ポンド)。してみましょうこのabsoulte重量こと。
次に、初期重みをとして形式化し、終了重みをとして形式化できます。
したがって、OPが使用するdvは
言い換えれば、重みの絶対レベル(として定式化された)はdvを表す方程式から脱落するため、dvを汚染しません(Andy Wの主張に反します)。
これを考慮したい場合は、それをモデルに個別に(通常のパラメーターとして、および/または相互作用項として)組み込む必要があります。
明らかにこの同じロジックはにも適用され、たとえば次のような比率に簡単に対応できます
それを観察する
に等しい
言い換えれば、DVが初期重量をすでに考慮しているので、重量の変化を(最終重量自体の代わりに)使用します。