モデル調整をわかりやすい英語で説明する


14

特に疫学における統計分析の方法と結果について読むと、モデルの調整制御についてよくにします。

非統計学者に、その目的をどのように説明しますか?特定の変数を制御した後、結果をどのように解釈しますか?

StataまたはRでの小さなウォークスルー、またはオンラインへのポインターは、本当の宝石です。

回答:


29

例として説明するのが最も簡単です:

ワールドカップ決勝を観戦した人は、観戦しなかった人よりも試合中またはその後の24時間に心臓発作を起こす可能性が高いことが研究でわかったと想像してください。政府はテレビのフットボールを禁止すべきですか?しかし、男性は女性よりもサッカーを見る可能性が高く、男性は女性よりも心臓発作を起こす可能性が高くなります。したがって、サッカー観戦と心臓発作の関連は、両方に影響する性別などの3番目の要因によって説明される可能性があります。(社会学者は、間をここに区別するだろう性別、サッカーは観戦に関連付けられている文化的な構築物とのセックス、心臓発作の発生に関連する生物学的カテゴリですが、この2つは明らかに非常に強く相関しているため、簡単にするためにその区別を無視します。)

統計学者、特に疫学者は、このような第三の要因を交絡因子と呼び、現象を交絡させます。この問題を解決する最も明白な方法は、性別で層別化するために、男性と女性の別々に、または専門用語で、サッカー観戦と心臓発作の関連を調べることです。関連付けがまだ存在する場合は、両方の性別で類似していることがわかった場合、2つの性別の関連性の2つの推定値を組み合わせることができます。その結果、サッカー観戦と心臓発作の発生率との関連性の推定値は、性別に調整または制御れていると言われます。

同様に、他の要因も制御したいと思うでしょう。年齢も明らかです(実際、疫学者は年齢と性別でほぼすべての関連性を層別化または調整/制御します)。社会経済学のクラスはおそらく別のものです。例えば、試合を見ている間にビールの消費を調整する必要がありますか?たぶん、もし私たちが試合を見ているだけのストレスの影響に興味があるなら。ワールドカップサッカーの放送を禁止することを検討していて、それがビールの消費量を減らすことになる場合は、そうではありません。与えられた変数が交絡因子であるかどうかは、正確にどの質問に対処したいかに依存します。これには非常に慎重な思考が必要であり、非常にトリッキーで、さらには議論を呼ぶことさえあります。

明らかに、いくつかの要因(社会階級など)で測定されるものもあれば、連続(例:年齢)で測定される可能性のあるいくつかの要因を調整/制御することもできます。(年齢)グループに分割することで連続的なものに対処することができ、それによってそれらをカテゴリー的なものに変えることができます。たとえば、2つの性別、5つの社会階級グループ、7つの年齢グループがあるとします。これで、2×5×7 = 70層でのフットボール観戦と心臓発作の関連性を見ることができます。しかし、私たちの研究がかなり小規模で、それらの層の一部に非常に少数の人しか含まれていない場合、このアプローチで問題が発生します。そして実際には、十数個以上の変数を調整したい場合があります。変数が多数ある場合に特に有用な変数の調整/制御の代替方法は、回帰分析ます多変数回帰分析とも呼ばれる、複数の従属変数を使用します。(結果変数のタイプに応じて、異なるタイプの回帰モデルがあります:最小二乗回帰、ロジスティック回帰、比例ハザード(Cox)回帰...)。観察研究では、実験とは対照的に、多くの潜在的な交絡因子を調整する必要があるため、実際には交絡因子の調整/制御は回帰分析によって行われますが、標準化、重み付け、傾向などの他の代替手段もありますスコアマッチング...


3
+1(少なくとも+3に値するが)-非常に徹底的かつ包括的な。私にとって問題全体をより明確にしました。ありがとう!
radek

「変数の多くが存在する場合に特に役立つ変数の調整/制御の代替方法は、多変数回帰分析として知られる複数の従属変数を使用した回帰分析によって提供されます。」それは「独立」しているのでしょうか、それとも私は誤解していますか?そして、このためのより一般的な専門用語、「重回帰」ですか?(私はそれが議論の余地があることを知っています)
リチャードディサルボ

10

ワンストップはそれを非常によく説明しました。構成されたデータを使用した単純なRの例を挙げます。xが重量で、yが身長で、男性と女性の間に違いがあるかどうかを調べたいとしましょう。

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

体重を制御しなくても(anova(lm1)で)性差はほとんどありませんが、体重を共変量(lm2で制御)として含めると、その差がより明確になります。

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.