Rでダミーコーディングの代わりにエフェクトコーディングで回帰を行う方法は？

現在、カテゴリ変数/因子変数のみを独立変数として持つ回帰モデルに取り組んでいます。私の従属変数はロジット変換比です。

Rは、「ファクター」タイプであるダミーをコーディングする方法を自動的に認識するため、Rで通常の回帰を実行するだけでかなり簡単です。ただし、このタイプのコーディングでは、各変数の1つのカテゴリがベースラインとして使用されるため、解釈が難しくなります。

私の教授は、代わりにエフェクトコーディング（-1または1）を使用するように言っています。これは、インターセプトに大平均を使用することを意味するためです。

誰もそれを処理する方法を知っていますか？

今まで私は試しました：

gm <- mean(tapply(ds$ln.crea, ds$month,  mean))
model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum))

Call:
lm(formula = ln.crea ~ month + month * month + year + year * 
    year, data = ds, contrasts = list(gm = contr.sum))

Residuals:
     Min       1Q   Median       3Q      Max 
-0.89483 -0.19239 -0.03651  0.14955  0.89671 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -3.244493   0.204502 -15.865   <2e-16 ***
monthFeb    -0.124035   0.144604  -0.858   0.3928    
monthMar    -0.365223   0.144604  -2.526   0.0129 *  
monthApr    -0.240314   0.144604  -1.662   0.0993 .  
monthMay    -0.109138   0.144604  -0.755   0.4520    
monthJun    -0.350185   0.144604  -2.422   0.0170 *  
monthJul     0.050518   0.144604   0.349   0.7275    
monthAug    -0.206436   0.144604  -1.428   0.1562    
monthSep    -0.134197   0.142327  -0.943   0.3478    
monthOct    -0.178182   0.142327  -1.252   0.2132    
monthNov    -0.119126   0.142327  -0.837   0.4044    
monthDec    -0.147681   0.142327  -1.038   0.3017    
year1999     0.482988   0.200196   2.413   0.0174 *  
year2000    -0.018540   0.200196  -0.093   0.9264    
year2001    -0.166511   0.200196  -0.832   0.4073    
year2002    -0.056698   0.200196  -0.283   0.7775    
year2003    -0.173219   0.200196  -0.865   0.3887    
year2004     0.013831   0.200196   0.069   0.9450    
year2005     0.007362   0.200196   0.037   0.9707    
year2006    -0.281472   0.200196  -1.406   0.1625    
year2007    -0.266659   0.200196  -1.332   0.1855    
year2008    -0.248883   0.200196  -1.243   0.2164    
year2009    -0.153083   0.200196  -0.765   0.4461    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.3391 on 113 degrees of freedom
Multiple R-squared: 0.3626, Adjusted R-squared: 0.2385 
F-statistic: 2.922 on 22 and 113 DF,  p-value: 0.0001131

r regression categorical-data categorical-encoding

— カスパー・クリステンセン
ソース

？Rのヘルプファイルをチェック-コントラストを見て、私は総平均に対するテストにそのcontr.sumを考える

— user20650

これが役に立つかもしれません：unc.edu/courses/2006spring/ecol/145/001/docs/lectures/...

— mark999

回答:

原則として、2種類のコントラストコーディングがあり、これらを使用してインターセプトはグランド平均を推定します。これらは合計コントラストと繰り返しコントラスト（スライドの違い）です。

データセットの例を次に示します。

set.seed(42)
x <- data.frame(a = c(rnorm(100,2), rnorm(100,1),rnorm(100,0)),
                b = rep(c("A", "B", "C"), each = 100))

条件の意味：

tapply(x$a, x$b, mean)
         A           B           C 
2.03251482  0.91251629 -0.01036817

グランド平均：

mean(tapply(x$a, x$b, mean))
[1] 0.978221

のcontrastsパラメータを使用して、コントラストコーディングのタイプを指定できますlm。

コントラストの合計

lm(a ~ b, x, contrasts = list(b = contr.sum))

Coefficients:
(Intercept)           b1           b2  
     0.9782       1.0543      -0.0657

切片はグランド平均です。最初の勾配は、最初の因子レベルとGrand Meanの差です。2番目の勾配は、2番目の因子レベルとグランド平均の差です。

繰り返されるコントラスト

繰り返しコントラストを作成する機能は、MASSパッケージの一部です。

lm(a ~ b, x, contrasts = list(b = MASS::contr.sdif))

Coefficients:
(Intercept)         b2-1         b3-2  
     0.9782      -1.1200      -0.9229

切片はグランド平均です。勾配は、連続する因子レベル間の違いを示します（2対1、3対2）。

— スヴェン・ホーエンシュタイン
ソース

うーん、あなたが提案したことを試してみましたが、どのコードが私が望むことをするのかわかりません。問題は、あるIVで{1998、...、2007}年、別のIVで{Jan、...、Dec}年であるということです。それが今であるとして、それは理にかなっている場合は、LM機能は自動的に私は本当に知らない...代わりに私はちょうど切片が全体の平均になりたいだけでなく、1998年のように4月がインターセプトになってみましょうするときそれについて考えて...

— カスパークリステンセン

@KasperChristensen例のようにコントラストを指定すると、切片はグランド平均になります。試したことの再現可能な例を提供してください。

— スベンホーエンシュタイン

@SvenHohensteinなぜ和の対比にCカテゴリ値のb3係数がないのですか？-0.9885891でなければなりません。

— ヴィヴァルディ

@Vivaldi b3の値は、切片とb1、b2によって決まります。別の対比のために残された自由度はありません。

— スベンホーエンシュタイン

@SvenHohenstein b3は他の変数の線形結合として直接表現できるので、これは共線性の問題ではありません：（3 *総平均-b1-b2）？

— ヴィヴァルディ

Nitpicking：教授が変数のコーディング(-1, 1)を教えてくれた場合、エフェクトサイズではなくエフェクトコーディングを使用するように言われました。とにかく、@ user20650は正しいです。いつものように、UCLA統計ヘルプWebサイトには、Rでこれを行う方法を説明した便利なページがあります。

— gung-モニカの回復
ソース