コントラストのダミーコーディング:0、1対1、-1


8

二分変数の2つの異なるコントラストの違いを理解するために、あなたの助けを求めています。

このページ:http : //www.psychstat.missouristate.edu/multibook/mlt08.htm「Dichotomous Predictor Variables」の下で、二分予測子をコーディングする方法は2つあります。コントラスト0,1またはコントラスト1、-1を使用します。 。私はここで区別をある程度理解しています(0、1はダミーコーディングで、1、-1は1つのグループに追加され、他のグループから減算されます)。しかし、回帰で使用するものを理解していません。

たとえば、性別(m / f)とアスリート(y / n)の2つの二項予測因子がある場合、両方でコントラスト0、1、または両方で1、-1を使用できます。2つの異なるコントラストを使用する場合、主効果または相互作用効果の解釈はどうなりますか?セルのサイズが異なるかどうかに依存しますか?

回答:


13

「二分予測変数」では、二分予測子をコーディングする方法が2つあります。コントラスト0,1またはコントラスト1、-1を使用します。

これは事実上間違っています。コード化できる方法の数に制限はありません。これらの2つは単に最も一般的であり(実際にそれらの間で、ほぼどこにでもあります)、おそらく最も扱いやすいものです。

私はここで区別をある程度理解しています(0,1はダミーコーディングであり、1、-1は1つのグループに追加され、他のグループから差し引かれます)。

どちらか便利な方/適切な方。それぞれに等しい数の計画された実験がある場合、2番目のアプローチにはいくつかの優れた側面があります。もしそうでなければ、最初の方がおそらくいくつかの点で簡単です。

たとえば、性別(m / f)とアスリート(y / n)の2つの二項予測因子がある場合、両方でコントラスト0、1、または両方で1、-1を使用できます。

2つの異なるコントラストを使用する場合、主効果または相互作用効果の解釈はどうなりますか?

a)(i)性別の主な影響(単純化のために相互作用なし){m = 0、f = 1}を検討します。そのダミーに対応する係数は、女性と男性の平均の差を測定します(切片は男性の平均)。

(ii){m = -1、f = 1}の場合、性別の主効果は平均の差の半分であり、切片は平均の平均です(計画がバランスしている場合、すべてのデータの平均でもあります)。 。同様に、主な効果は、各グループの平均と切片との差です。

b)(i)性別{m = 0、f = 1}とアスリート{n = 0、y = 1}の間の相互作用を検討してください

これで切片は男性の非運動選手の平均(0,0)を表し、性別の主効果は女性の非運動選手と男性の非運動選手の平均の差であり、運動選手の主効果は平均の差を表します男性アスリートと男性非アスリートの相互作用、および相互作用は2つの違いの差です。これは、女性の平均アスリート/非アスリートの差からメイクの平均アスリート/非アスリートの差です。

(ii)性別{m = -1、f = -1}とアスリート{n = -1、y = 1}の間の相互作用を検討してください

これで、切片は4つのグループ平均の平均を表します(デザインが完全にバランスが取れている場合は、全体の平均になります)。切片は以前の4分の1です。

主な効果は、差の効果の平均です。性別の効果は、アスリート内の女性と男性の差と、非アスリート内の女性と男性の差の平均です。アスリートの主な影響は、女性のアスリート/非アスリートの差と男性のアスリート/非アスリートの差の平均です。

セルのサイズが異なるかどうかに依存しますか?

「異なるサイズ」とはどういう意味ですか?各セルの観測数が異なるということですか?(もしそうなら、私は主に上記に対処しました-等しいセル数は追加の意味を与えます/解釈を単純化します、たとえば切片をグループ平均の平均ではなくデータの総平均にするなど)


1
非常に包括的な答え。レベルの-1、1形式でコントラストをコード化する理由は文字通り見られないことを付け加えます。これにより、直接的な解釈がない効果サイズが得られるだけでなく(「予測子の単位差を比較した結果の関連する2倍の差」など)、切片の解釈が架空の量として解釈されます(むしろすべての変数がゼロに等しい場合に予想される結果よりも大きい)。私は常にダミー変数に0/1コーディングを使用することを推奨します。
AdamO 2013年

1
@AdamO同意しない。1)-1、+ 1コードが「直接」解釈されないことが心配な場合は、-。5、+。5を使用してください。2)Glen_bが述べたように、そのようなコードの下の切片はグループ平均の平均を表します。これがグループ自体よりも「架空の量」であるか(データセット内の観測値のいずれかと等しくない場合もあります)、それがどの程度「架空の量」であるかは完全に不明です。3)ダミーコード化された要素間の相互作用は、実質的に常に、単純な効果を興味深い/意味のある解釈から除外します。コントラストコードは、ここではるかに自然な解釈を提供します
ジェイクウェストフォール2013年

皆さんありがとう。実際、ダミーコーディングを使用すると、相互作用が存在する場合に主な効果を解釈するのに苦労しました。性別の主な効果は非アスリートのみにあることに気づきました(アスリートと非アスリートの両方で平均された性別の効果は、コントラストで得られるものではありません)。ダン
ダン

「そのようなコードの下の切片は、グループ平均の平均を表します」:平均の平均は、限界平均ではありません。これは、私たちが気にかけると思う唯一のパラメーターです。バランスの取れた設計の下でのみ、私たちはそれを持つことに近づくでしょう、そしてその仮定は私たちの目的にはあまりにも非現実的です。
AdamO 2013年

@JakeWestfallご存知のように、切片の解釈は、リグレッサのすべての値が0に設定されている場合の応答の平均値としてです。この値が可能性が低いか、またはさらに悪い場合でも、切片は架空の数量になります。0/1バイナリの場合でも、FEVに対して2つのリグレッサ(0:妊娠、1:妊娠していない)(0:男性1:女性)を示していると仮定します。モデルの切片は、妊娠中の男性の平均FEVです。ここで、-1:male 1:femaleとコーディングすると、「男性と女性の平均応答の平均」を除いて、切片はまったく解釈されません。
AdamO 2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.