バイナリデータのインジケーター変数:{-1,1}対{0,1}


10

実験/ランダム化比較試験のコンテキストで、2値の処理割り当てインジケーターを使用した処理と共変量の相互作用に興味があります。T

特定の方法/ソースに応じて、治療された被験者と治療されていない被験者について、それぞれT={1,0}T = \ {1、-1 \}の両方を確認しT={1,1}ました。

{1,0}または\ {1、-1 \}を使用するときの経験則はあります{1,1}か?

解釈はどのように異なりますか?


FWIW ...この最初のリンクは、さまざまなコーディング方式のかなり包括的な概要を提供します... ats.ucla.edu/stat/r/library/contrast_coding.htm この2番目のリンクは、インジケーター(ダミー)、効果、および直交(コントラスト)コーディングについて説明します... faculty.cas.usf.edu/mbrannick/regression/anova1.html
マイクハンター

回答:


10

指標変数の推定量と切片の解釈は異なります。から始めましょう:{1,0}

次のモデルがあるとします

yi=β0+treatmentβ1

どこ

treatment={0if placebo1if drug

その場合、最終的には次の式になります。yi

yi={β0+0β1=β0if placeboβ0+1β1=β0+β1if drug

したがって、の解釈はプラセボの効果であり、の解釈はプラセボの効果と薬物の効果の違いです。実際には、を薬剤による改善として解釈できます。β 1 β 1β0β1β1


次に、見てみましょう。{1,1}

その後、次のモデル(再び)ができます。

yi=β0+treatmentβ1

しかしここで

treatment={1if placebo1if drug

その場合、最終的には次の式になります。yi

yi={β0+1β1=β0β1if placeboβ0+1β1=β0+β1if drug

ここでの解釈は、はプラセボの効果と薬物の効果の平均であり、は2つの治療法のその平均との差です。β 1β0β1


どちらを使用しますか?

解釈で基本的に、ベースラインです。いくつかの標準処理を設定し、他のすべての処理(複数ある場合があります)をその標準/ベースラインと比較します。特に他の共変量を追加し始めたとき、これは標準的な医学的質問に関して解釈するのが簡単なままです:これらの薬はプラセボまたは確立された薬とどのように比較されますか? { 0 1 }β0{0,1}

しかし結局、それはすべて私が上で説明した解釈の問題です。したがって、仮説を評価し、どの解釈が結論の描画を最も簡単にするかを確認する必要があります。


6
-1、1コーディングを使用する場合の定数は、処理されたグループの回答者の数がコントロールグループの回答者の数と同じである場合の平均です。
Maarten Buis 2016年

@MaartenBuis デザインのバランスが取れていればの平均ですが、それ以外の場合は、2つのグループの平均の平均です。これを反映して表現を変えました。y
JAD、2016年

9
参考になりました。少なくとも2つの理由から、(元の質問のように)ダミーではなくインジケーターの使用を常に奨励しています。最初に、「ジェンダーダミー」などの用語が、あまり技術的でない人々によって中傷的または攻撃的であると乱暴に誤解されたため、プレゼンテーションが非常にひどくダウンしたという話をあまりにも多く聞いたことがあります。次に、ダミーという用語は、デバイス全体をファッジやダッジのように見せますが、完全にクリーンでエレガントな方法です。私はいくつかの分野で定着した慣習を変える機会はあまりありませんが、ここで試みています。
Nick Cox

同意された、それはまたより専門的に聞こえる。さらに、それは実際に何をしているのかについてのより良い説明です。
JAD、2016年

2
同意してください。説明する簡単な方法は次のとおりです。それは、インジケーターと呼ばれているからです。
Nick Cox

6

線形回帰のコンテキストでは、はバイナリ変数をコーディングするためのより自然な(そして標準の)方法です(それらを回帰の左側の左側に配置するかどうかにかかわらず)。@Jarko Dubbeldamが説明するように、もちろん他の解釈を使用することができ、係数の意味は異なります。xi{0,1}

別の方法で例を示すと、計算の基礎となるサポートベクターマシンをプログラミングまたは導出する場合出力変数コーディングが標準です。(ライブラリーを呼び出すときは、ライブラリーが期待する形式(おそらく0、1の公式)でデータを渡します。)yi{1,1}

あなたがやろうとしていること/使用していることすべてに対して標準的な表記法を使用してみてください。


切片項を持つあらゆる種類の線形モデルの場合、2つの方法は単純な線形変換によって関連付けられるという意味で同等です。数学的には、データ行列を使用するか、データ行列を使用するかは関係ありません。ここで、はフルランクです。一般化線形モデルでは、推定係数はどちらの方法でも線形変換によって関連付けられ、近似値は同じになります。X = X A A A YXX~=XAAAy^


+1、が使用されている設定は思いつきませんでした。{1,1}
JAD、2016年

AdaBoostは、を使用する別の例ですyi{1,1}
フランシス

5
一般に、は主に分類で使用されていると言えます。これは、符号関数の適用が分類の実行可能な方法になるためです。{1,1}
JAD、2016年

@matthewgunn作者は共変量、つまり入力ではなく出力を話している。{-1、1}は、出力のサポートベクターには意味がありますが、入力には関係ありません。ここを参照してください:en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM
Francisco Arceo

@FranciscoArceoポイントを取る。より正確に編集しました。
Matthew Gunn

2

これはより抽象的な(そしておそらく役に立たない)ですが、これら2つの表現は、数学的な意味では、実際にはグループ表現であり、それらの間には同型性があることに注意します。

インジケーター変数の意味は、基本的にブール値で、「factor is true」または「factor is false」です。2つのイベントと与えられた場合、「これら2つのイベントの要因は同等ですか、たとえば、両方とも真であるか、両方とも偽ですか?」ブール論理では、これはです。これはグループ構造定義します。ここで、と両方ともこのグループの表現を形成し、グループ演算とです。最初の表現から2番目の表現への同型は、与えられます。TT1T2T1T2Z21,01,1ab=1(a+b)ab=abϕ(a)=2a1

この表現は、連続指標変数、つまり確率にも拡張されます。場合確率である真であることが、その後の確率真すべきであり、。同型下では、これはです。数量は、-1と1の間の符号付きインジケーターです。したがって、ブール演算の確率に関する計算は、多くの場合、この基準ではるかに単純です。T T T ' P 'P = P 、P ' + 1 - P 1 - P 'T P = 2 P - 1 T T ' = T T ' TpTTTpp=pp+(1p)(1p)t(p)=2p1tt=ttt


これは印象的ですが、{-1、1}と{0、1}の間の有効な対応は1対1である必要があることを指摘するだけで十分です。高校の数学以外のことを呼び出す必要はありません。私たちは必ずしも同じ情報について話しているだけで、コードは異なっています。
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.