回答:
4つのカテゴリが目の色(コード)であるとします:茶色(1)、青(2)、緑(3)、ヘーゼル(4)-現時点では異色、紫、赤、灰色などを無視します。
3 = 3 × 1および4 = 2 × 2であっても、コードが示すように、緑茶色、またはハシバミ= 2 ×青という意味ではありません(現時点では想像できます)。
したがって、(何らかの理由で我々がない限りない、そのような意味では、私たちの分析に陥るたい)、我々は、コーディングのいくつかの並べ替えを使用する必要があります。ダミーコーディングは1つの例で、目の色について伝えたい統計情報からこのような関係を排除します。エフェクトコーディングとヘックマンコーディングは他の例です。
:アップデート四つのカテゴリーのための2つの変数のあなたの例では、一般的に交換することを伴う用語「ダミーコード」の私の理解使用一致しないカテゴリ(4と言う)とK - 1:ダミー変数(カテゴリ別の観測をソートします)
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
ここでは、次のようなモデルに定数があると仮定して、カテゴリ4が参照カテゴリです。
ここで、の平均値であるY場合カテゴリ= 4、およびβ各ダミー関連付けられた用語が示すものの量だけY軸から変更β 0、そのカテゴリのために。
あなたがいる場合はありません(定数を有するモデルにおける用語)、その後、ダミーその後、効果の1以上の「ダミー」の予測(おそらく少ないと呼ばれることが多い「標識変数」)、各カテゴリのモデル定数として各振る舞いを必要とします:
だから、これは最初に言及したカテゴリコード間の無意味な定量的関係を作成する問題を回避しますが、あなたが提案するようにuser12331-codingを使用してはどうですか?user12331-coding候補A:
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
2つのバイナリ変数を使用して4つの値を表現できることを指摘するのは非常に正しい2つの(つまり2ビット)です。残念ながら、これに対する1つのアプローチ(カテゴリ1および2のcode1、およびカテゴリ3および4のcode2)では、疑問符で示されたあいまいさが残ります。
さて、2番目のアプローチについては、user12331コーディング候補Bと呼びます。
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
そこ!あいまいさはありませんか?右!残念ながら、このコーディングはすべて、数値1〜4(または0〜3)をバイナリ表記で表しています。で表しているため、カテゴリとの望ましくない定量的関係を与えるという問題がそのまま残ります。
したがって、別のコーディングスキームが必要です。