データ分析のためのコーディングのロジックを理解しています。以下の私の質問は、特定のコードの使用に関するものです。
- 性別が女性の場合は0、男性の場合は1としてしばしばコード化される理由はありますか?
- このコーディングが「標準」と見なされるのはなぜですか?
- これを女性= 1および男性= 2と比較してください。このコーディングに問題はありますか?
データ分析のためのコーディングのロジックを理解しています。以下の私の質問は、特定のコードの使用に関するものです。
回答:
y = a + b * Male
なく、1の値を表すカテゴリで変数にラベルを付けると便利ですy = a + b * Gender
。結果の解釈が容易になります。いくつかの高さデータがあるとします:
Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190
そして、あなたはフォームの回帰を取りましたHeight = a + b * Gender + Residual
。
0,1のダミー変数を使用するa
と、女性の平均身長である170の推定値b
と、男性と女性の平均身長の差である10の推定値が得られます。
1,2のダミー変数を使用するとa
、160の推定値が得られますが、これは解釈が困難です。
これは、性別を格納するためによく使用されるフィールドタイプがビットフィールドであり、SQLのビットフィールドの値は0または1のみであるためだと想定していました。データをダンプすると、0または1として出力され、そのため、これらの特定の値を取得します。
1と2を使用する場合は、より大きなフィールドタイプを使用する必要があります。これにより、より多くのスペースが必要になり、データベース全体がわずかに大きくなります。
解剖学を反映するために、女性を0、男性を1として「生物学的に」コーディングすることを教授に提案しました。クラスで言うのはこれが最も敏感な、またはPCのことだとは思いませんが、5年後のデータセットを見ると間違いなく覚えやすいでしょう。
これまでに多くの正当な理由が投稿されましたが、再帰的であるべきです。なぜ1から数え始めますか?多くの数値アルゴリズムがはるかに複雑になります。ラベル付けは1ではなく0から始まります。これについてまだ確信が持てない場合は、http://madhadron.com/?p = 69でそれが重要である理由の良い例があります。
女性が0、男性が1である理由については、統計学者の歴史の大半において、統計学者はまっすぐな男性である可能性が高いことを思い出してください。性別に名前を付けるように頼まれたとき、最初に思い浮かんだのは「女性」でした。その後はすべて、おそらく歴史的な事故と合理化でした。
ISO / IEC 5218規格では、次のマップで、この概念を更新します。
0 = not known,
1 = male,
2 = female,
9 = not applicable.
これは、JavaScriptなど、0が偽の値に強制される言語で特に役立ちます。
if ( !user.gender ) {
promptForGender();
}
私が個人的に見る方法は、子宮の形であるため、一般的に0は女性を表し、ほとんどすべての科学(すなわち、生物学/遺伝学の系統図)の円、またはゼロは女性を表します。より直線的なエッジ形状(三角形、正方形、または1)が男性の性別を表す傾向がある場合。この単純な理解により、どちらが私にとってどれであるかを常に覚えやすくなりました。
結局のところ、自分でデータのコーディングと分析を行うのであれば、一般的にどのダミー変数をどのキーに使用したかというキーがある限り、それは無関係になります。