たとえば、性別が通常、1/2ではなく0/1にコーディングされるのはなぜですか?


25

データ分析のためのコーディングのロジックを理解しています。以下の私の質問は、特定のコードの使用に関するものです。

  • 性別が女性の場合は0、男性の場合は1としてしばしばコード化される理由はありますか?
  • このコーディングが「標準」と見なされるのはなぜですか?
  • これを女性= 1および男性= 2と比較してください。このコーディングに問題はありますか?

15
0/1コーディングスキームの使用は、特に回帰モデルを適用する場合に本質的に役立ちますが、いくつかのコーディングスキーム、たとえば-1/1が可能です(ただし、回帰係数の解釈が変更されます)。ただし、データ入力(つまり、データベースに実際に配置するもの)と混同しないでください。この場合、ラベル全体を保存することをお勧めします。それらを数値に変換するか、回帰モデルを作成するときに専用の設計マトリックスを作成します。それ以外の場合は、5年後に0と1が何を意味するかを伝えてください。
chl

データベースにコード化された性別は、男性、女性、不明として見ました。
アクサカル

2
この質問は、2つの質問を混同したものとして最もよく考えられると思います。大きな問題は、インジケータまたはダミー変数に他のコードではなく0-1コーディングを使用する理由です。小さな問題は、なぜ男性に1、女性に0を使用するのかということです。1つの短い答えは、女性などの1の反対など、他の多くのコーディングが使用されていることです。他の性別カテゴリ。
ニックコックス

回答:


38

バイナリ変数のゼロワンコーディングを好む理由:

  • 0から1の変数の平均は、値1で表されるカテゴリの割合(たとえば、男性の割合)を表します。
  • 単純な回帰(はゼロから1の変数)では、定数は単純な解釈を持ちます(たとえば、は女性のの平均です)。y=a+bバツバツay
  • 2つの値の差が1(つまり、1対1、1対2)であるバイナリ変数のコーディングは、回帰係数を簡単に解釈します(たとえば、は女性から男性への影響です) y)。b

バイナリ変数のコーディングに関するさまざまなポイント:

  • カテゴリの順序を保持するバイナリ変数のコーディング(たとえば、女性= 0、男性= 1、女性= 1、男性= 2、女性= 1007、男性= 2000;など)は、バイナリ変数と他の変数。
  • この方法でバイナリ変数を報告するテーブルは、変数がどのようにコーディングされたかを明確にする必要があります。また、1ではy = a + b * Maleなく、1の値を表すカテゴリで変数にラベルを付けると便利ですy = a + b * Gender
  • 一部のバイナリ変数では、1つのカテゴリをより自然に1つのカテゴリとしてコーディングする必要があります。たとえば、治療とコントロールの違いを見るとき、回帰係数は治療の効果として最もよく考えられるため、コントロールはゼロで、治療は1でなければなりません。
  • カテゴリを反転する(たとえば、女性= 0および男性= 1ではなく、女性= 1および男性= 0にする)と、相関および回帰係数の符号が反転します。
  • 性別の場合、通常、変数female = 0、male = 1、male = 0、female = 1をコーディングする自然な理由はありません。または、回帰係数を正にするコーディングを選択すると、解釈が容易になる場合があります。また、状況によっては、1つの性別が参照カテゴリと見なされる場合があります。たとえば、収入に対する男性優位の職業で女性であることの効果を研究している場合、女性であることの効果について話すために、男性= 0、女性= 1とコーディングするのが理にかなっています。
  • 思慮深い方法で回帰係数をスケーリングすると、回帰係数の解釈可能性に強力な影響を与える可能性があります。Andrew Gelmanがこれについてかなり議論しています。たとえば、Statistics in Medicine、27、2865-2873の2つの標準偏差(PDF)割ることによる彼の2008年の論文のスケーリング回帰入力を参照してください。
  • 男性と女性を-1と+1としてコーディングすることは、意味のある係数を提供できる別のオプションです(「エフェクトコーディングとは」を参照)。

18
ええと、私はいつも、コードの女性への自然な理由は、= 0、男性= 1 ...「解剖学」だと思った
マット・パーカー

2
@matt funny 私はそのように考えたことがありませんでした。私は常に芸術学位のレンズの影響を受けていました。そこでは、男性が持っているものの欠如によって女性を定義するイデオロギーをフェミニストが批評する方法について教えられます。そのようなレンズを通して、いくぶんユーモラスに、性別のコーディングが政治問題になります:
ジェロミーアングリム

13
習慣として、0/1コーディングスキームの意味を明確にするために、性別変数名を常に「女性」のような名前に変更します。
フォマイト

ジェロミー、別のタグ[ダミー変数]が必要かどうかの議論stats.meta.stackexchange.com/a/4881/3277を観察し、コメント賛否両論を言いたいですか?
ttnphns

性染色体XとYのペアを考えると、女性にはXXがあり、男性にはXY染色体があります。X = 0およびY = 1を使用すると、female = XX = 00 = 0およびmale = XY = 01 = 1であることがわかります。
ギュロルキャンベク

14

結果の解釈が容易になります。いくつかの高さデータがあるとします:

Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190 

そして、あなたはフォームの回帰を取りましたHeight = a + b * Gender + Residual

0,1のダミー変数を使用するaと、女性の平均身長である170の推定値bと、男性と女性の平均身長の差である10の推定値が得られます。

1,2のダミー変数を使用するとa、160の推定値が得られますが、これは解釈が困難です。


ありがとう。私は新しい仕事の要件であるため、「光の速度」で統計を学習しています。このコーディングはまだ相関分析に適用されますか?
アデッシュジョシュ

1
@Adhesh 2つの量的変数間の相関を意味する場合、コーディングの問題はありません。生のメジャーを使用するだけです。あなたの質問が2つの質的変数間の関連付けに関する場合、新しい質問をすることを検討するかもしれませんが、率直に言ってこの場合はそれほど難しいことではありませんサイト)。
chl

4
@Adeshバイナリ1/2または0/1をコーディングすると、相関係数に影響を与えません。0/1には、変数の平均がどちらであるかに応じて、男性または女性の割合になるという利点もあります。他のコーディングスキームは、さまざまなタイプの分析の解釈に役立つ場合があります。
マイケルビショップ

2

これは、性別を格納するためによく使用されるフィールドタイプがビットフィールドであり、SQLのビットフィールドの値は0または1のみであるためだと想定していました。データをダンプすると、0または1として出力され、そのため、これらの特定の値を取得します。

1と2を使用する場合は、より大きなフィールドタイプを使用する必要があります。これにより、より多くのスペースが必要になり、データベース全体がわずかに大きくなります。


SQLプログラマーとして、これも私の最初の反応でした。性別に0と1を使用する純粋な数学的な理由についてはわかりませんが、その推進力の一部は、可能な限り最小のデータ型を使用する必要性から来たことを知っています。業界全体の標準はカスタムから開発され、全員が一致しました。これについては、ANSI標準の履歴を確認する価値があります。最近では、DBAに性別にバイト列または短整数列を使用させ、「企業体」や「不確定」などの異常な例外を示すプッシュがありますが、多くの古いデータベースは依然として古い標準を反映しています。
SQLServerSteve

2

解剖学を反映するために、女性を0、男性を1として「生物学的に」コーディングすることを教授に提案しました。クラスで言うのはこれが最も敏感な、またはPCのことだとは思いませんが、5年後のデータセットを見ると間違いなく覚えやすいでしょう。


これは明らかに質問に対する「本当の」答えではありません(おそらくこれは答えよりもコメントのほうが多いでしょう)が、ニーモニックは明らかに多くの人が役に立つと思うものです。
シルバーフィッシュ

「解剖学的」よりも「生物学的」で、「デフォルト」の性別である女性には0が使用されていることを教えられました(「理由」はオリジナルではなく、振り返って発明されたと思われますが)発生学的発達では、介在するプロセスが胚を押して男性経路を区別しない限り、女性経路が採用されます。これはかつて広く信じられていましたが、現在では時代遅れになっています。女性の経路も積極的にトリガーする必要があります。
シルバーフィッシュ

1
この場合、男性を「00」とコーディングしないでください。
ハーベイモトゥルスキー

1

これまでに多くの正当な理由が投稿されましたが、再帰的であるべきです。なぜ1から数え始めますか?多くの数値アルゴリズムがはるかに複雑になります。ラベル付けは1ではなく0から始まります。これについてまだ確信が持てない場合は、http://madhadron.com/?p = 69でそれが重要である理由の良い例があります

女性が0、男性が1である理由については、統計学者の歴史の大半において、統計学者はまっすぐな男性である可能性が高いことを思い出してください。性別に名前を付けるように頼まれたとき、最初に思い浮かんだのは「女性」でした。その後はすべて、おそらく歴史的な事故と合理化でした。


-1

ISO / IEC 5218規格では、次のマップで、この概念を更新します。

0 = not known,
1 = male,
2 = female,
9 = not applicable.

これは、JavaScriptなど、0が偽の値に強制される言語で特に役立ちます。

if ( !user.gender ) {
    promptForGender();
}

10
この種の標準は、実際にはデータ送信および/またはストレージ用であることに注意することが重要です。これは、データ分析の標準としては適切ではありません。これが特に問題です。
whuber

-2

私が個人的に見る方法は、子宮の形であるため、一般的に0は女性を表し、ほとんどすべての科学(すなわち、生物学/遺伝学の系統図)の円、またはゼロは女性を表します。より直線的なエッジ形状(三角形、正方形、または1)が男性の性別を表す傾向がある場合。この単純な理解により、どちらが私にとってどれであるかを常に覚えやすくなりました。

結局のところ、自分でデータのコーディングと分析を行うのであれば、一般的にどのダミー変数をどのキーに使用したかというキーがある限り、それは無関係になります。


2
愚かな質問に対する奇妙な答え。
マイケルR.チャーニック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.