名義/カテゴリデータの「ダミー変数」と「インジケータ変数」


15

「ダミー変数」と「インジケータ変数」は、0/1コーディングのカテゴリのメンバーシップを記述するために頻繁に使用されるラベルです。通常0:カテゴリーのメンバーではない、1:カテゴリーのメンバー。

2014年11月26日にscholar.google.com(引用符で囲む)をすばやく検索すると、「ダミー変数」が約318,000の記事で使用され、「インジケーター変数」が約112,000の記事で使用されていることがわかります。「ダミー変数」という用語は、インデックス付き記事で「ダミー変数」をより多く使用することに貢献している可能性が高い「バインド変数」の非統計数学でも意味を持ちます。

私のトピックにリンクされた質問:

  1. これらの用語は常に(統計内で)同義語ですか?
  2. これらの用語のいずれかが、他の形式のカテゴリコーディング(たとえば、エフェクトコーディングヘルマートコーディングなど)に容認できる形で適用されていますか?
  3. ある用語を他の用語よりも優先する統計的または懲戒的な理由は何ですか?

4
私は、バイナリ条件に「指標変数」を使用する傾向があります。たとえば、性別はmale1またはのようにコーディングされる場合があります0。各レベルのメンバーシップのインジケーター変数に展開される2つ以上のカテゴリーを持つカテゴリー変数がある場合、「ダミー変数」を使用してそのインジケーター変数のセットを記述します。
グレゴール

2
私はあなたが平均だと思うセックスは、1または0としてエンコードされる可能性があります性別ははるかに複雑な構造です。(そのため、セックスも複雑になる可能性があります);)
アレクシス14年

2
よく編集され、に編集されたポイントsex
グレゴール

2
このようなインジケータ変数を呼び出す傾向がありますmale。1はtrue(この場合は男性)、0はfalse(この場合は女性)を意味します。変数名を使用する場合sex、そのデータセットに戻るたびにその変数をどのようにコーディングしたかを調べる必要があります。
マールテンビュイ14年

4
私は「ダミー変数」が軽audienceや中傷を暗示するものとして非技術的な聴衆によって乱暴にそして不幸に誤解されているという様々な話を聞いたことがあります。彼らは恥ずかしがり屋であり、この用語に反対するほど説得力があった。「インジケータ」は私にとって明確で簡単です。
ニックコックス14年

回答:


12

「ダミー変数」は、カテゴリー予測子を表す(一緒に表す)数値変数(の1つ)を参照するより一般的な方法です。したがって、この用語は、ヘルマートおよびエフェクトコーディングで使用される用語にも適用されます。これは主に、「ダミー」の「スタンドイン」を意味する一般的な使用によるものです。「インジケータ変数」インジケータ関数に関連しています —したがって、プロパティがあるかどうかを示すために1または0のみを指定できます。したがって、この用語は、参照レベルコーディングに使用されるものに適用されます。もちろん、「ダミーコーディング」を使用して「参照レベルコーディング」を意味する人もいます。おそらく、「ダミー変数」の定義がより制限されているか、何らかの形であるはずです。

†そして、それらを「ダミー」と呼ばない場合、何と呼びますか?

‡だから例えばダミーは、ときの指標変数であるI番目の人uは私は男性(集合のメンバであるM): xはiは = 1 MU 、I= { 1 wのH E N U IM 0 W H E N U IMxiiuiM

xi=1M(ui)={1when uiM0when uiM

1M()M

※または、@ gungが指摘したように、レベル平均コーディング。


2
ええと...それを動機付けるいくつかのリソースへのリンクを提供できますか?私の経験では、「ダミー変数」は0/1コーディングに多く使用されます。あなたが提案するようにダミーが使用されていることを確認しており、他の人が反対の意味でそれを使用することを知っています。例えば、Alkharusi、H.(2012)「回帰分析のカテゴリー変数:ダミーと効果コーディングの比較」International Journal of Education 4(2):202–210。
アレクシス14年

2
「ダミー変数」は0/1コーディングには使用されないとは言わなかったが、より一般的な意味で使用される可能性があるだけだ。
Scortchi -復活モニカ

1
実際、引用されたまさにその論文は、効果コーディングを使用して、「ダミー変数は値1、0、および-1を取ります」と述べています。(もちろん、私は、彼らがそれを言うつもりなら、彼らは何かを「コーディングダミー」と呼ばれているべきだと思います。)
Scortchi -復活モニカ

1
あなたの短剣の上付き文字からの質問に関しては、私はそれらを「XXXコーディングを使用したカテゴリー変数」と呼ぶ傾向があります。
アレクシス14年

2
重要な点は、arxiv.org / abs / math / 9205211の Knuthによるものです。彼はこのアイデアをKE Iversonに帰しています。要するに、インジケータ関数を発明したり呼び出したりする必要はありませんが、正式な議論の中でソフトウェアが何をするのかに従ってください。
ニックコックス14年

6

@Scortchiはここで良い答えを提供しました。小さなポイントを1つ追加します。インジケータ変数のより厳密な定義を使用しても、回帰型モデルのカテゴリデータの(少なくとも)2つの異なるコーディングスキームに関連付けることができます。 参照レベルのコーディングレベルはコーディングを意味します。レベル平均コーディングでは、カテゴリ変数があります。k で表されるレベル k インジケータ変数。ただし、次のベクトルは含まれません。 1切片の場合(つまり、切片は抑制されます)。(モデルマトリックスの例でのより完全な説明については、ここでの答えを参照してください:ロジスティック回帰は階乗予測子を持ち、切片はありませんか?)カテゴリ変数が1つだけの場合、これは単純であり、一部の人々に好まれます。(このスキームを使用して関心の比較を容易にする例については、ここでの私の答えを参照してください:最良線形不偏予測器(BLUP)からの推定値が最良線形不偏推定器(BLUE)と異なるのはなぜですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.