整数予測子データをカテゴリカル(したがってエンコードが必要)または連続として扱う必要があるかどうか疑問に思っています。たとえば、特定の予測子の範囲X
がすべて1〜230の整数である場合、それを連続変数として扱うことができますか、それをエンコードして、230(またはおそらく229)の新しいダミー変数を取得する必要がありますか?分析の最終目標は、回帰または分類を実行することです。
整数予測子データをカテゴリカル(したがってエンコードが必要)または連続として扱う必要があるかどうか疑問に思っています。たとえば、特定の予測子の範囲X
がすべて1〜230の整数である場合、それを連続変数として扱うことができますか、それをエンコードして、230(またはおそらく229)の新しいダミー変数を取得する必要がありますか?分析の最終目標は、回帰または分類を実行することです。
回答:
一般的に、どちらも適切ではありません。整数は離散的で連続的ではありませんが、名目上のカテゴリとして扱うとほとんどの情報が失われ、序数として扱うことでもかなりの損失が生じる可能性があります。
状況によってはどちらかで問題ない場合もありますが、ほとんどの場合、データをカウントとして扱う方が適切です。たとえば、データがカウントの場合は、カウントに適した分析を使用します。
例として、カウントデータに対して回帰を実行するとします。ポアソン、二項および負の二項回帰を含む(ただしこれらに限定されない)数回帰モデルがいくつかあります。
整数IV(予測子)の場合、整数に対して何かを行う必要はありません。少なくとも、それらが整数であることに基づいて、連続予測子に対して何かを行う必要はありません。
整数予測子と連続予測子のどちらの場合でも、重要なことは、予測子変数が整数であるという事実ではなく、予測子変数が応答にどのように関連するかを(理論、以前の研究、またはその他の手段から)理解することです。
それは本当に文脈に依存します。
整数変数に固有の順序がある場合、たとえば、小さい数値が「暗い色合い」を表し、大きい数値が「明るい色合い」を表す色である場合は、連続変数として扱うことがほぼ確実に推奨されます。それはより意味があるだけでなく、モデルから約200の変数を削除します。これは大きなボーナスです。
一方、これらの整数に固有の順序がない場合(たとえば、土地の区画を表す場合など)は、カテゴリー変数として扱う必要があります。それらの値は、関心のある変数のプロパティとは無関係であるため、それらを連続変数として処理しても意味がありません。