整数データ:カテゴリーまたは連続?


7

整数予測子データをカテゴリカル(したがってエンコードが必要)または連続として扱う必要があるかどうか疑問に思っています。たとえば、特定の予測子の範囲Xがすべて1〜230の整数である場合、それを連続変数として扱うことができますか、それをエンコードして、230(またはおそらく229)の新しいダミー変数を取得する必要がありますか?分析の最終目標は、回帰または分類を実行することです。


設定についてもう少し具体的にする必要があります。場合によっては、カテゴリ型として、時には連続として扱う方が良い場合があります。
Dougal 2017

@Dougal回答について詳しく説明するには、どのような追加情報が必要ですか?混合データセットでさまざまなモデル(ニューラルネットワーク、カーネル回帰、一般化されたブーストツリーなど)を試しているとします。一部の予測子は「明らかに」カテゴリカル(例:文字列)ですが、他の予測子は自然に整数値になる場合があります。
ブルーノ

グレンは正しいです。ただし、分析がより意味のあるものになる場合は、1つ以上の連続変数をカテゴリカルに変換することもできます。
HelloWorld 2017

回答:


9

一般的に、どちらも適切ではありません。整数は離散的で連続ではありませんが、名目上のカテゴリとして扱うとほとんどの情報が失われ、序数として扱うことでもかなりの損失が生じる可能性があります。

状況によってはどちらかで問題ない場合もありますが、ほとんどの場合、データをカウントとして扱う方が適切です。たとえば、データがカウントの場合は、カウントに適した分析を使用します

例として、カウントデータに対して回帰を実行するとします。ポアソン、二項および負の二項回帰を含む(ただしこれらに限定されない)数回帰モデルがいくつかあります。


整数IV(予測子)の場合、整数に対して何かを行う必要はありません。少なくとも、それらが整数であることに基づいて、連続予測子に対して何かを行う必要はありません。

整数予測子と連続予測子のどちらの場合でも、重要なことは、予測子変数が整数であるという事実ではなく、予測子変数が応答にどのように関連するかを(理論、以前の研究、またはその他の手段から)理解することです。


ありがとう!カウントデータの回帰については知りませんでした。問題の中にデータが混在しています。データセットの一部の列は明らかにマルチクラスカテゴリ(文字列)ですが、その他は整数(たとえば、年齢、カテゴリの発生数)であり、一部はバイナリカテゴリです。ただし、一般的には、いくつかの継続的な(実際の)データも存在する可能性があります。Rパッケージpsclにはいくつかの関連する関数(ハードルとzeroinfl)があるようですが、データを混在させているという事実には別のアプローチが必要かどうか疑問に思っています...コメントはありますか?
ブルーノ

@Bruno IVがカウントであるかどうかは関係ありません(通常の回帰でそれがそれ以上である)、それはDVが何であるかという結果の単なる結果です
Glen_b-モニカ

問題によって異なります。現在、バイナリ分類と通常の回帰(もちろんさまざまな問題)についていくつかのモデルをテストしています。特定の予測因子をどのように処理するか疑問に思っています。
ブルーノ

なぜあなたは彼らに何かをする必要があるのですか?
Glen_b-モニカを2017

それが私の質問です!:)モデルにデータを供給する前に、「非自明」な予測子のいくつかに対してどの前処理を実行する必要があるのか​​疑問に思っています。すでに述べたように、一部は整数である場合があります(場合によっては、それらのサポートを知っている場合もあります)。
ブルーノ

2

それは本当に文脈に依存します。

整数変数に固有の順序がある場合、たとえば、小さい数値が「暗い色合い」を表し、大きい数値が「明るい色合い」を表す色である場合は、連続変数として扱うことがほぼ確実に推奨されます。それはより意味があるだけでなく、モデルから約200の変数を削除します。これは大きなボーナスです。

一方、これらの整数に固有の順序がない場合(たとえば、土地の区画を表す場合など)は、カテゴリー変数として扱う必要があります。それらの値は、関心のある変数のプロパティとは無関係であるため、それらを連続変数として処理しても意味がありません。


わかりました...「年齢」は通常継続的であると考えられていますか?また、予測変数の1つは、別の予測変数のサポートの一部として、特定のカテゴリの発生数に対応しています。
ブルーノ

0

あなたが述べた2のいずれかを行う必要はありません。あなたができることは回帰です。glmのRでは、好みを設定できるという点で、ファミリ属性を設定するオプションがあります。たとえば、通常の回帰ファミリー=ガウスを考慮し、問題の説明のようにカウントタイプのターゲット変数が必要な場合は、それを二項式に設定する必要があると思います(一度チェックしてください)。連続的またはカテゴリー的ではなく、カウントタイプとしてターゲットを設定します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.