値が0、1、2、...、23になりうる「時間帯」はカテゴリ変数ですか?たとえば、5は3または7よりも4または6に「近い」ため、ノーと言いたくなるでしょう。
一方、23と0の間には不連続性があります。
それで、それは一般にカテゴリー的であると考えられますか?「時間」は独立変数の1つであり、予測しようとしている変数ではないことに注意してください。
値が0、1、2、...、23になりうる「時間帯」はカテゴリ変数ですか?たとえば、5は3または7よりも4または6に「近い」ため、ノーと言いたくなるでしょう。
一方、23と0の間には不連続性があります。
それで、それは一般にカテゴリー的であると考えられますか?「時間」は独立変数の1つであり、予測しようとしている変数ではないことに注意してください。
回答:
モデル化する対象に応じて、時間(および季節のような他の多くの属性)は実際には順序の循環変数です。季節の場合は多かれ少なかれカテゴリーと見なすことができ、時間の場合は同様に連続としてモデル化することができます。
ただし、循環を考慮しない形式でモデルで時間を使用することは有益ではありません。代わりに、ある種の変換を考えてみてください。時間を使用すると、次の方法で三角法を使用できます。
xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)
したがって、代わりにを使用xhr
しyhr
てモデリングします。例については、この投稿を参照してください:線形回帰での循環予測子の使用。
xhr = sin(4*pi*hr/24)
、 yhr = cos(4*pi*hr/24)
&ので、上の点まで、追加することができる場所に十分な観察あなたかもしれカテゴリとして一日の同様の御馳走時間を持つ。)
値の自然な順序付けがあるため、時間はカテゴリ変数として最適に表現されません。たとえば、髪の色はカテゴリです。カテゴリの順序には意味がないためです-{red、brown、blonde}は{blonde、brown、red}と同じくらい有効です。一方、1日の時間は自然な順序になっています。午前9時は午後6時よりも午前10時または午前8時に近くなっています。これは離散的な順序変数として最もよく考えられます。12amは11pmに続き、1amに先行するため、周期的であるという特徴が追加されています。
理論的には、変数をどのようにフォーマットするかによって異なります。つまり、「連続」(単一の係数でモデル化)またはカテゴリ(1日の「時間」あたりの係数)になります。また、ピース単位の機能など、両方を混在させることもできます。
実用的には、0と23は基本的に同じ「時間」なので、1日の期間をより大きく、より均質で信頼できるグループにグループ化することを検討します。たとえば、8時間刻み-午前8時から午後4時、午後4時から12時、および午前12時から8時。