時間はカテゴリー変数ですか?


24

値が0、1、2、...、23になりうる「時間帯」はカテゴリ変数ですか?たとえば、5は3または7よりも4または6に「近い」ため、ノーと言いたくなるでしょう。

一方、23と0の間には不連続性があります。

それで、それは一般にカテゴリー的であると考えられますか?「時間」は独立変数の1つであり、予測しようとしている変数ではないことに注意してください。


7
何を達成しようとしていますか?モデルをフィッティングしている場合、時間は共変量ですか、それとも応答ですか?
GUNG -復活モニカ

2
余裕がある(つまり、カテゴリーとして扱う)自由度がある場合は、1時間ごとにダミー変数を使用できます。そうでない場合は、最初のいくつかのフーリエ項を使用できます。一般に、応答との潜在的な関係を最適に表現する方法を考えます。ショップが開いているときにフラグを立てる単一のダミー変数が役立つ場合があります。
Scortchi-モニカの復職

時間のようなものは、何が最適に機能するかに応じて、「カテゴリー」または「数値」として扱うことができます。一般的に正しい答えも間違った答えもありません-それは何が最もうまくいくかに依存します。いろいろなことを試してみて、あなたの状況で何が一番うまくいくかを見ることをお勧めします。
18:51の

回答:


29

モデル化する対象に応じて、時間(および季節のような他の多くの属性)は実際には順序の循環変数です。季節の場合は多かれ少なかれカテゴリーと見なすことができ、時間の場合は同様に連続としてモデル化することができます。

ただし、循環を考慮しない形式でモデルで時間を使用することは有益ではありません。代わりに、ある種の変換を考えてみてください。時間を使用すると、次の方法で三角法を使用できます。

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

したがって、代わりにを使用xhryhrてモデリングします。例については、この投稿を参照してください:線形回帰での循環予測子の使用


2
(+1)季節と時間の違いについて詳しく教えてください。
スコルチ-モニカの復職

うーん、日中の時間について話すとき、季節は朝、昼、夕方のような同様の意味を持っていると思います。あいまいな情報しか利用できず、解像度が低い場合(季節ごとに4つの値など)、それらをカテゴリに分類し、エンコードにダミー変数を使用することは理にかなっています。:-)
ドレイ

1
重要な点は、トリガーを使用してシーズンが4つしかないためです。カテゴリ表現と比較して、自由度は1自由度だけです-1日の時間は21自由度です。(あなたがそれらを惜しまする必要がない場合は、その後xhr = sin(4*pi*hr/24)yhr = cos(4*pi*hr/24)&ので、上の点まで、追加することができる場所に十分な観察あなたかもしれカテゴリとして一日の同様の御馳走時間を持つ。)
Scortchi -復活モニカ

または、循環スプラインを調べます。
kjetil b halvorsen

1

値の自然な順序付けがあるため、時間はカテゴリ変数として最適に表現されません。たとえば、髪の色はカテゴリです。カテゴリの順序には意味がないためです-{red、brown、blonde}は{blonde、brown、red}と同じくらい有効です。一方、1日の時間は自然な順序になっています。午前9時は午後6時よりも午前10時または午前8時に近くなっています。これは離散的な順序変数として最もよく考えられます。12amは11pmに続き、1amに先行するため、周期的であるという特徴が追加されています。


特定のカテゴリ変数の値に自然な順序付けはありませんか?
dsaxton

はい。ただし、その場合は序数としてより適切に説明されます。順序変数は、自然な順序を持つカテゴリ変数です。
原子力王

1
では、回帰モデルの予測子として、離散的な順序の循環変数をどのように表現しますか?
Scortchi -復活モニカ

0

理論的には、変数をどのようにフォーマットするかによって異なります。つまり、「連続」(単一の係数でモデル化)またはカテゴリ(1日の「時間」あたりの係数)になります。また、ピース単位の機能など、両方を混在させることもできます。

実用的には、0と23は基本的に同じ「時間」なので、1日の期間をより大きく、より均質で信頼できるグループにグループ化することを検討します。たとえば、8時間刻み-午前8時から午後4時、午後4時から12時、および午前12時から8時。


4
0と23は異なる時間です。0と24は同じ時間です。
ポールライナーズ

ところで、私はGungのコメントに従って、時間はモデル化された従属変数ではなく、独立変数であると仮定しています。私のポイントは、実際には0と23の違いはそれほどないということです。23:59と0:01で発生するモデル化されたイベントには統計的な違いがあると言えますか。
フランクH.

1
情報を捨てる問題がどのような問題を解決するのかわからない。連続予測変数を分割する利点は何ですか?を参照してください
スコルチ-モニカの復職

@Scortchi-投稿が言っているように、あなたはビニングが情報を「捨てる」ような連続的な関係を仮定しています。しかし、そうでない場合は、ビニングがより適切な変換です。そして、これは、OPが言及していない十分なデータがあることを前提としています。
フランクH.

予測変数と応答の関係に制約を課すこと自体は悪いことではありません-この記事で最初に取り上げたように、利用可能な観測の数は重要な考慮事項です-しかし、 1日の時間の表現-8時から15時までフラット、16時のジャンプまたはドロップなど-は、一般的に適切なアプローチの奇妙な提案のようです。
Scortchi-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.