回帰で日付変数を使用するのは理にかなっていますか?


16

Rで日付形式の変数を使用することに慣れていません。線形回帰モデルで説明変数として日付変数を追加することができるかどうか疑問に思っています。可能であれば、どのように係数を解釈できますか?結果変数に対する1日の影響ですか?

私がやろうとしていることの例で私の要点を見てください。


3
日付は数値に変換できます。

私の印象では、Rが自動的にそれをしないということである
PAC

3
しかし、結果として得られる数値は非常に大きいことが多く、問題を引き起こす可能性があります。たとえば、測定の開始からタイムステップ(時間または日または...)に変換することをお勧めします。また、インターセプトの解釈が容易になります。
ローランド

3
ファクターに変換(1日の固定効果を取得)または数値に変換して最初の日の値が0になるように再スケーリングして、起点からの日数の線形効果を取得します。
トーマス

1
それは本当に良い質問です。統計的な質問とプログラミングの質問の両方だと思います。プログラミングの問題は、回帰モデルに説明変数として日付を入れたときにRが日付をどのように扱うかであり、統計的な問題は係数の正確な解釈に関するものです。
PAC

回答:


17

スタックオーバーフローに関する以前のコメントを基に作成:

はい、それは理にかなっています。ここで私は一般的な質問に対処し、Rの専門家に重要な詳細を記入させていただきます。私の見解では、これは現在Cross-Validatedに基づいているため、ポスターのお気に入りのソフトウェアにあまり焦点を絞るべきではありません。

数値ではないソフトウェアの日付は、年、日、ミリ秒​​、または何らかの時間の起源以降の数値で表される数値変数に変換できます。各日付に関連付けられた係数には、日付の単位が何であれ、分母単位があります。分子単位は、応答または従属変数の分子単位に依存します。(非同一リンク関数は、当然これを複雑にします。)

ただし、日付が研究にとって意味のある起源にシフトされる場合、通常最も意味があります。通常、必ずしもそうとは限りませんが、起源は研究期間内の日付、またはそれに非常に近い日付でなければなりません。

おそらく最も簡単なケースは、年単位の日付変数の線形回帰です。ここではいくつかの回帰responsedate2000または2010のような日付として表現がの値である切片を意味しresponse、そのような年がなかったことはさておき暦の詳細を設定する年に0を、そのような切片が不合理に大きな正または負であることが多いです論理的であるが、解釈と表現に注意をそらすもの(十分な情報を得た聴衆にさえ)。

学部生との共同作業の実際の例では、特定の地域の年間サイクロンの数は日付とともにわずかに増加しており、線形傾向は妥当な最初の突き刺さったように見えました。回帰からの切片は大きな負の数であり、これが常に0年への外挿であると認識されるまで、多くの困惑を引き起こしました。原点を2000にシフトするとより良い結果が得られました。(実際、ポジティブな予測を保証するポアソン回帰はさらに優れていましたが、それは別の話です。)

date - 2000したがって、回帰するか、何でも良い考えです。調査の実質的な詳細は、多くの場合、適切な基準日、つまり新しい起源を示しています。

他のモデルおよび/または他の予測子を使用しても、この原則は損なわれません。あいまいなだけです。

また、考えやすい日付を使用して結果をグラフ化することもお勧めします。これらは元の日付である可能性があります。これは矛盾ではありません。考えやすいものを使用するのと同じ原則であるためです。

少し考えてみると、原則がはるかに一般的であることがわかります。多くの場合、年齢0の論理的ではあるが厄介な予測を避けるために、(年齢-20)などを使用する方が適切です。

編集2019年3月21日(2013年7月29日):これらの議論は、2015年、ニュージャージー州コックスのStataの文脈で議論されています。起源の種。Stata Journal 15:574-587 参照

EDIT 2 2015年12月4日、コメントの@whuberも数値精度の重要な問題を提起しています。多くの場合、時間単位は適切であり、結果の日付または時刻は非常に大きくなる可能性があり、平方和などの重要な問題が発生します。彼はRから例を挙げます。それに、(たとえば)Stataの日付時刻は1960年の開始からミリ秒です。この問題は、一般的に非常に大きな数値で発生する可能性があるため、日付に固有ではありません。または非常に小さいですが、フラグを立てる価値もあります。


1
計量経済学的に言えば、日付はしばしば測定不能な変数のプロキシとして、または単に簡単に取得できないデータとして使用されます。これは、ブランドの認知度が高まるにつれて、新しい会社からの特定の製品の販売率の増加に見られます。ほとんどの場合、ブランド認知の指標がないため、日付をプロキシとして使用できます。DR **あなたは未測定要因の日付はそれと相関させることができるかについて考えずに自分の回帰で日付を使用すると、あなたの独立変数に影響を与えるように注意する必要があります:これはあなたの他の説明変数「より現実的な」係数を与える** TLでしょう。
スコット

1
いいアドバイス。カレンダーの日付(の機能)は、通常、他の方法ではキャプチャすることが困難な時間内のプロセスのプロキシであるため、ポイントは計量経済学をはるかに超えていると推測します。
ニックコックス

1
私は誰とでも同じようにサインとコサインを好みますが、学問分野を超えた問題のサンプリングはその判断につながりますか?
ニックコックス

1
興味があれば、季節に関する私の作品へのリンクについては、stata-journal.com / sjsearch.html?choice = keyword&q = seasonをご覧ください。
ニックコックス

3
+1原点の移動に関するコメントは重要です。私は最近R、日付リグレッサーで内部的に標準化されていないため、日付リグレッサーでひどく失敗した人気のある回帰パッケージの一部を書き直しました。デフォルトの日付表​​現は1970年以降の秒単位であるため、最近の日付は10億単位であり、他の回帰変数の値が近い場合、式に含まれる2乗は結果の精度のほとんどまたはすべてを消去します1以下。日付の起源の賢明な選択(および測定の単位-10進数の年はほとんど常にうまく機能します)は、このような問題を回避する傾向があります。
whuber

5

上で述べたように、適切なスケーリングを使用すると、日付は優れたリグレッサーになります。時間効果は、典型的な共変量よりも線形である可能性が低いため、ほとんどの場合、時間内に回帰スプラインを使用します。いくつかの複雑な時間トレンドでは、適合するために多くのノット(たとえば、7以上)が必要です。制限された3次スプライン(自然スプライン)は、観測された時間の終わりを超えてより安全な線形外挿を提供しますが、外挿はほとんど完全に安全ではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.