Rで日付形式の変数を使用することに慣れていません。線形回帰モデルで説明変数として日付変数を追加することができるかどうか疑問に思っています。可能であれば、どのように係数を解釈できますか?結果変数に対する1日の影響ですか?
私がやろうとしていることの例で私の要点を見てください。
Rで日付形式の変数を使用することに慣れていません。線形回帰モデルで説明変数として日付変数を追加することができるかどうか疑問に思っています。可能であれば、どのように係数を解釈できますか?結果変数に対する1日の影響ですか?
私がやろうとしていることの例で私の要点を見てください。
回答:
スタックオーバーフローに関する以前のコメントを基に作成:
はい、それは理にかなっています。ここで私は一般的な質問に対処し、Rの専門家に重要な詳細を記入させていただきます。私の見解では、これは現在Cross-Validatedに基づいているため、ポスターのお気に入りのソフトウェアにあまり焦点を絞るべきではありません。
数値ではないソフトウェアの日付は、年、日、ミリ秒、または何らかの時間の起源以降の数値で表される数値変数に変換できます。各日付に関連付けられた係数には、日付の単位が何であれ、分母単位があります。分子単位は、応答または従属変数の分子単位に依存します。(非同一リンク関数は、当然これを複雑にします。)
ただし、日付が研究にとって意味のある起源にシフトされる場合、通常最も意味があります。通常、必ずしもそうとは限りませんが、起源は研究期間内の日付、またはそれに非常に近い日付でなければなりません。
おそらく最も簡単なケースは、年単位の日付変数の線形回帰です。ここではいくつかの回帰response
にdate
2000または2010のような日付として表現がの値である切片を意味しresponse
、そのような年がなかったことはさておき暦の詳細を設定する年に0を、そのような切片が不合理に大きな正または負であることが多いです論理的であるが、解釈と表現に注意をそらすもの(十分な情報を得た聴衆にさえ)。
学部生との共同作業の実際の例では、特定の地域の年間サイクロンの数は日付とともにわずかに増加しており、線形傾向は妥当な最初の突き刺さったように見えました。回帰からの切片は大きな負の数であり、これが常に0年への外挿であると認識されるまで、多くの困惑を引き起こしました。原点を2000にシフトするとより良い結果が得られました。(実際、ポジティブな予測を保証するポアソン回帰はさらに優れていましたが、それは別の話です。)
date - 2000
したがって、回帰するか、何でも良い考えです。調査の実質的な詳細は、多くの場合、適切な基準日、つまり新しい起源を示しています。
他のモデルおよび/または他の予測子を使用しても、この原則は損なわれません。あいまいなだけです。
また、考えやすい日付を使用して結果をグラフ化することもお勧めします。これらは元の日付である可能性があります。これは矛盾ではありません。考えやすいものを使用するのと同じ原則であるためです。
少し考えてみると、原則がはるかに一般的であることがわかります。多くの場合、年齢0の論理的ではあるが厄介な予測を避けるために、(年齢-20)などを使用する方が適切です。
編集2019年3月21日(2013年7月29日):これらの議論は、2015年、ニュージャージー州コックスのStataの文脈で議論されています。起源の種。Stata Journal 15:574-587 参照
EDIT 2 2015年12月4日、コメントの@whuberも数値精度の重要な問題を提起しています。多くの場合、時間単位は適切であり、結果の日付または時刻は非常に大きくなる可能性があり、平方和などの重要な問題が発生します。彼はRから例を挙げます。それに、(たとえば)Stataの日付時刻は1960年の開始からミリ秒です。この問題は、一般的に非常に大きな数値で発生する可能性があるため、日付に固有ではありません。または非常に小さいですが、フラグを立てる価値もあります。
R
、日付リグレッサーで内部的に標準化されていないため、日付リグレッサーでひどく失敗した人気のある回帰パッケージの一部を書き直しました。デフォルトの日付表現は1970年以降の秒単位であるため、最近の日付は10億単位であり、他の回帰変数の値が近い場合、式に含まれる2乗は結果の精度のほとんどまたはすべてを消去します以下。日付の起源の賢明な選択(および測定の単位-10進数の年はほとんど常にうまく機能します)は、このような問題を回避する傾向があります。