バイナリタイムシリーズがあります。90日間で1時間のデータが2160(0 =発生しなかった、1 =発生した)です。
次の1が発生するこれらの90日後に予測し、このプロビジョニングを次の1か月間延長します。
バイナリタイムシリーズがあります。90日間で1時間のデータが2160(0 =発生しなかった、1 =発生した)です。
次の1が発生するこれらの90日後に予測し、このプロビジョニングを次の1か月間延長します。
回答:
最も単純なモデルは線形回帰です。ggplotを使用してデータをプロットできます。
#for reproducing
set.seed(200)
#simple example. Assume your data is simple binomial variable with probability 0.3
data <- data.frame(time = 1:200, val=sample(c(0,1), size = 200, replace = T, prob = c(0.3, 0.7)))
#plot using ggplot and add linear regression and confidence interval
ggplot(data, aes(x = time, y=val)) + geom_smooth(method=lm) +geom_point()
#Now we can try to create linear regression
y = data$time
x = data$val
fitData <- lm(x ~ y)
predict(fitData, newdata = data.frame(y=201:224), interval="confidence")
これは最も単純なモデルです。データに適合する可能性のある他の非線形モデルもあります。また、よりよくフィットさせるために、日付のログを使用する必要があるかもしれないことを覚えておいてください。多項式回帰などの非線形回帰では、ここで多くを読むことができます
これで、追加の分析が必要になりますが、イベントが独立しているかどうかを確認することが不可欠です。あなたが説明しないかもしれないある種の交絡変数があるかもしれません。ここでは、ベイジアン線形回帰を調べたいと思うかもしれません(時間とイエス/ノーの値よりも多くの次元を取得した場合)。
事故データ?まず、1時間ごとの季節性と毎日の季節性があると仮定します。事故の種類がわからない場合、月曜日から金曜日までの時間単位のプールを確認し、土曜日と日曜日を別々に時間単位で処理できるため、24(月〜金)、24(土)、および24(日)。
さらにデータを削減することは可能かもしれませんが、そうではないと仮定して、単に平均を取ってください。たとえば、日曜日の午後3時の平均は.3(事故の30%の確率)になります。午後4時の平均は.2のようになります。
午後3時または午後4時に事故が発生しない確率は(1-.3)(1-.2)= .56なので、この2時間に事故が発生する確率は.44になります。
これは、始めるのに良い、単純な場所のようです。