バイナリ時系列


8

バイナリタイムシリーズがあります。90日間で1時間のデータが2160(0 =発生しなかった、1 =発生した)です。

ここに画像の説明を入力してください

次の1が発生するこれらの90日後に予測し、このプロビジョニングを次の1か月間延長します。


1
データについて詳しく説明していただけますか?どのようなイベントについて説明していますか?データを生成したプロセスについて何が知られていますか(たとえば、ある種の季節性やパターンを期待できますか)?例としてデータを投稿できますか?
ティム

特定の場所の事故者に関する調査があります。1は1時間間隔で事故があり、それ以外の場合は0です。次の事故を予測します。
amin abdolahnejad 2016

2
次の事故までの時間を予測したいのですか、それとも事故の確率が次の期間で変化する/変化しないのかを予測したいですか?
ガン-モニカを元に戻す

あなたは私たちに、データと、あなたが作ろうとする仮定についての詳細を伝える必要があります。基本的なプロセスは何ですか?時間の経過とともにゆっくり変化していますか?静止していますか?有限のメモリはありますか?
2016

2160個のデータがある90日間の時間単位の時間があります。iは、次の30日間を意味する2161時間から2880時間単位の時間を予測したいです。 。
アミンabdolahnejad

回答:


6

XtBernoulli(pt)ptΦ1(Yt)YN(μ,Σ)Y変数に変更し、標準の時系列手法を使用して将来の観測を予測します(例:Holt-Winters)。StanまたはJAGSでこのようなものをコーディングすることは可能ですが、ベルヌーイプロセスが潜在状態を提供する「ガラスの暗い」ビューを考えると、素晴らしい予測が得られない可能性があります。


1

最も単純なモデルは線形回帰です。ggplotを使用してデータをプロットできます。

#for reproducing
set.seed(200)
#simple example. Assume your data is simple binomial variable with probability 0.3
data <- data.frame(time = 1:200, val=sample(c(0,1), size = 200, replace = T, prob = c(0.3, 0.7)))

#plot using ggplot and add linear regression and confidence interval
ggplot(data, aes(x = time, y=val)) + geom_smooth(method=lm) +geom_point()

#Now we can try to create linear regression
y = data$time
    x = data$val
fitData <- lm(x ~ y)
predict(fitData, newdata = data.frame(y=201:224), interval="confidence")

これは最も単純なモデルです。データに適合する可能性のある他の非線形モデルもあります。また、よりよくフィットさせるために、日付のログを使用する必要があるかもしれないことを覚えておいてください。多項式回帰などの非線形回帰では、ここで多くを読むことができます

これで、追加の分析が必要になりますが、イベントが独立しているかどうかを確認することが不可欠です。あなたが説明しないかもしれないある種の交絡変数があるかもしれません。ここでは、ベイジアン線形回帰を調べたいと思うかもしれません(時間とイエス/ノーの値よりも多くの次元を取得した場合)


あなたの答えのためのtnx.first私は翌日の時間ごとに、次の週の時間ごとに、そして次の月の時間ごとにhorを予測したいと思います。
amin abdolahnejad 2016

線形正規表現にすることはできません。次数が7になるまでバイナリコードと多項式モデルを使用することはできません。適切なフィットを得るには、バイナリモデルに焦点を当てる必要があります。マルコフモデルについてはどうでしょうか?隠れマルコフモデル?来月には重宝します。
amin abdolahnejad 2016

3
応答変数は二項式です。線形回帰は通常の誤差を想定しています。また、線形回帰は時系列の潜在的な自己相関を扱いません。おそらく有用な1次近似ですが、これは最善の方法ではありません。
ダルトンハンス2016

1
それは良い発言です。次に、その時系列を取得し、データを時間(たとえば)ごとにグループ化してから、その平均を取得しますか?それが同一に分布した確率変数であることを考えると、CLTのために期待値を取得すべきではありませんか?それが予測変数として使用できるかどうかはわかりませんが、特定の時間に事故が発生する確率を正確に推定できるでしょう。
Zakkery 2016

1
Xt=

1

事故データ?まず、1時間ごとの季節性と毎日の季節性があると仮定します。事故の種類がわからない場合、月曜日から金曜日までの時間単位のプールを確認し、土曜日と日曜日を別々に時間単位で処理できるため、24(月〜金)、24(土)、および24(日)。

さらにデータを削減することは可能かもしれませんが、そうではないと仮定して、単に平均を取ってください。たとえば、日曜日の午後3時の平均は.3(事故の30%の確率)になります。午後4時の平均は.2のようになります。

午後3時または午後4時に事故が発生しない確率は(1-.3)(1-.2)= .56なので、この2時間に事故が発生する確率は.44になります。

これは、始めるのに良い、単純な場所のようです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.