おもちゃのモデルからのデータのシミュレーションを開始します。何かのようなもの:
n.games <- 1000
n.slices <- 90
score.away <- score.home <- matrix(0, ncol=n.slices, nrow=n.games)
for (j in 2:n.slices) {
score.home[ ,j] <- score.home[ , j-1] + (runif(n.games)>.97)
score.away[ ,j] <- score.away[ , j-1] + (runif(n.games)>.98)
}
今、私たちは遊びたいことがあります。生データを使用することもできますが、データをシミュレートすることは物事を考えるのに非常に役立ちます。
次に、データをプロットします。つまり、ゲームの時間とリードホームをプロットします。カラースケールは、観測された勝率に対応します。
score.dif <- score.home-score.away
windf <- data.frame(game=1:n.games, win=score.home[ , n.slices] > score.away[, n.slices])
library(reshape)
library(ggplot2)
dnow <- melt(score.dif)
names(dnow) <- c('game', 'time', 'dif')
dnow <- merge(dnow, windf)
res <- ddply(dnow, c('time', 'dif'), function(x) c(pwin=sum(x$win)/nrow(x)))
qplot(time, dif, fill=pwin, data=res, geom='tile') + scale_color_gradient2()
これは、データのサポートを見つけるのに役立ち、確率がどのように見えるかについて生のアイデアを提供します。