これらのビニングされたデータを何らかの分布モデルに適合させる必要があります。それが上位四分位に外挿する唯一の方法です。
モデル
定義により、このようなモデルは0から1に上昇するcadlag関数によって与えられます。任意の間隔(a 、b ]に割り当てる確率は、F (b )− F (F01(a,b]。フィットを作るために、あなたは(ベクトルでインデックス付け可能な機能の家族を断定する必要があります)パラメータ θ、 { Fのθ }。サンプルは、いくつかの特定の(しかし未知の)によって記述集団から無作為に及び独立して選ばれる人々のコレクションをまとめたものと仮定すると、 F θF(b)−F(a)θ{Fθ}Fθ、試料の確率(または尤度は、)個々の確率の積です。例では、それは等しいだろうL
L(θ)=(Fθ(8)−Fθ(6))51(Fθ(10)−Fθ(8))65⋯(Fθ(∞)−Fθ(16))182
ので、人の確率が関連付けられていますF θ(8 )- Fのθ(6 )、6551Fθ(8)−Fθ(6)65確率を有するなど。Fθ(10)−Fθ(8)
モデルをデータに適合させる
最尤推定値の最大になる値Lを(同等、又は、の対数L)。θLL
所得分布は、多くの場合、対数正規分布によってモデル化されます(たとえば、http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdfを参照)。と書くと、対数正規分布のファミリーはθ=(μ,σ)
F(μ,σ)(x)=12π−−√∫(log(x)−μ)/σ−∞exp(−t2/2)dt.
このファミリ(および他の多くのファミリ)では、数値的に最適化するのは簡単です。たとえば、log (L (θ ))を計算して最適化する関数を作成すると、log (L )LR
log(L(θ))log(L)の最大値と一致自体と(通常)ログ(Lが)計算するために簡単です数値的に安定して動作します:Llog(L)
logL <- function(thresh, pop, mu, sigma) {
l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma))
- pnorm(log(x1), mean=mu, sd=sigma)
logl <- function(n, x1, x2) n * log(l(x1, x2))
sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}
thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))
この例の解は、値に見出されます、。θ=(μ,σ)=(2.620945,0.379682)fit$par
モデルの仮定の確認
少なくともこれが仮定された対数正規性にどれだけ適合しているかを確認する必要があるため、を計算する関数を作成します。F
predict <- function(a, b, mu, sigma, n) {
n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma))
- pnorm(log(a), mean=mu, sd=sigma) )
データに適用されて、近似または「予測」ビン母集団が取得されます。
pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)),
thresh, c(thresh[-1], NA))
これらのプロットの最初の行に示すように、データと予測のヒストグラムを描画して視覚的に比較できます。
それらを比較するために、カイ2乗統計を計算できます。これは通常、有意性を評価するためにカイ2乗分布と呼ばれます。
chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)
の「p値」は、多くの人に適合が良くないと感じさせるほど小さいです。プロットを見ると、問題は明らかに最低の6 − 8ビンに集中しています。おそらく、下の末端はゼロであるはずでしたか?探索的な方法で、6を削減する場合0.00876−8630.40
近似を使用して変位値を推定する
63(μ,σ)(2.620334,0.405454)F75th
exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))
18.066317.76
これらの手順とこのコードは、一般的に適用できます。最尤法の理論をさらに活用して、3番目の四分位の周りの信頼区間を計算できます(関心がある場合)。