対数正規分布の算術平均が分布平均よりも小さいのはなぜですか?


13

そのため、対数正規分布のランダム変数生成するランダムプロセスがありますX。対応する確率密度関数は次のとおりです。

対数正規確率密度関数を表す図

元の分布のいくつかのモーメントの分布を推定したいと考えました。1番目のモーメント、つまり算術平均です。そのために、算術平均の10000の推定値を計算できるように、100個のランダム変数を10000回描画しました。

その平均を見積もるには、2つの異なる方法があります(少なくとも、それは私が理解したことです:私は間違っているかもしれません)。

  1. はっきり平均算術通常の方法を計算することによって:
    X¯=i=1NXiN.
  2. または、基礎となる正規分布から最初におよびμを推定することによって:μ = N i = 1 log X iσμ、次に平均として ˉ X =EXPμ+1
    μ=i=1Nlog(Xi)Nσ2=i=1N(log(Xi)μ)2N
    X¯=exp(μ+12σ2).

問題は、これらの各推定値に対応する分布が体系的に異なることです。

写真に示すように、2つの推定量は異なる分布を示します。

「プレーン」平均(赤い破線で表される)は、指数形式(緑のプレーン線)から得られる値よりも一般に低い値を提供します。両方の平均はまったく同じデータセットで計算されますが。この違いは体系的であることに注意してください。

なぜこれらの分布は等しくないのですか?


σの真のパラメーターは何ですか?μσ
クリストフハンク

および σ = 1.5ですが、これらのパラメーターの推定に興味があることに注意してください。したがって、これらの生の数値から計算するのではなく、モンテカルロアプローチです。μ=3σ=1.5
-JohnW

確かに、これは結果を複製するためのものです。
クリストフハンク

4
興味深いことに、この現象は対数正規性とは関係ありません。対数y iの正の数値が与えられた場合、算術平均(AM)x i / nは幾何平均(GM)exp y i / n )を下回らないことがよく知られています。もう一方の方向では、AMがGMにexp s 2 y / 2xiyixi/nexp(yi/n)exp(sy2/2)sy2yi。したがって、点線の赤い曲線は用緑色の曲線の左側に位置しなければならない任意の(正の乱数を記述する)親分布。
whuber

平均の多くが膨大な数の小さな確率に由来する場合、有限サンプル算術平均は、高い確率で母平均を過小評価する可能性があります。(予想では公平だが、小さな過小評価と大きなオーバー見積もりの小さな確率の大きな可能性があります。)この質問も、このいずれかに関連することができる:stats.stackexchange.com/questions/214733/...
マシュー・ガン

回答:


12

Nexp[μ+1/2σ2]

X¯pE(Xi)

exp[μ^+1/2σ^2]pexp[μ+1/2σ2],
μ^pμσ^2pσ2

ただし、MLEは公平ではありません。

Nμ^σ^2N=100N1μσ2

E(μ^+1/2σ^2)μ+1/2σ2

E[exp(μ^+1/2σ^2)]>exp[E(μ^+1/2σ^2)]exp[μ+1/2σ2]

N=100

N=1000

ここに画像の説明を入力してください

作成者:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

exp(μ+σ2/2)

Vt=(σ2+σ4/2)exp{2(μ+12σ2)},
exp{2(μ+12σ2)}(exp{σ2}1)
exp{σ2}>1+σ2+σ4/2,
exp(x)=i=0xi/i!σ2>0

MLEが実際に小規模にバイアスされていることを確認するには NN <- c(50,100,200,500,1000,2000,3000,5000)

ここに画像の説明を入力してください

NNN=50

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727 

N

1
N=100N

2
まあ、私は2つの方法の間に大きな違いがあることにも驚いていますが、この例は「単なる平均化」がなぜひどいのかを示すのに完全に完璧です!
JohnW

1
@ JohnW、MLEの分散が小さい理由の分析的説明を少し追加しました。
クリストフハンク

1
NN
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.