これは、ベイジアン推論を使用して簡単に解決できます。個々のポイントの測定値を真の値に関して知っていて、真の値を生成した母平均とSDを推測したい場合。これは階層モデルです。
問題の言い換え(ベイズの基本)
正統的な統計は単一の平均を与えるのに対し、ベイジアンフレームワークでは信頼できる平均値の分布を得ることに注意してください。たとえば、SD(2、2、3)での観測(1、2、3)は、最尤推定値2によって生成された可能性がありますが、平均2.1または1.8によって生成された可能性がありますが、 MLE。したがって、SDに加えて、平均も推定します。
もう1つの概念的な違いは、観察を行う前に知識状態を定義する必要があることです。これを事前優先順位と呼びます。特定の領域が特定の高さ範囲でスキャンされたことを事前に知っているかもしれません。知識の完全な欠如は、XとYの事前のように均一(-90、90)度であり、高さ(海の上、地球上の最高点より下)で均一(0、10000)メートルである可能性があります。あなたは定義する必要が事前確率分布を使用すると、推定したいすべてのパラメータのために、すなわちGET 事後分布のために。これは標準偏差にも当てはまります。
あなたの問題を言い換えると、私はあなたが3つの平均(X.mean、Y.mean、X.mean)と3つの標準偏差(X.sd、Y.sd、X.sd)の信頼できる値を推測したいと思いますデータを生成しました。
モデル
標準のBUGS構文(WinBUGS、OpenBUGS、JAGS、stanまたはその他のパッケージを使用してこれを実行)を使用すると、モデルは次のようになります。
model {
# Set priors on population parameters
X.mean ~ dunif(-90, 90)
Y.mean ~ dunif(-90, 90)
Z.mean ~ dunif(0, 10000)
X.sd ~ dunif(0, 10) # use something with better properties, i.e. Jeffreys prior.
Y.sd ~ dunif(0, 10)
Z.sd ~ dunif(0, 100)
# Loop through data (or: set up plates)
# assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
for(i in 1:n.obs) {
# The true value was generated from population parameters
X[i] ~ dnorm(X.mean, X.sd^-2) #^-2 converts from SD to precision
Y[i] ~ dnorm(Y.mean, Y.sd^-2)
Z[i] ~ dnorm(Z.mean, Z.sd^-2)
# The observation was generated from the true value and a known measurement error
d[i, 1] ~ dnorm(X[i], d[i, 2]^-2) #^-2 converts from SD to precision
d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
}
}
当然、.meanおよび.sdパラメータを監視し、推論のためにそれらの事後を使用します。
シミュレーション
次のようなデータをシミュレートしました。
# Simulate 500 data points
x = rnorm(500, -10, 5) # mean -10, sd 5
y = rnorm(500, 20, 5) # mean 20, sd 4
z = rnorm(500, 2000, 10) # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3) # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]
次に、500回の反復のバーンインの後、2000回の反復でJAGSを使用してモデルを実行しました。X.sdの結果は次のとおりです。
青の範囲は、95%の最高事後密度または信頼区間を示します(パラメーターがデータを観察した後だと考えられます。正統の信頼区間ではこれが得られないことに注意してください)。
赤い垂直線は、生データのMLE推定値です。通常、ベイズ推定の最も可能性の高いパラメーターは、オーソドックス統計の最も可能性の高い(最尤)パラメーターでもあります。しかし、あなたは後部の上部についてあまり気にするべきではありません。平均値または中央値は、1つの数値に要約する場合に適しています。
MLE / topが5ではないことに注意してください。これは、誤った統計のためではなく、データがランダムに生成されたためです。
制限
これは、現在いくつかの欠陥がある単純なモデルです。
- -90および90度のIDは処理されません。ただし、推定パラメーターの極値を(-90、90)の範囲にシフトする中間変数を作成することにより、これを行うことができます。
- X、Y、およびZは現在、独立しているようにモデル化されていますが、おそらく相関しているため、データを最大限に活用するにはこれを考慮する必要があります。それは、測定デバイスが動いていたか(X、Y、Zの連続相関と共同分布により多くの情報が得られるか)、静止しているか(独立は問題ありません)によって異なります。要望があれば、これにアプローチするために答えを広げることができます。
空間ベイジアンモデルに関する多くの文献があり、それらについては知識がありません。