不確実性のあるいくつかの測定の標準偏差


13

サンプリングレートが1 Hzの2時間のGPSデータが2つあります(7200測定)。データはの形式で与えられます。ここで、は測定の不確かさです。バツバツσYYσZZσNσ

すべての測定値の平均(たとえば、これら2時間の平均Z値)をとると、その標準偏差はどうなりますか?もちろん、Z値から標準偏差を計算できますが、既知の測定の不確実性があるという事実を無視します...

編集:データはすべて同じステーションからのものであり、すべての座標は毎秒再測定されます。衛星の星座などにより、すべての測定値には異なる不確実性があります。私の分析の目的は、外部イベント(すなわち、地震)による変位を見つけることです。地震前の7200回の測定(2時間)と地震後2時間の平均をとり、その結果の差(高さなど)を計算します。この差の標準偏差を指定するには、2つの平均の標準偏差を知る必要があります。


3
良い質問。さらに重要なことは、データが時間の経過とともに強く正の相関関係を持つことです。これは、測定の不確実性の変動よりも、回答に対してより深い影響を及ぼします。
whuber

whuberのコメントとDeathkill14の回答を取り上げて、適切に回答するための十分な情報を提供していない。測定する際のエラーがどのようにX,Y,Z「機能するか」を知ることが重要です。たとえば、Xを測定するエラーが3秒で正であった場合、4秒で正/正である可能性がより高い/低い可能性があります。つまり、シリアル相関がありますか。第二に、のエラーがX3秒で正だった場合、Yおよび/またはエラーが3秒で正になる可能性は大/小Zですか?2秒で?4秒で?
ビル14

わずかに異なる質問に関連するのは、測定誤差がどの程度体系的であるかということです。「ええ、バツは私の前の芝生で 少し高く測定されましたバツほとんどの場合、私の前の芝生で少し高く測定されました。」それはクレイジーなステートメントでしょうか?測定エラーは、特定の場所が非常に頻繁に高すぎたり、別の特定の場所が非常に頻繁に低すぎたりするなどの方法で機能しますか?または、すべてのエラーは一時的ですか?
Bill

@ビル:間違いなくシリアル相関があります。測定誤差は2時間にわたってほぼ一定です。しかし、それらは一般にデータから計算された標準偏差よりも大きいため、この疑問に私を導きました。
列車の運転手14

あなたの質問は、まだ連続相関の存在を明確に説明していません。残念ながら、3つの慎重に構成された答えがあります。
-Glen_b-モニカーの復活2014

回答:


7

この質問に対する以前の回答は、少し調子が悪いかもしれません。「ベクトルの一連の測定を与えられた、としてどのようなオリジナルポスターは本当にここに求めていることは言い換えることができることを私には思える:私は= 1 2 3 7200、及び測定共分散C I = X 2 σ I 0 0 0 Y

θi=(XiYiZi)
i=1,2,3,...,7200どのように私は正しく、ベクターこの一連の測定のための共分散加重平均を計算するだろう、とその後、どのように私は正しくその標準偏差を計算するのでしょうか?」この質問に対する答えはすることができ物理科学の統計学を専門とする多くの教科書で見られます特に私が好きな例の1つは、フレデリックジェームスの「実験物理学における統計的方法」です。
Ci=(Xσ,i2000Yσ,i2000Zσ,i2)
、第2版、World Scientific、2006年、セクション11.5.2、「独立した推定値の組み合わせ」、pg。323-324。スカラー値の分散加重平均計算を説明する別の非常に優れた、しかしより入門レベルのテキスト(上記の完全なベクトル量とは対照的)は、Philip R. BevingtonおよびD. Keith Robinson、「データ削減およびエラー分析for the Physical Sciences」、第3版、McGraw-Hill、2003年、セクション4.1.x、「データの重み付け-不均一な不確実性」。ポスターの質問がたまたま対角化されているためこの場合の共分散行列(つまり、非対角要素はすべてゼロ)、問題は実際には3つの個別(つまり、X、Y、Z)スカラー加重平均問題に分離できるため、ベビントンとロビンソンの分析も同様に適用されますここでも。

一般的に、stackexchange.comの質問に回答するとき、多くの教科書で既に提示されている長い派生物を再パッケージ化することは、通常は役に立ちません-素材を本当に理解し、答えがなぜ見えるのかを理解したい場合彼らがするように、あなたは本当に行って、教科書の著者によってすでに公開されている説明を読むべきです。それを念頭に置いて、私は単に他の人がすでに提供した答えを再統計するために直接ジャンプします。フレデリックジェームズから、設定、加重平均である:θメートル電子のn = N Σ I = 1 CN=7200と加重平均の共分散である:Cmは電子N= N Σは iは=1、C - 1 I-1 この回答は完全に一般的であり、非対角の測定共分散行列であっても、Ciの形式に関係なく有効です。

θmean=(i=1NCi1)1(i=1NCi1θi)
Cmean=(i=1NCi1)1
Ci

XiYiZi

Xmean=i=1NXiXσ,i2i=1N1Xσ,i2
Xσ,mean2=1i=1N1Xσ,i2
Xσ,mean=1i=1N1Xσ,i2
Ymean,Yσ,meanZmean,Zσ,mean

たぶん私は少し不明瞭だったので、いくつかの情報を追加しました。測定値に重みを付ける必要はないと思います。
列車の運転手14

1
そうです。思考実験として、極端な場合を考えてみましょう。7200ではなく、2つのGPS測定値があるとします。さらに、GPS測定値の1つに+/- 5フィートの不確実性があり、もう1つに+/- - 5マイル。不確かさの数値は、文字通り、測定がどれほど不正確であるかを示しています。つまり、+ /-5マイルの値は、少なくとも数マイル離れている可能性があります。この数字を意味のある方法で平均に含めたいですか?加重平均により、それほど信頼すべきではない値を割り引くことができます。
stachyra 14

1
ところで、私の答えには別のことがあります:元の投稿では、Z値から直接計算されたサンプル標準偏差を単純に使用したくない理由は、その場合は、あなた自身の言葉で、「既知の測定の不確実性があるという事実を無視する」。私の答え(まあ、本当に、あいまいな教科書の答え、私はあなたと単純に共有しています)は、あなたが求めたとおりに、既知の測定の不確実性を使用します。それはあなたが予想していたよりも多くの場所で情報を使用するということです(平均結果と標準偏差)。
stachyra 14

あなたは私を納得させました。
列車の運転手14

6

これは、ベイジアン推論を使用して簡単に解決できます。個々のポイントの測定値を真の値に関して知っていて、真の値を生成した母平均とSDを推測したい場合。これは階層モデルです。

問題の言い換え(ベイズの基本)

正統的な統計は単一の平均を与えるのに対し、ベイジアンフレームワークでは信頼できる平均値の分布を得ることに注意してください。たとえば、SD(2、2、3)での観測(1、2、3)は、最尤推定値2によって生成された可能性がありますが、平均2.1または1.8によって生成された可能性がありますが、 MLE。したがって、SDに加えて、平均も推定します

もう1つの概念的な違いは、観察を行う前に知識状態を定義する必要があることです。これを事前優先順位と呼びます。特定の領域が特定の高さ範囲でスキャンされたことを事前に知っているかもしれません。知識の完全な欠如は、XとYの事前のように均一(-90、90)度であり、高さ(海の上、地球上の最高点より下)で均一(0、10000)メートルである可能性があります。あなたは定義する必要が事前確率分布を使用すると、推定したいすべてのパラメータのために、すなわちGET 事後分布のために。これは標準偏差にも当てはまります。

あなたの問題を言い換えると、私はあなたが3つの平均(X.mean、Y.mean、X.mean)と3つの標準偏差(X.sd、Y.sd、X.sd)の信頼できる値を推測したいと思いますデータを生成しました。

モデル

標準のBUGS構文(WinBUGS、OpenBUGS、JAGS、stanまたはその他のパッケージを使用してこれを実行)を使用すると、モデルは次のようになります。

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

当然、.meanおよび.sdパラメータを監視し、推論のためにそれらの事後を使用します。

シミュレーション

次のようなデータをシミュレートしました。

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

次に、500回の反復のバーンインの後、2000回の反復でJAGSを使用してモデルを実行しました。X.sdの結果は次のとおりです。

X.sdの後方

青の範囲は、95%の最高事後密度または信頼区間を示します(パラメーターがデータを観察した後だと考えられます。正統の信頼区間ではこれが得られないことに注意してください)。

赤い垂直線は、生データのMLE推定値です。通常、ベイズ推定の最も可能性の高いパラメーターは、オーソドックス統計の最も可能性の高い(最尤)パラメーターでもあります。しかし、あなたは後部の上部についてあまり気にするべきではありません。平均値または中央値は、1つの数値に要約する場合に適しています。

MLE / topが5ではないことに注意してください。これは、誤った統計のためではなく、データがランダムに生成されたためです。

制限

これは、現在いくつかの欠陥がある単純なモデルです。

  1. -90および90度のIDは処理されません。ただし、推定パラメーターの極値を(-90、90)の範囲にシフトする中間変数を作成することにより、これを行うことができます。
  2. X、Y、およびZは現在、独立しているようにモデル化されていますが、おそらく相関しているため、データを最大限に活用するにはこれを考慮する必要があります。それは、測定デバイスが動いていたか(X、Y、Zの連続相関と共同分布により多くの情報が得られるか)、静止しているか(独立は問題ありません)によって異なります。要望があれば、これにアプローチするために答えを広げることができます。

空間ベイジアンモデルに関する多くの文献があり、それらについては知識がありません。


この答えをありがとう。固定局からのデータですが、これはデータが独立していることを意味しますか?
トレインドライバー14

@traindriver私たちがあなたを支援するためには、あなたが直面している推論の問題に関するいくつかのより多くの情報を提供する必要があります。少なくとも(1)繰り返し測定される量と同じかを指定する「更新」セクションで質問を拡張できますか?すなわち、同じ座標。または、領域がスキャンされていますか...(2)なぜ平均とsdを推測したいですか?エリアの場合は、SDをでこぼこなどの推定値として使用したい場合があります。
ジョナスリンデロフ14

元の投稿にさらに情報を追加しました。
列車の運転手14

3

z

Z¯==1nμZ+ϵnZ¯zμZϵZ¯μZZZ¯σ^σ

z=1β+ϵ1βZ¯μZϵz

z=1β+Qあなたは+ϵあなたはQzあなたはあなたはZσz?はいの場合、これを使用して変量効果の分布を提供できます。通常、基本的な混合効果のモデリングを実行するソフトウェアは、ランダム効果に正規分布(平均0 ...)があると仮定し、分散を推定します。おそらく、これを試して概念をテストすることができます。測定誤差の分布に関する事前情報を使用する場合は、ベイジアン混合効果モデルが適切です。R2OpenBUGSを使用できます。

ϵϵ

DW

whuberが述べたように、データの自己相関を考慮することをお勧めします。ランダム効果を使用しても、その問題は解決しません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.