加重分散のバイアス補正


22

重み付けされていない分散 場合、同じデータから平均が推定されたときにバイアス補正されたサンプル分散が存在します:

ヴァールバツ:=1nバツμ2
ヴァールバツ:=1n1バツE[バツ]2

私は加重平均と分散を調べており、加重分散の適切なバイアス補正とは何なのか疑問に思っています。使用:

平均バツ:=1ωωバツ

私が使用している「単純な」未修正の分散は、次のとおりです。

ヴァールバツ:=1ωωバツ平均バツ2

だから、バイアスを修正する正しい方法は

A)

ヴァールバツ:=1ω1ωバツ平均バツ2

またはB)

ヴァールバツ:=nn11ωωバツ平均バツ2

またはC)

Var(X):=iωi(iωi)2iωi2iωi(ximean(X))2

A)重みが小さい場合、私には意味がありません。正規化値は0または負の値になる場合があります。しかし、B)(は観測値の数)はどうですか?これは正しいアプローチですか?これを示す参考資料はありますか?私は、「平均と分散の推定値の更新:改善された方法」を信じています。DHDWest、1979はこれを使用しています。3番目のC)は、この質問に対する答えの私の解釈です:https : //mathoverflow.net/questions/22203/unbiased-estimate-of-the-variance-of-an-unnormalised-weighted-meann

C)の場合、分母がよく似ていることに気付きました。ここに一般的な接続はありますか?私はそれが完全に揃っているわけではないと思います。そして明らかに、分散を計算しようとしている接続があります...Var(Ω)

それらの3つはすべて、すべてのを設定する健全性チェックを「生き残り」ます。それで、どの施設で、どれを使うべきですか?''アップデート: '' whuberは、および残りのすべての tinyで健全性チェックを行うことも提案しました。これは、AとBを除外しているようです。ω 1 = ω 2 = 0.5 ω I = εωi=1ω1=ω2=.5ωi=ϵ


2つの最大の重みが等しく、残りのすべてがゼロに小さくなるケースを考慮すると、(A)と(B)の両方が競合から落ちます(既知の結果に同意しないため)。(C)は近似値のようです。正しい要因は、重みのはるかに複雑な関数だと思います。n=2
whuber

以下の@whuber ThePawnは、それがCであることを示唆しています。より詳細な懸念はありますか?
アノニムース

1
解決策(A)は機能します。過去に実装しており、経験的なテストから正しい結果が得られることを確認できます。ただし、重みには整数値のみを使用し、0
より大きい

ありがとう!これにより、重みが指数移動平均の場合に正しい軌道に乗ることができました!単純な移動平均計算に類似して現れる小さな(1-1 / n)補正に加えて、実際に分散を計算する単純な方法は、定数2でそれを過大評価することがわかります。それは特にクレイジーな特別なケースです!
saolof

回答:


10

私は数学を経て、バリアントCになりました:

Varバツ=ω2ω2ω2V¯
ここで、は非修正分散推定です。すべてのが同一である場合、式は重みなしの場合と一致します。以下に証明の詳細を示します。V¯ω

設定、我々は持っていますλ=ωω

V¯=λバツjλjバツj2

内項を展開すると:

バツjλjバツj2=バツ2+jkλjλkバツjバツk2jλjバツバツj

予想を立てると、となり、各項にという用語が存在し、キャンセルされ、取得する:E[バツバツj]=Varバツ1=j+E[バツ]2E[バツ]

E ¯ V ] = V R X 1 - Σ J λ 2 Jλ I ω I

E[V¯]=Varバツλ1+jλj22λ
つまり に関して の式をプラグインして、バリアントCを取得します。
E[V¯]=Varバツ1jλj2
λω

上記のバリアントCですよね?
アノニムース

おっと、はい、バリアントCです。
ThePawn13年

私は経験的にこのソリューションをチェックして、それが仕事...ん一つだけは、私はまた、自分で過去に実施しているが、それは唯一の重みが整数および> = 0であることで動作することを溶液(A)はしません
gaborous

2
ウィキペディア、Matlab、R、およびこの方程式を実装している他の人によると、この方程式は間違っています。ここでの分子は二乗されていますが、そうではなく、OPによって提案された(C)のようなものでなければなりません。en.wikipedia.org/wiki/…を
面倒な

1
@rajatkhanduja証明についてではなく、最終的な派生方程式(この回答の一番上の方程式)について話していました。しかし、実際には正しいです。Vで乗算するため、分子は単に2乗します。したがって、分子は2乗しなくなります。とにかく、この推定量は「信頼性」タイプの重みに依存しているため、以下の回答で説明するように、この推定量は偏ったままです。
16時58分

7

AとCはどちらも正しいですが、どちらを使用するかは、使用するウェイトの種類によって異なります。

  • あなたが使用する必要がある「繰り返し」型の重みを(整数は、各観察のための出現回数をカウント)、およびある公平
  • Cは、「信頼性」タイプの重み(正規化された重みまたは各観測値の分散)を使用する必要があり、偏っています。偏ることはできません。

Cが必ずバイアスされる理由は、「繰り返し」タイプの重みを使用しないと、観測の総数(サンプルサイズ)をカウントする機能が失われ、補正係数を使用できないためです。

詳細については、最近更新されたウィキペディアの記事を確認してください:http : //en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.