加重分散、もう一度


17

偏りのない重み付き分散は、すでにここ他の場所で対処さましたが、依然として驚くべき量の混乱があるようです。最初のリンクとWikipediaの記事で提示された公式に対する合意があるようです。これは、R、Mathematica、およびGSLで使用される式(MATLABではない)のようにも見えます。ただし、Wikipediaの記事には、重み付き分散の実装に対する優れた健全性チェックのように見える次の行も含まれています。

たとえば、値{2,2,4,5,5,5}が同じ分布から引き出される場合、このセットを重み付けされていないサンプルとして扱うか、重み付けされたサンプルとして扱うことができます{2,4、 5}に対応する重み{2,1,3}があり、同じ結果が得られます。

私の計算では、元の値の分散に対して2.1667の値が、重み付き分散に対して2.9545の値が得られます。それらが同じであることを本当に期待すべきですか?なぜですか?


6
この質問は、実装について、実際にはありませんが、その背後にある理論
confusedCoder

回答:


15

はい、両方の例(重みなしと重み付き)で同じ結果が得られることを期待してください。

ウィキペディアの記事の2つのアルゴリズムを実装しました。

これは動作します:

すべてのxiが同じ分布から引き出され、整数の重みwiがサンプル内の出現頻度を示す場合、重み付き母集団分散の不偏推定量は次の式で与えられます。

s2 =1V11i=1Nwi(xiμ)2,

しかし、これは(分数の重みを使用して)私には機能しません:

xi1/wi

s2 =V1V12V2i=1Nwi(xiμ)2

2番目の式が意図したとおりに機能しない理由については、現在調査中です。

/ EDIT:2番目の式が思ったように機能しない理由を見つけました。2番目の式は、正規化された重みまたは分散(「信頼性」)重みがある場合にのみ使用できます。 「繰り返し」重み(観測が観測されたため、数学演算で繰り返される必要がある回数をカウントする)を使用すると、観測の総数をカウントする機能が失われるため、補正係数を使用できません。

したがって、これは、加重分散と非加重分散を使用した結果の違いを説明しています。つまり、計算は偏っています。

したがって、偏りのない重み付き分散が必要な場合は、「繰り返し」の重みのみを使用し、上記の最初の式を使用します。それが不可能な場合、まあ、あなたはそれを助けることはできません。

さらに情報が必要な場合は、Wikipediaの記事も更新しました:http : //en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

そして、偏りのない重み付き共分散についてのリンクされた記事(これは、実際には偏光同一性による同じ分散です): 重み付きの偏りのないサンプル共分散の正しい方程式


これをよく読んでよく考えた後、「信頼性の重み」という用語の直感的な意味や例がまだわかりません。少し詳しく説明していただけますか?
ピーター

@Peter信頼性の重みは、正規化された重みです。たとえば、0〜1または-1〜1の範囲です。これらは頻度を表します(たとえば、0.1は、このサンプルが他のすべてのサンプルと比較して10%の時間で見られたことを意味します)。私は用語を発明しませんでした、それは出版物で見つけることができます。繰り返しの重みの場合、逆になります。各重みは、出現回数、基数(たとえば、サンプルが10回観測された場合は10)を表します。
貪欲な

リピートウェイトと呼ばれるものは頻繁に周波数ウェイトとも呼ばれるため、これは混乱を招きますが、違いがあると思います。正規化に依存しますよね?
ピーター

いいえ、頻度の重みは信頼性の重みの代替名です。繰り返しの重みの場合、頻度ではなく、出現回数です。繰り返しウェイトでは、ノーマライズはまったくありません。それがポイントです。ウェイトをノーマライズする限り、ベース周波数が失われるため、計算のバイアスを完全に解除することはできません。唯一の方法は、オカレンスの総数を保持することです。頻度の重みを本当に使用したい場合は、頻度の重みにNを掛けることで、繰り返し発生する合計N個のオカレンスを事前に保存しておけば、それを繰り返すことができると思います。
gaborous

重みが1 /分散の重みである場合、それらをどのように呼び出しますか?それは「信頼性の重み」でしょうか?
トムウェンセリアーズ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.