加重平均の分散が非加重平均よりも大きい


8

私のレビュー担当者が、重み付けされたデータではなく、重み付けされていないデータを使用した理由を尋ねています。私は統計学者とこの問題について話し合いました、そして彼の反応は

独立した観測値があり、全体の平均を取る場合、その分散は、推定量としての加重平均からの分散より常に小さくなります。...したがって、信頼区間が拡大されます。

その後、このWebサイトで次の質問を見つけました。私の理解から、分散は同じである必要があると示唆されています。ですから、私よりも統計的に才能のある心を持った誰かが、統計学者からの応答を確認し、理論を平易な言葉で説明したり、実際の例を使ったりしてください。


「重み」が実際に観測または母集団の頻度である場合、重み付けされていない数は無意味であるため、それらを使用する必要があります。統計学者の見積もりは、単峰分布の母集団に当てはまる可能性がありますが、一般的に当てはまる必要はありません。
Henry

より多くのコンテキストを持つ実際の例を提供するのは簡単です。重みは何を表していますか?サンプル平均の分散について話していますか?有限母集団からのサンプルですか?交換の有無は?
ヘンリー

病院の人々のサンプルから一連の心拍数測定値を収集したとしましょう。一連の交絡因子(例:年齢、身長、体重など)を比較することにより、重み付け係数を各個人に適用して、国の推定値または人口を反映するように測定値をスケーリングできます。
user08041991

リンクする質問は、周波数の重みについてです。それはあなたが持っているものですか?
mdewey

2
値の平均は、加重平均と重みです。場合独立しており、分散の基本的なルールは、暗示加えたとき全て同じ分散を有します、これは倍の簡略化されます。重みは正で合計がになるため、は場合にのみ最小化されます。この意味で、統計学者は正しいです。nxix¯=iwixiwi=1/nxi
(1)Var(x¯)=iwi2Var(xi).
xiσ2wi2σ2(1)wi=1/nこの一般的な結論は、単峰性など、の分布の他のプロパティとは無関係です。xi
whuber

回答:


5

リンクされた質問は、いくつかのデータポイントが複数回発生する、データポイントごとの均等に分散された分散を処理するためのショートカットとして、重みを使用して対処しています。

@whuberはコメントで、すべてのデータポイントの分散が等しい状況に対処しました。だから私はそれらが等しくない状況に対処します。この状況では、最適な加重平均は、加重されていない、つまり均等に加重された平均よりも分散が低くなります。

加重平均は、使用して重みが、等しい、そして分散を有し=。したがって、すべてのi に対しておよびを条件として、を最小化したいと考えています。wiΣi=1nwixiΣi=1nwi2Var(xi)Σi=1nwi2Var(xi)Σi=1nwi=1wi0

Karush-Kuhn-Tucker条件は、この問題の大域的最小値に必要十分であり、凸2次計画問題であることを考えると、閉形式の解になります。

1 = 1 .. n の最適なwi=[1/Var(xi)]/Σj=1n[1/Var(xj)]

対応する最適な加重平均の分散=。1/Σi=1n[1/Var(xi)]

対照的に、等しい重み付けは、すべてのiについてを意味します。ここで、nはデータポイントの数です。whuberによって指摘されたように、すべてのデータポイントの分散が等しい場合、等しい重みが最適です。これは、上記の最適な式からわかるようになります。ただし、その式から明らかなように、データポイントの分散がすべて等しくない場合、等しい重みは最適ではなく、実際には、最適な重みよりも(加重平均の)分散が大きくなります。等しく重み付けされた平均の分散、つまり、等しい重みを使用した重み付け平均の分散=。wi=1nwi1n2Σi=1nVar(xi)

数値結果の例をいくつか示します。

  1. 2つのデータポイントがあり、それぞれ1と4の分散があります。重み付けされていない平均の分散は1.25です。それぞれ最適な重み0.8と0.2を使用した加重平均の分散は0.8で、もちろん1.25未満です。
  2. 3つのデータポイントがあり、それぞれ1、4、9の分散があります。重み付けされていない平均の分散は1.5556です。それぞれ0.7347、0.1837、0.0816の最適な重みを使用した加重平均の分散は0.7347ですが、これはもちろん1.5556未満です。

もちろん、重みの選択が不適切な場合、加重平均が非加重平均よりも大きな分散を持つ可能性があります。最大の分散を持つデータポイントで1の重みを選択し、他のすべてのデータポイントで0を選択すると、加重平均は分散=任意のデータポイントの最大分散になります。この極端な例は、私が提示した最適化問題を最小化するのではなく最大化した結果です。


分散がある個々のデータポイントへの参照について混乱しています(たとえば、分散がそれぞれ1と4の2つのデータポイントがあります)。説明していただけますか?
edstatsuser

データポイントに特定の分散があると言うことは、がその分散を持つ母集団(ランダム変数)から抽出されると言うことの省略形です。したがって、これはiidサンプリングであるとは想定されていないため、異なる母集団から異なるデータポイントを引き出すことができます。xixi
Mark L. Stone、

0

とを使用した簡単な例を次に示します形式の分散:1ni(xi1njxj)21kwkiwi(xi1kwkjwjxj)2

母集団の測定値があるとします。20,30,40,50

  • 加重されていない平均は、分散は35125
  • それぞれの重みが、加重平均はあり、加重分散は36 841000,4000,3000,20003684
  • それぞれの重み、加重平均はあり、加重分散は36 1643000,2000,1000,400036164

この例は、あなたの統計学者の引用が単峰分布を持つ母集団に対して当てはまる可能性が高いという私のコメントと一致していますが、一般的に当てはまる必要はありません。

重要なのは、加重平均を引用している場合は、おそらくそれを加重分散と関連付ける必要があるということです。実際に平均が標本の結果である場合、加重標本平均の標準誤差はより複雑な計算になります。


この回答は、サンプル(または有限母集団)の分散と、平均(または加重平均)のサンプリング分布の分散を混同しているようです。その結果、それは真実ではないと思われ、誤解を招く可能性のあるステートメントが含まれています。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.