一連の平均値の平均は、生データのセット全体から得られる平均と常に同じですか?


10

4つのデータセット(サンプルサイズが異なる)の平均を計算した場合、「平均の平均」を計算して「全体の平均」を取得できますか?はいの場合、この「平均の平均」は、4つのセットすべてのデータを組み合わせて平均を計算した場合と同じですか?


3
両方の方法で試しましたか;-)?(No.)
gung-モニカの回復

回答:


14

いいえ、サブセットの平均の平均は、セット全体の平均と同じではありません。サブセットが同じサンプルサイズである場合にのみ、同じ値になります。母集団の平均が必要な場合は、各平均に元のサンプルのサイズを掛けて母集団の合計を取得し、データポイントの総数(母集団のサイズ)で割ります。

平均の平均化が通常は機能しない理由を示す良い例として、シンプソンのパラドックス打率の平均の例をご覧ください。


2

それを試して、理解できるかどうか見てみましょう。次の例はでコーディングされていますR。これは無料であり、例を再現できますが、コードが自明であることを願っています。

group1 = c(1,2,3)
group2 = c(4,5,6,7,8,9)
mean(group1)
#  2
mean(group2)
#  6.5
mean(c(group1, group2))
#  5
mean(c(mean(group1), mean(group2)))
#  4.25

したがって、平均値の計算は確かに可能ですが、平均値とすべての生データの平均値は一致しません。また、試すことができ加重平均を、各グループのサンプルサイズを使用するようにBilltheLizardの提案@使用して重量(重みがで示されw、引数):

weighted.mean(c(mean(group1), mean(group2)), w=c(3,6))
#  5

これで同じ答えが得られます。


1

あなたが設定している場合、一般的には、各サイズが持つグループ手段、すべてのデータの全体のサンプル平均であります:mn1,...,nmx¯1,...,x¯m

x¯=k=1mnknx¯kn=i=1mnk.

したがって、全体の平均は常にグループのサンプル平均加重平均です。すべてのグループが同じサイズ()である特殊なケースでは、すべての重みが同じになるため、全体のサンプル平均はグループサンプル平均の平均になります。n1==nm


0

(極端な)例を挙げたいと思います:1つのサンプルで(1/10000)のヒット率があり、別の例で(1/2)のヒット率がある場合、。最初のケース(平均値)では、「平均」ヒット率は0.5001 / 2ですが、2番目のケース(合計値の平均)では、3/10003であり、これら2つの数値は同じではありません。どちらが適切か、または正しいかは、ユースケースによって異なります。hititotalihititotali

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.