回答:
いいえ、サブセットの平均の平均は、セット全体の平均と同じではありません。サブセットが同じサンプルサイズである場合にのみ、同じ値になります。母集団の平均が必要な場合は、各平均に元のサンプルのサイズを掛けて母集団の合計を取得し、データポイントの総数(母集団のサイズ)で割ります。
平均の平均化が通常は機能しない理由を示す良い例として、シンプソンのパラドックスの打率の平均の例をご覧ください。
それを試して、理解できるかどうか見てみましょう。次の例はでコーディングされていますR
。これは無料であり、例を再現できますが、コードが自明であることを願っています。
group1 = c(1,2,3)
group2 = c(4,5,6,7,8,9)
mean(group1)
# 2
mean(group2)
# 6.5
mean(c(group1, group2))
# 5
mean(c(mean(group1), mean(group2)))
# 4.25
したがって、平均値の計算は確かに可能ですが、平均値とすべての生データの平均値は一致しません。また、試すことができ加重平均を、各グループのサンプルサイズを使用するようにBilltheLizardの提案@使用して重量(重みがで示されw
、引数):
weighted.mean(c(mean(group1), mean(group2)), w=c(3,6))
# 5
これで同じ答えが得られます。
(極端な)例を挙げたいと思います:1つのサンプルで(1/10000)のヒット率があり、別の例で(1/2)のヒット率がある場合、。最初のケース(平均値)では、「平均」ヒット率は0.5001 / 2ですが、2番目のケース(合計値の平均)では、3/10003であり、これら2つの数値は同じではありません。どちらが適切か、または正しいかは、ユースケースによって異なります。