これは古い質問ですが、受け入れられた答えは実際には正しくも完全でもありません。ユーザーは、各月の平均と標準偏差がすでに計算されている12か月のデータの標準偏差を計算したいと考えています。各月のサンプル数が同じであると仮定すると、各月のデータから年間のサンプル平均と分散を計算することができます。簡単にするために、2つのデータセットがあると仮定します。
X={x1,....xN}
Y={y1,....,yN}
既知のサンプルの値の平均と標本分散と、、、、。μxμyσ2xσ2y
次に、同じ推定値を計算します
Z={x1,....,xN,y1,...,yN}。
、は次のように計算されることを考慮してください。μxσ2x
μx=∑Ni=1xiN
σ2x=∑Ni=1x2iN−μ2x
合計セットの平均と分散を推定するには、計算する必要があります。
μz=∑Ni=1xi+∑Ni=1yi2N=(μx+μy)/2
は受け入れられた回答で与えられます。ただし、違いにより、ストーリーは異なります。
σ2z=∑Ni=1x2i+∑Ni=1y2i2N−μ2z
σ2z=12(∑Ni=1x2iN−μ2x+∑Ni=1y2iN−μ2y)+12(μ2x+μ2y)−(μx+μy2)2
σ2z=12(σ2x+σ2y)+(μx−μy2)2
したがって、各サブセットの分散があり、セット全体の分散が必要な場合、すべてのサブセットの平均が同じであれば、各サブセットの分散を平均化できます。それ以外の場合は、各サブセットの平均の分散を追加する必要があります。
年の前半に1日あたり正確に1000 MWhを生成し、秒の半分で1日あたり2000 MWhを生成するとします。次に、前半と後半のエネルギー生産の平均と分散は、平均が1000と2000であり、両方の半分が0です。今、私たちが興味を持つかもしれない2つの異なるものがあります:
1- 年間のエネルギー生産の分散を計算します。2つの分散を平均するとゼロになります。これは、年間の1日あたりのエネルギーが一定ではないため正しくありません。この場合、各サブセットからのすべての平均の分散を追加する必要があります。この場合の数学的には、対象のランダム変数は1日あたりのエネルギー生産量です。サブセットに関するサンプル統計があり、より長い時間にわたってサンプル統計を計算したいと考えています。
2- 年間のエネルギー生産量の分散を計算したい。つまり、ある年から別の年にエネルギー生産量がどれだけ変化するかに関心がある。この場合、分散を平均すると、正解は0になります。これは、毎年平均で正確に1500 MHWを生成しているためです。この場合の数学的には、関心のあるランダム変数は1日あたりのエネルギー生産の平均であり、平均は1年を通して行われます。