標準偏差を「合計」する方法は?


68

値の月間平均とその平均に対応する標準偏差があります。現在、月平均の合計として年平均を計算していますが、合計平均の標準偏差をどのように表すことができますか?

たとえば、風力発電所からの出力を検討する場合:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

風力発電所は平均して10,358 MWhを生産していますが、この数値に対応する標準偏差はどのくらいですか?


3
削除された返信に続く議論は、この質問のあいまいさの可能性を指摘しました:月平均のSDを求めるか、それらの平均が構築されたすべての元の値のSDを回復しますか?また、その回答は、後者が必要な場合は、毎月の平均のそれぞれに含まれる値の数が必要になることを正しく指摘しました。
whuberの

1
別の削除返信のコメントは、平均を計算するために奇妙であることを指摘合計:確かにあなたがしていることを意味し、平均月額平均を。ただし、すべての元のデータの平均を推定する場合は、通常、このような手順は適切ではありません。加重平均が必要です。そしてもちろん、「合計平均のSD」が何であり、それが何を表すのかが明確になるまで、「合計平均のSD」に関する質問に適切な答えを出すことはできません。それを明確にしてください。
whuberの

@whuber明確にするために例を追加しました。数学的には、平均の合計は毎月の平均時間の12に等しいと考えています。
klonq12年

2
はい、klonq、それは非常に合理的な要求です。ただし、これらの返信はコミュニティではなく所有者によって削除されました。それらの価値を維持するために、私はここで、それらの返信と彼らのコメントで生じる重要なアイデアを伝えようとしています。ところで、あなたの最近の編集は非常に役立ちます。人々はサンプルデータを見たいです。
whuber

1
@Haydenのサイトへようこそ。これは、OPの質問に対する答えではありません。[回答]フィールドのみを使用して回答を入力してください。フォローアップの質問がある場合[ASK QUESTION]は、上部のをクリックしてそこで質問してください。その後、適切にサポートできます。ここは初めてなので、新しいユーザー向けの情報が含まれるツアーをご覧ください。
GUNG -モニカ元に戻し

回答:


66

簡単な答え:分散を平均します。次に、平方根を取得して平均標準偏差を取得できます。


Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

そして、平均標準偏差sqrt(53,964) = 232


正規分布確率変数の合計から:

場合および、通常(したがって、共同そうと)分布している独立したランダム変数であり、その後、それらの和はまた、通常分配されますXY

... 2つの独立した正規分布確率変数の合計は正規であり、その平均は2つの平均の合計であり、その分散は2つの分散の合計です

そして、Wolfram Alphaの正規和分布から

驚くべきことに、平均と分散および持つ2つの正規分布された独立変数と合計の分布は、別の正規分布です。XY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

意味がある

μX+Y=μX+μY

および分散

σX+Y2=σX2+σY2

データについて:

  • 和: 10,358 MWh
  • 分散: 647,564
  • 標準偏差: 804.71 ( sqrt(647564) )

ここに画像の説明を入力してください

あなたの質問に答えるために:

  • 標準偏差を「合計」する方法は
  • 二次的にそれらを合計します:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

概念的には、分散を合計し、平方根を取得して標準偏差を取得します。


私は興味があったので、平均月間平均電力とその標準偏差を知りたいと思いました。帰納法では、次の12の正規分布が必要です。

  • 合計の平均 10,358
  • 合計の分散 647,564

それは、以下の12の平均月間分布になります。

  • の意味 10,358/12 = 863.16
  • の分散 647,564/12 = 53,963.6
  • の標準偏差 sqrt(53963.6) = 232.3

ここに画像の説明を入力してください

毎月の平均分布を12回加算して、それらが年間分布に等しいことを確認できます。

  • 平均:863.16*12 = 10358 = 10,358正しいです
  • 分散:53963.6*12 = 647564 = 647,564正しいです

:数式の画像を変換し、formula codestackexchange形式の数式に変換するために、難解なラテックス数学の知識を持つ人にお任せします。

編集:ショートをポイントに移動し、上に答えます。私は今日これを再度行う必要がありましたが、分散を平均することを再確認したかったためです。


3
これはすべて、月が無相関であると仮定しているようです-その仮定をどこかに明示的にしましたか?また、なぜ正規分布を導入する必要があるのですか?分散についてだけ話している場合、それは不要なようです-たとえば、ここで
マクロ

1
@Marco私は写真の方が良いと思うし、それはすべてを理解しやすくするからです。
イアン・ボイド

2
@Marcoまた、この質問は(現在は機能していません)stats.stackexchangeサイトで始まったと思います。数式壁は、単純でグラフィカルで厳密性の低い処理よりもアクセスしにくいです。
イアン・ボイド

2
これが正しいとは思えません。それぞれが単一の測定値である2つのデータセットを想像してください。各セットの分散は0ですが、データポイントが異なる場合、両方の測定のセットの分散は0より大きくなります。
Njol

1
@Njol、それがすべての変数が正規分布を持っていると仮定する理由だと思います。物理的な測定について話しているので、ここでそれを行うことができます。あなたの例では、両方の変数は正規分布ではありません。
-tworec

11

これは古い質問ですが、受け入れられた答えは実際には正しくも完全でもありません。ユーザーは、各月の平均と標準偏差がすでに計算されている12か月のデータの標準偏差を計算したいと考えています。各月のサンプル数が同じであると仮定すると、各月のデータから年間のサンプル平均と分散を計算することができます。簡単にするために、2つのデータセットがあると仮定します。

X={x1,....xN}

Y={y1,....,yN}

既知のサンプルの値の平均と標本分散と、、、、。μxμyσx2σy2

次に、同じ推定値を計算します

Z={x1,....,xN,y1,...,yN}

、は次のように計算されることを考慮してください。μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

合計セットの平均と分散を推定するには、計算する必要があります。

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2 は受け入れられた回答で与えられます。ただし、違いにより、ストーリーは異なります。

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

したがって、各サブセットの分散があり、セット全体の分散が必要な場合、すべてのサブセットの平均が同じであれば、各サブセットの分散を平均化できます。それ以外の場合は、各サブセットの平均の分散を追加する必要があります。

年の前半に1日あたり正確に1000 MWhを生成し、秒の半分で1日あたり2000 MWhを生成するとします。次に、前半と後半のエネルギー生産の平均と分散は、平均が1000と2000であり、両方の半分が0です。今、私たちが興味を持つかもしれない2つの異なるものがあります:

1- 年間のエネルギー生産の分散を計算します。2つの分散を平均するとゼロになります。これは、年間の1日あたりのエネルギーが一定ではないため正しくありません。この場合、各サブセットからのすべての平均の分散を追加する必要があります。この場合の数学的には、対象のランダム変数は1日あたりのエネルギー生産量です。サブセットに関するサンプル統計があり、より長い時間にわたってサンプル統計を計算したいと考えています。

2- 年間のエネルギー生産量の分散を計算したい。つまり、ある年から別の年にエネルギー生産量がどれだけ変化するかに関心がある。この場合、分散を平均すると、正解は0になります。これは、毎年平均で正確に1500 MHWを生成しているためです。この場合の数学的には、関心のあるランダム変数は1日あたりのエネルギー生産の平均であり、平均は1年を通して行われます。


1

私があなたが本当に興味を持っているのは標準偏差ではなく標準誤差だと思います。

平均の標準誤差(SEM)は、母平均のサンプル平均の推定値の標準偏差です。これにより、年間MWh推定値がどれだけ良いかがわかります。

計算は非常に簡単です:サンプルを使用して毎月のMWh平均と標準偏差を取得した場合、@ IanBoydが示唆したように標準偏差を計算し、サンプルの合計サイズで正規化します。つまり、s = n

s=s12+s22++s12212×n

1

私は、受け入れられた答えの一部の不正確さを再び強調したいと思います。質問の文言は混乱を招きます。

質問には各月のAverageとStdDevがありますが、どの種類のサブセットが使用されているかは不明です。それは、農場全体の1つの風力タービンの平均ですか、農場全体の毎日の平均ですか?各月の1日の平均の場合、同じ分母がないため、月の平均を合計して年間の平均を取得することはできません。単位平均の場合、質問には

平均して、風力発電所の各タービンは10,358 MWhを生成すると言うことができます...

の代わりに

風力発電所は平均して10,358 MWhを生産していると言えます...

さらに、標準偏差または標準偏差は、セット自体の平均との比較です。セット全体の平均に関する情報は含まれていません。

分散の例

画像は非常に正確である必要はありませんが、一般的な考えを伝えます。画像のように、1つの風力発電所の出力を想像してみましょう。ご覧のとおり、「ローカル」分散は、「グローバル」分散とは関係ありません。それらをどのように加算または乗算しても関係ありません。2半年の分散を使用して年の分散を予測することはできません。したがって、受け入れられた答えでは、合計の計算は正しいものの、月の数を得るための12による除算は何の意味もありません。。3つのセクションのうち、最初と最後のセクションが間違っていますが、2番目のセクションは正しいです。

繰り返しますが、これは非常に間違ったアプリケーションです。従わないでください。各ユニットの年間/月ごとの合計出力をデータポイントとして使用して、年ごとまたは月ごとの数が必要かどうかに応じて計算されます。これが正しい答えです。おそらくこのようなものが必要です。これは私のランダムに生成された数字です。データがある場合、セルO2の結果が答えになります。

ここに画像の説明を入力してください


受け入れられた答えが不完全で、間違っている可能性がある理由を理解するのに非常に役立ったイメージをありがとう。あなたはそれをとてもよく説明してくれました、ありがとう!
ケイ

これは投票の危険性を示しています。投票する人は、答えを知らない人です。コーディングとは反対に、投票する人はコードを機能させる人であり、投票数が多いほど、より良い答えになります。統計/数学の場合、投票数が多いということは、より魅力的であることを意味します。
タムル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.