結合された標準偏差を見つけることは可能ですか?


32

2つのセットがあるとします。

セットA:アイテム、、n=10μ=2.4σ=0.8

セットB:アイテムの、、n=5μ=2σ=1.2

結合平均()は簡単に見つけることができますが、結合標準偏差を見つけるにはどうすればよいですか?μ


回答:


30

したがって、これらのサンプルのうち2つを1つにまとめたい場合は、次のようにします。

s1=1n1Σi=1n1(xiy¯1)2

s2=1n2Σi=1n2(yiy¯2)2

ここで、およびはサンプル平均であり、およびはサンプル標準偏差です。y¯1y¯2s1s2

それらを追加するには、次のものがあります。

s=1n1+n2Σi=1n1+n2(ziy¯)2

新しい平均はおよびとは異なるため、それほど単純ではありません。y¯y¯1y¯2

y¯=1n1+n2Σi=1n1+n2zi=n1y¯1+n2y¯2n1+n2

最終的な式は次のとおりです。

s=n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2

一般的に使用されるベッセル補正( "分母")バージョンの標準偏差の場合、平均の結果は以前と同じですが、n1

s=(n11)s12+(n21)s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n21

詳細はこちらをご覧ください:http : //en.wikipedia.org/wiki/Standard_deviation


1
OPがサンプル標準偏差のベッセル補正(分散の分母)バージョンを使用している場合(ここで尋ねるほとんどすべての人が行うように)、この答えは彼らが求めるものをまったく与えません。n1
グレン_b-モニカの復活14

その場合、このセクションでトリックを行います。(新しいバージョンから削除されているため、古いウィキペディアのバージョンにリンクするように編集してください)
Glen_b-モニカの復元2014

@Glen_b良いキャッチ。これを答えに編集して、より便利にすることはできますか?
サシケロ14年

証拠を見つけるためにウィキペディアに行きましたが、残念ながらこの式はもうありません。Wikipediaの作成(証明)または改善に注意しますか?:)
ラウニリレメ

@RauniLillemetsは、en.wikipedia.org
クリス

8

これは明らかにグループに拡張されます。K

s=k=1K(nk1)sk2+nk(y¯ky¯)2(k=1Knk)1

7
これは標準では少し簡単です。これがどのように導出され、なぜこれが正しい答えであるかについてもう少し言えますか?
シコラックスは、モニカの復活を

1

私は同じ問題を抱えていました。空の交差点を持ついくつかのサブセットの標準偏差、平均、サイズを持ち、それらのサブセットの和集合の標準偏差を計算します。

私はsashkelloGlen_b♦の答えが好きですが、その証拠を見つけたいと思いました。私はこの方法でそれをしました、そして、それが誰のためにでも役立つならば、私はそれをここに残します。


したがって、目的は実際にそれを確認することです:

s=(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2

ステップバイステップ:

(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1(xiy1¯)2+i=1n2(yiy2¯)2+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1((xiy1¯)2+(y¯1y¯)2)+i=1n2((yiy2¯)2+(y¯2y¯)2)n1+n2)1/2=(i=1n1(xi2+y¯2+2y1¯22xiy1¯2y1¯y¯)n1+n2+i=1n2(yi2+y¯2+2y2¯22yiy2¯2y2¯y¯)n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯i=1n1xin1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯i=1n2yin1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯n1y1¯n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯n2y2¯n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)n1+n2)1/2

ここでのコツは、合計を並べ替えることができることを理解することです。各 項は回出現するため、分子をとして記述し

2y¯j=1n1xjn1
n1
i=1n1(xi2+y¯22y¯xi),

したがって、等式チェーンを続けます:

=(i=1n1(xiy¯)2n1+n2+i=1n2(yiy¯)2n1+n2)1/2=(i=1n1+n2(ziy¯)2n1+n2)1/2=s

これは言われた、おそらくこれを行うにはより簡単な方法があります。

前述のように、式はサブセットに拡張できます。証明は、セット数の帰納法です。基本ケースはすでに証明されており、誘導ステップでは、後者に同様の等式チェーンを適用する必要があります。k


質問がどのように明確であるかわかりません。2つのデータセットは同じ分布からのものと想定されていますか?OPには実際の観測値がありますか、それとも平均値と標準偏差のサンプル推定値だけですか?
マイケルR.チャーニック

はい、彼らは同じディストリビューションから来ると仮定されます。観測は利用できず、サブセットの平均と標準偏差のみが利用可能です。
iipr

では、なぜ個々の観測値を含む式を使用しているのでしょうか?
マイケルR.チャーニック

たぶん私の答えは明確ではありません。s2つのサブセットの標準偏差、平均、サイズから計算できる上記の式の数学的証明を投稿しています。式には、個々の観測値への参照はありません。証拠にはありますが、それは単なる証拠であり、私の観点からは正しいです。
iipr
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.