ブートストラップリサンプリングを使用して、データセットの分散の信頼区間を計算できますか?


9

データセットから何回も再サンプリングし、そのたびに平均を計算すると、これらの平均は(CLTによる)正規分布に従います。したがって、データセットの確率分布を仮定せずに、データセットの平均の信頼区間を計算できます。

分散についても同様のことができるかどうか疑問に思っていました。つまり、データセットから何度も再サンプリングし、そのたびに分散を計算した場合、これらの分散は特定の分布に従います(データセットの元の確率分布に関係なく)?

その元のデータセットが正常であれば、分散はカイ2乗分布に従うことを知っています。しかし、それが正常でない場合はどうですか?

回答:


10

ブートストラップリサンプリングを使用して、データセットの分散の信頼区間を計算できますか?

はい、他の多くの統計と同じです。

データセットから何回も再サンプリングし、そのたびに平均を計算すると、これらの平均は(CLTによる)正規分布に従います。

CLTが適用されるディストリビューションであっても、ブートストラップ手段が平均をブートストラップする場合、ブートストラップ手段が通常のディストリビューションに従うとは限りません。

これは、サイズサンプルの平均をリサンプリングした例です。ここで、10000回リサンプリングしました。n=100

ここに画像の説明を入力してください

それはリモートで正常ではありません。

元のサンプルは、97個の「0」値と、「1」、「2」、および「100」で構成されています。

上記のプロットを生成するために実行した(R)コードは次のとおりです。

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

問題は、この場合、サンプルサイズ(100)が小さすぎて、CLTがこの種の分布形状に適用できないことです。何回リサンプリングするかは関係ありません。

ただし、元のサンプルサイズがはるかに大きい場合、このようなサンプルのサンプル平均のリサンプリング分布は、より正常に見えます(常に離散的です)。

上記のデータ(黒)をリサンプリングしたときの、同じ比率で値が10倍の値(赤、つまりn = 1000)の場合のecdfは次のとおりです。

ここに画像の説明を入力してください

ご覧のとおり、大きなサンプルをリサンプリングするときの分布関数は、はるかに正常に見えます。

データセットから何回も再サンプリングし、毎回分散を計算すると、これらの分散は特定の分布に従いますか

いいえ、同じ理由で、それが平均値に必ずしも当てはまるわけではありません。

ただし、CLTは分散*にも適用されます。CLTがブートストラップのリサンプリングに適用されるのは、単に多数のリサンプルを取ることだけではありません。場合、元のサンプルサイズが十分に大きい場合(それらが存在する場合、より高いモーメント)、それは傾向(右条件下)で、比較的近い小さな試料中のその分布に対して正規分布(の手段のリサンプリング分布を作ることができます少なくとも)。

*を考慮した場合、CLTは通常、分散に適用されます(適切な瞬間が存在すると仮定)は直感的です。してみましょう ; 次になので、CLTが変数に適用される場合、適用できます。現在、はスケーリングされたバージョンです。CLTが適用される場合、それは適用されます 。ただし、この議論の概要は完全ではありませんが、最初は予期しない例外がいくつかあります。sn2=1ni=1n(xix¯)2yi=(xix¯)2sn2=y¯ysn2sn12sn2sn2sn12

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.