回答:
ブートストラップリサンプリングを使用して、データセットの分散の信頼区間を計算できますか?
はい、他の多くの統計と同じです。
データセットから何回も再サンプリングし、そのたびに平均を計算すると、これらの平均は(CLTによる)正規分布に従います。
CLTが適用されるディストリビューションであっても、ブートストラップ手段が平均をブートストラップする場合、ブートストラップ手段が通常のディストリビューションに従うとは限りません。
これは、サイズサンプルの平均をリサンプリングした例です。ここで、10000回リサンプリングしました。
それはリモートで正常ではありません。
元のサンプルは、97個の「0」値と、「1」、「2」、および「100」で構成されています。
上記のプロットを生成するために実行した(R)コードは次のとおりです。
x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")
問題は、この場合、サンプルサイズ(100)が小さすぎて、CLTがこの種の分布形状に適用できないことです。何回リサンプリングするかは関係ありません。
ただし、元のサンプルサイズがはるかに大きい場合、このようなサンプルのサンプル平均のリサンプリング分布は、より正常に見えます(常に離散的です)。
上記のデータ(黒)をリサンプリングしたときの、同じ比率で値が10倍の値(赤、つまりn = 1000)の場合のecdfは次のとおりです。
ご覧のとおり、大きなサンプルをリサンプリングするときの分布関数は、はるかに正常に見えます。
データセットから何回も再サンプリングし、毎回分散を計算すると、これらの分散は特定の分布に従いますか
いいえ、同じ理由で、それが平均値に必ずしも当てはまるわけではありません。
ただし、CLTは分散*にも適用されます。CLTがブートストラップのリサンプリングに適用されるのは、単に多数のリサンプルを取ることだけではありません。場合、元のサンプルサイズが十分に大きい場合(それらが存在する場合、より高いモーメント)、それは傾向(右条件下)で、比較的近い小さな試料中のその分布に対して正規分布(の手段のリサンプリング分布を作ることができます少なくとも)。
*を考慮した場合、CLTは通常、分散に適用されます(適切な瞬間が存在すると仮定)は直感的です。してみましょう ; 次になので、CLTが変数に適用される場合、適用できます。現在、はスケーリングされたバージョンです。CLTが適用される場合、それは適用されます 。ただし、この議論の概要は完全ではありませんが、最初は予期しない例外がいくつかあります。