ブートストラップはこの継続的なデータに適していますか?
私は完全な初心者です:) 人口約745,000人のサンプルサイズ10,000で調査を行っています。各サンプルは「類似性の割合」を表します。サンプルの大部分は約97%〜98%ですが、一部は60%〜90%です。つまり、分布は大きくマイナスに歪んでいます。結果の約0.6%は0%ですが、これらはサンプルとは別に処理されます。 すべての10,000個のサンプルの平均は97.7%であり、Excelだけでは、StdDevは3.20です。StdDevは実際には適用されないことを理解しています。これは、結果が正規分布されないためです(+3.20では100%を超えるため!)。 私の質問は: ブートストラップ(私にとっての新しいコンセプト)は適切ですか? 私は正しくブートストラップしていますか?:) 十分なサンプルサイズとは何ですか? 私がやっていることは、私の10,000件の結果を(置き換えて)再サンプリングし、新しい平均を計算することです。私はこれを数千回行い、それぞれの平均を配列に格納します。次に、「平均の平均」を計算します。これが私の統計結果です。99%CIを計算するために、0.5%番目の値と99.5%番目の値を選択すると、非常に狭い範囲(97.4%-98.0%)が生成されます。これは有効な結果ですか、それとも何か問題がありますか? サンプルサイズについては、人口の約1.3%しかサンプリングしていません。これで「十分」かどうかはわかりません。私のサンプルが母集団の代表であるかどうかはどのようにしてわかりますか?理想的には、+ /-0.50%パーセンテージポイント(つまり、97.2%-98.2%)である平均の99%の信頼度を確保したいと考えています。 ヒントを事前にありがとう!