私は統計学(初心者レベルの少数のUniコース)にかなり慣れていないので、未知の分布からのサンプリングについて疑問に思っていました。具体的には、基になるディストリビューションがわからない場合、代表的なサンプルを取得することを「保証」する方法はありますか?
説明する例:富のグローバルな分布を把握しようとしているとしましょう。特定の個人について、あなたはどういうわけか彼らの正確な富を見つけることができます。しかし、地球上のすべての人を「サンプリング」することはできません。したがって、n = 1000人をランダムにサンプリングするとします。
サンプルにビルゲイツが含まれていない場合、億万長者は存在しないと思うかもしれません。
サンプルにビルゲイツが含まれていた場合、億万長者が実際よりも一般的であると考えるかもしれません。
どちらの場合でも、億万長者がどれほど一般的またはまれであるかを実際に知ることはできません。存在するかどうかさえわからないかもしれません。
このような場合には、より良いサンプリングメカニズムが存在しますか?
使用するサンプリング手順(および必要なサンプル数)をアプリオリにどのように伝えますか?
合理的な確実性に近づくと、知るには人口の大部分を「サンプリング」する必要があるかもしれません。これは、億万長者が地球上にどの程度いるか、または珍しいかであり、これは基礎となる分布が少し難しいためです。一緒に働きます。