実際のアプリケーションで、置換なしのサンプリングを検討するのはなぜですか?


12

置換ありのサンプリングには、置換なしのサンプリングよりも2つの利点があります。

1)有限母集団の修正について心配する必要はありません。

2)母集団の要素が複数回描画される可能性があります。測定値をリサイクルして時間を節約できます。

もちろん、アカデミックPOVから、両方の方法を調査する必要があります。しかし、実用的なPOVから、置換ありの利点を考慮して、置換なしのサンプリングを検討する理由がわかりません。

しかし、私は統計の初心者なので、少なくとも特定のユースケースでは、置換なしの方が優れた選択肢である理由はたくさんあります。混乱させないでください!


3
ヒント:有限母集団の修正を適用することの効果と、それが有利である理由を検討してください。(また、(1)合計を行うことは、ほとんどの場合、データを収集するよりも問題と費用が少ないことに注意してください。(2)個人を区別できる場合、測定を「リサイクル」するべきではなく、個別の個人のみに基づいて推論します。)
Scortchi-モニカの回復

正直なところ、私はあなたの主張を実際には理解していません。FPCは、測定の独立性の欠如による数値的な影響を補正します。しかし、なぜこれが有利なのかはわかりません。(1)これは私の質問とどのように関連していますか?(2)なぜ測定をリサイクルすべきではないのですか?交換してサンプリングするときに、偶然に同じアイテムを2回描画したことによる直接の論理的な結果ではないですか?
ラファエル2013

回答:


13

@Scortchiの答えを拡張します。。。

母集団に5人のメンバーがいて、5人をサンプリングする予算があるとします。変数Xの母平均に興味があります。これは、この母集団の個人の特徴です。あなたはあなたのやり方でそれを行うことができ、ランダムに置換してサンプリングします。標本平均の分散はV(X)/ 5になります。

一方、5人の個体を置換せずにサンプリングするとします。この場合、標本平均の分散は0です。母集団全体、つまり各個人を1回だけ標本化したため、「標本平均」と「母集団平均」の間に違いはありません。彼らは同じものです。

現実の世界では、限られた母集団の修正を行う必要があるたびに、喜びのためにジャンプする必要があります(ドラムロール...)。ほとんど何もこれを行いません。それは魔法のようなものです。良い魔法です。

finite sample correction=NnN1<N1N1=1

修正<1は、修正を適用すると分散がDOWNになることを意味します。これは、修正を分散に対して乗算して適用するためです。分散DOWN ==良い。

反対の方向に、数学から完全に離れて、あなたが求めていることを考えてください。母集団について学びたい、それから5人をサンプリングできる場合、同じ人を5回サンプリングする機会をとることによってより多くを学ぶことができるように思われますか、それとも確実にすることによってより多くを学ぶように思われますか5人の男をサンプリングしたって?

実世界の場合は、あなたが言っていることとはほぼ反対です。交換でサンプリングすることはほとんどありません---ブートストラップのような特別なことをしているときだけです。その場合、実際には推定器を台無しにして「大きすぎる」分散を与えようとしています。


「ブートストラップ」では、母集団のパラメーターを推定するために母集団のパラメーター(実際に使用しなければならなかった)の代わりにサンプルのパラメーターを使用することを理解しています。推定器を「ねじ込み」、「大きすぎる」分散にしたいと思うのはなぜですか。
ラファエル2013

1
@Яaffaelノンパラメトリックブートストラップについて話しています。サンプル(たとえば、サイズ100)を取り、それを置き換えて再サンプリングし(100回、サイズ100のブートストラップサンプルが生成されます)、関心のある推定量を再計算します。サンプルをおもちゃの母集団として扱い、そこからサンプルを描画することをシミュレートし、推定量を計算します。おもちゃの母集団から置換せずにサンプリングした場合、サンプルのおもちゃの母集団を正確にコピーし、元の推定値を新しい推定値(つまり、variance = 0)として取得します。これを回避するには、交換してサンプリングします。
Bill

5

通常、推定の精度は、置換ありのサンプリングと比較して、置換なしのサンプリングの方が高くなります。

n


2

ここでの答えは完全に適切ではないと私は思います、そしてそれらはあなたのデータ量が非常に少ないという限定的なケースを主張しているようです。

十分な大きさのサンプルがあれば、特にブートストラップのリサンプル(〜1000)が多い場合、これはまったく心配ありません。真の分布からサイズ10,000のデータセットをサンプリング、1,000回の置換でリサンプリングした場合、(置換を行わないことで得られる分散とは対照的に)得る分散は完全に無視できます。

より正確な答えは次のとおりです。2次統計の信頼度を推定する場合、置換なしのリサンプリングが不可欠です。たとえば、ブートストラップを使用して、分散測定での不確実性を推定しているとします。そのような量の交換を伴う描画は、回収された分散を低く人工的に偏らせる可能性があります。

実際のデータの具体的な例については、それが可能であれば、このペーパーを参照して くださいhttps://arxiv.org/abs/1612.02827

10ページで質問について簡単に説明します


0

私は交換なしで実質的に交換なしで扱い、すべての困難を取り除く結果を得ました。置換計算でははるかに簡単であることに注意してください。したがって、確率にpとqが含まれる場合、成功と失敗の確率は、置換の場合で、置換なしの場合の対応する確率は、p ^ aq ^ bを(Nab)C(Ra)で置換するだけで得られます。任意のaおよびb。ここで、N、Rはボールの総数と白いボールの数です。pはR / Nとして扱われることに注意してください。

K.バラスブラマニアン


脱落がありました。(Nab)C(Ra)/(NCR)は正しい式です。たとえば、平均npはn(N-1-0)/(R-1)/ NCRになります。そのような結果を確認できます。
Krish Balasubramanian 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.