ランダムなサンプルから取得したデータの精度はどのくらいですか?


8

私は統計の初心者なので、ここで誤った仮定をした場合は教えてください。

人の人口がありNます。(たとえば、N1,000,000にすることができます。)一部の人々は赤毛です。私nは人のサンプル(たとえば10人)を取り上げ、そのjうちの1人が赤毛であることを見つけます。

人口の赤毛の一般的な割合について何を言えますか?j/nつまり、私の最良の近似はおそらくですが、その近似の標準偏差はどうなりますか?

ちなみに、これの受け入れられた用語は何ですか?


なぜ私たちはいつも生姜を選ぶのですか?:)
Brandon Bertelsen

回答:


8

あなたはこれを二項試験と考えることができます-あなたの試験は「赤毛」または「リードヘッドではない」をサンプリングしています。この場合、Wikipediaに記載されているように、サンプル比率()の信頼区間を作成できます。j/

95%信頼区間は基本的に、同じサンプリングアルゴリズムを使用して、これを100回繰り返した場合、真の比率は指定された区間に95回あることを示しています。

アップデートところで、私はあなたが探している用語がかもしれないと思う標準誤差サンプリング比率の標準偏差です。この場合、それはここで、は推定比率です。が増加すると、標準誤差が減少することに注意してください。p1pp


4
@ars:すべてが正しく、適切に記述されています。しかし、1つ欠けているように見えます。「最良の近似」j / nの標準偏差は、赤毛の真の比率に依存し、推定された赤毛には依存しません。もちろん問題は、本当の比率がわからないことです。しかし、推定が正確に偶然である場合を除いて、標準誤差は実際には近似値の標準偏差と等しくないという事実は変わりません。私はあなたがこの微妙なことを思い出す必要はなく、ほとんどの読者も気にする必要がないことを知っていますが、それは元の質問にかなり関連しています。
whuber

@whuber:この説明により、少し混乱しました。与えられたNによって記述標準誤差であるもの、Jおよびnは?(赤毛の本当の比率に依存しているのとは対照的に、私たちは知ることができません。)jnj
Ram Rachum

2
@ cool-RR:arsは標準エラーについて正しいです。重要なのは、標準誤差自体が、統計j / nが真の比率を推定する精度の推定であるということです。たとえば、すべての人の10%が赤毛であるとします。次に、多くの場合、n = 10のときにj = 0になる可能性があります。Sqrt(0(1-0)/ 10)= 0のSEを取得します。これは、統計の実際の精度p = j / n = 0/10を明らかに過小評価します。正確な精度はSqrt(0.10(1-0.90)/ n)です。
whuber

繰り返しますが、私は自分知ることができないことに興味があるのではなく、自分知ることができることに興味があります。およびn = 10の例を見てみましょう。赤毛の最も可能性の高い割合は0%ですが、2%または5%または10%である可能性は十分にあります。だから私の質問は:j = 0n = 10の場合、私が知らない情報ではなく、私が知っている情報から、赤毛の割合の確率分布関数は何ですか?j=0=10j=0=10
Ram Rachum

1
@ cool-RR:小さなサンプルの場合、信頼区間のWikipediaリンクで指定されたAgresti-Coull区間を使用します。観察に基づいて、推定のために95%の間隔を取得します。次に、観察した内容に基づいて、95%のCIの定義に固有​​のものを組み込みます。
2010年

0

サンプルサイズが例のように母集団サイズNのごく一部ではなく、置換なしでサンプリングする場合[Sw / oR]の場合、[推定] SEのより適切な式は次のとおりです。N

SE^=NNp^q^

ここで、pは、推定割合であるJ / N及びQ = 1 - Pp^j/q^=1p^

[項はFPC [有限母集団補正]と呼ばれます。NN

pp>10j=0SESE^

jNp

p1p1/412p^q^=1111SE^±N

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.