大規模な母集団をポーリングするときに、サンプルサイズをどのように決定しますか?


15

オーストラリアは現在選挙を行っており、当然のことながらメディアは毎日新しい政治投票の結果を報告しています。2200万の国では、統計的に有効な結果を得るために、人口の何パーセントをサンプリングする必要がありますか?

大きすぎるサンプルを使用すると結果に影響する可能性がありますか、それとも統計的妥当性がサンプルサイズとともに単調に増加する可能性はありますか?

回答:


13

サンプルのサイズは人口のサイズにあまり依存しませんが、これは多くの人にとって直感的ではありません。

ほとんどの投票会社は、サンプルに400人または1000人を使用しています。

これには理由があります:

サンプルサイズが400の場合、20回中19回+/- 5%の信頼区間が得られます(95%)

サンプルサイズが1000の場合、20のうち19回+/- 3%の信頼区間が得られます(95%)

とにかく50%近くの割合を測定しているとき。

この計算機は悪くありません:

http://www.raosoft.com/samplesize.html


6
ただし、これはすべて同種の集団からのサンプリングに基づいていることに注意してください。異種の母集団がある場合(たとえば、異なるサブグループの異なる比率、母集団のまれな部分のサンプリング)、その分散推定値はそれほど信頼できません。ここで実際に計算している推定値は、サンプルが表す母集団に対するものだと思います。問題は、この人口は実際にあなたが興味を持っている人ですか?
確率の

9

あなたは人の割合は、(たとえば、特定の候補者に投票するかを知りたいと仮定しの定義によるという、ノートπは 0と100の間です)。N人の有権者を無作為にサンプリングして、彼らがどのように投票するかを調べます。これらのN人の有権者を調査すると、割合がpであることがわかります。そのため、真の割合の信頼区間を確立する必要があります。ππNNp

pNπ

CI=[pksd(p),  p+ksd(p)]
k

MoE=ksd(p)

sd(p)p=Xi/NXi=1i0

Xi

Var(P)=V(XiN)=V(Xi)N2=Nπ(1π)N2=π(1π)N.
sd(p)=π(1π)N
πsd(p)π=0.5
sd(p)=0.50.5/N=0.5/N
NN

k=1.96N=1000

[p1.960.51000,  p+1.960.51000]=[p0.03,  p+0.03]
NNπ=50%

2

大まかな一般化として、母集団の一部の人々をサンプリングするときはいつでも、同じ番号(ただし、異なる人々)を再度サンプリングする場合とは異なる答えが得られます。

オーストラリアの30歳以上の人の数を知りたい場合、そして真の割合(神が私たちに伝えた)がたまたま0.4たとえば、30以上は100 x 0.4 = 40で、その数の標準偏差は+/- sqrt(100 * 0.4 * 0.6)= sqrt(24)〜4.9または4.9%(二項分布)です。

その平方根があるため、サンプルサイズが100倍になると、標準偏差は10倍になります。そのため、一般的に、このような測定の不確実性を10分の1に減らすには、100倍の人をサンプリングする必要があります。したがって、100 x 100 = 10000人を尋ねると、標準偏差は最大49、またはパーセントで0.49%になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.