なぜ政治世論調査のサンプル数がこれほど多いのですか?


32

ニュースを見ると、大統領選挙などのギャラップの世論調査のサンプルサイズが1,000を大きく上回っていることがわかりました。大学の統計から私が覚えていることは、サンプルサイズ30が「かなり大きい」サンプルだったことです。30を超えるサンプルサイズは、収益の減少により無意味であるように思われました。


9
最後に、ビッグデータ皇帝の新しい服について話すために誰かがここにいます。30の大学統計サンプルサイズからすべての回答を取得できる場合、600Mツイーターユーザーが必要なのは誰ですか。
StasK 14

1
StasK、それは陽気です。
アーロンホール14

最高のコメント@StasK
ブレナン

回答:


36

ウェインは「30」問題に十分に対処しました(私の独自の経験則:統計に関連する30番の言及は間違っている可能性が高い)。

1000付近の数字がよく使われる理由

単純な割合の場合でも、調査では1000〜2000前後の数字がよく使用されます><>(「 what支持しますか?」)。

これは、割合の合理的に正確な推定値が得られるように行われます。

二項サンプリングを仮定した場合、比率がときにサンプル比率の標準誤差*が最大になりますが、その上限は約25%〜75%の比率のかなり良い近似です。12

*「標準誤差」=「分布の標準偏差」

一般的な目的は、真の割合の約、時間の約以内で割合を推定することです。そのは「エラーマージン」と呼ばれます95 3 ±3%95%3%

二項サンプリングでのその「最悪の場合」の標準誤差では、これは次のようになります。

1.96×12(112)/n0.03

0.98×1/n0.03

n0.98/0.03

n1067.11

...または「1000を少し超える」。

したがって、推測したい母集団から無作為に1000人を調査し、サンプルの58%が提案を支持している場合、母集団の割合が55%〜61%であることを合理的に確認できます。

(2.5%など、他の誤差範囲の値が使用される場合があります。誤差範囲を半分にすると、サンプルサイズは4の倍数になります。)

一部の下位集団の割合の正確な推定が必要な複雑な調査では(たとえば、提案を支持するテキサスの黒人大卒者の割合)、数が十分に大きく、そのサブグループのサイズは数百、おそらく合計数万件の回答が必要です。

それはすぐに非現実的になる可能性があるため、母集団を部分母集団(層)に分割し、それぞれを個別にサンプリングするのが一般的です。それでも、いくつかの非常に大規模な調査になる可能性があります。

30を超えるサンプルサイズは、収益の減少により無意味であるように思われました。

これは、エフェクトのサイズと相対的な変動性に依存します。の分散手段への影響は、あなたは、いくつかの状況では、いくつかの非常に大規模なサンプルが必要になる場合があります。n

非常に大きなサンプルサイズ(正しく覚えていれば100万近く)を扱っていた質問(エンジニアによるものだと思います)に答えましたが、彼は非常に小さな効果を探していました。

サンプルの割合を推定する際に、サンプルサイズが30のランダムサンプルが何を残すかを見てみましょう。

私たちが30人に、全体として一般教書演説を承認したかどうかを尋ねるとします(強く同意、同意、反対、強く反対)。さらに、関心は、同意するか強く同意する割合にあると想像してください。

面接対象者のうち11人が同意し、5人が強く同意して、合計16人だと言います。

16/30は約53%です。人口の割合の限界は何ですか(たとえば95%間隔)?

仮定が当てはまる場合、人口の割合を35%から71%の間に(おおよそ)固定できます。

それほど便利ではありません。


+1。全体の答えは素晴らしいですが、最初の行はそれ自体で賛成の価値がありました。
マットクラウス14

1
そして...もちろん、あなたは計算を逆転できると30のサンプルと誤差の範囲を計算する
Calimo

最後の段落では、層化サンプリングが行われます。他の人が言ったように、適格な有権者の人口からの単純なランダムサンプリングは、実際には全国規模で行われていません。
ウェイン14

@ウェインありがとう。私は戻って、最後に少し追加しました。
Glen_b -Reinstateモニカ

2
+1、そして私はあなたの経験則の逆説的な意味合いも好きです。
ジェームズスタンレー14

10

特定の経験則では、データが正規分布している(つまり、ベル曲線のように見える)ことを想定するには30ポイントで十分であることが示唆されていますが、これはせいぜい大まかなガイドラインです。これが重要な場合は、データを確認してください!これは、分析がこれらの仮定に依存している場合、アンケートに少なくとも30人の回答者が必要であることを示唆していますが、他の要因もあります。

主な要因の1つは、「効果サイズ」です。ほとんどのレースはかなり近い傾向があるため、これらの違いを確実に検出するにはかなり大きなサンプルが必要です。(「正しい」サンプルサイズの決定に関心がある場合は、パワー分析を検討する必要があります)。約50:50のベルヌーイ確率変数(2つの結果を持つもの)がある場合、標準エラーを1.5%に下げるには約1000回の試行が必要です。これはおそらく、レースの結果を予測するのに十分な精度であり(最後の4回の米国大統領選挙の平均マージンは〜3.2パーセントでした)、これはあなたの観察とうまく一致しています。

投票データは、さまざまな方法でスライスされ、さいの目に切り分けられます。「候補者は、75歳以上の銃所持男性でリードしていますか?」または何でも。各回答者はこれらのカテゴリのほんの一部に収まるため、これにはさらに大きなサンプルが必要です。

大統領投票は、他の調査質問(たとえば、議会選挙など)に「バンドル」されることもあります。これらは州ごとに異なるため、「余分な」ポーリングデータがいくつかあります。


ベルヌーイ分布は、2つの結果のみを持つ離散確率分布です。オプション1は確率で選択され、オプション2は確率選択されます。1 pp1p

ベルヌーイ分布の分散はであるため、平均の標準誤差はです。プラグ(選挙はタイである)、1.5%(0.015)へと標準誤差を設定し、解決します。1.5%SEに到達するには1,111人の被験者を取得する必要がありますp(1p) p=0.5p(1p)np=0.5


4
+1、ただし、「データが正規分布していると仮定するには30ポイントで十分です」は正しくありません。人々はこれを信じているかもしれませんが、サンプリング分布を正規分布に適切に収束させるためにCLTに必要なデータの量は、データ分布の性質によって異なります(こちらを参照)。代わりに、データがすでに正常であれば30(ほぼ)で十分ですが、SDは同じデータセットから推定されます(t分布を参照)。
GUNG -復活モニカ

@Gung、完全に同意しましたが、私はレールからあまり遠くに行きたくありませんでした。ポイントをさらに強くする必要があると思われる場合は、自由に編集してください。
マットクラウス14

8

この質問に対するいくつかの優れた答えはすでにありますが、標準エラーがそれである理由、を最悪のケースとして使用する理由、および標準エラーがによってどのように変化するを答えたいと思います。np=0.5n

投票者が1人だけの場合、投票者1に電話して「パープルパーティーに投票しますか?」と尋ねましょう。「yes」の場合は1、「no」の場合は0として答えをコーディングできます。「はい」の確率はだとしましょう。これで、確率で1、確率 0のバイナリ確率変数ができました。私たちは、と言う、成功の確率でベルヌーイ変数である我々は書くことができ、。予想される、または平均X 1、P 1 - P X 1、P X 1BのEのR 、N 、O 、U 、I 、L L I P X 1 EX 1= Σ X P X 1 = X X X 1 1 - P P EX 1= 0 1 ppX1p1pX1pX1Bernouilli(p)X1E(X1)=xP(X1=x)xX1。しかし、結果は2つしかありません。0は確率、1は確率で、合計はちょうどです。落ち着いて考える。これは実際には完全に合理的です-投票者1が紫党を支持する可能性が30%あり、変数が「はい」の場合は1、「いいえ」の場合は0にコード化した場合、は平均で0.3になると予想されます。1ppX 1E(X1)=0(1p)+1(p)=pX1

を2乗するとどうなるか考えてみましょう。場合はで、場合はです。したがって、実際にはどちらの場合でもです。それらは同じであるため、同じ期待値を持つ必要があります。そのため、です。これにより、ベルヌーイ変数の分散を簡単に計算できます。Varしたがって、標準偏差はです。X 1 = 0 X 2 1 = 0 X 1 = 1 X 2 1 = 1 X 2 1 = X 1 EX 2 1= p V a r X 1= EX 2 1EX 1 2 = p p 2 =X1X1=0X12=0X1=1X12=1X12=X1E(X12)=pVar(X1)=E(X12)E(X1)2=pp2=p(1p)σX1=p(1p)

明らかに私は他の有権者と話をしたい-それらを有権者2、有権者3、有権者と呼ぶことができます。それらがすべてパープルパーティーをサポートする同じ確率を持っていると仮定しましょう。これで、、からまでのベルヌーイ変数があり、各 1からまでのがあります。それらはすべて同じ平均と分散持っています。npnX1X2XnXiBernoulli(p)inpp(1p)

サンプルで「はい」と言った人の数を見つけたいのですが、それを行うには、すべての足し合わせます。書きます。Iは、平均または期待値を算出することができるそのルールを使用して、それらの期待が存在する場合、及び延びますそれに。しかし、私はそれらの期待値のを合計しており、それぞれがですので、合計でを取得しますXiX=i=1nXiXE(X+Y)=E(X)+E(Y)E(X1+X2++Xn)=E(X1)+E(X2)++E(Xn)npE(X)=np。落ち着いて考える。私が200人を投票し、それぞれがパープルパーティーを支持していると30%の確率がある場合、もちろん0.3 x 200 = 60人が「はい」と言うと予想します。したがって、式は正しく見えます。それほど「明白ではない」とは、分散を処理する方法です。np

そこであると言うルール が、私はそれを使用することができ、私のランダム変数は相互に独立している場合。さて、その仮定を立てましょうことがわかります。変数ならばの和であるの独立した成功の同じ確率でベルヌーイ試行、、我々はと言う、二項分布を持つ。このような二項分布の平均があり、分散が。

Var(X1+X2++Xn)=Var(X1)+Var(X2)++Var(Xn)
Var(X)=np(1p)Xn pXXBinomial(n,p)npnp(1p)

元の問題は、サンプルからを推定する方法でした。推定量を定義する賢明な方法はです。たとえば、200人のサンプルのうち64人が「はい」と言った場合、64/200 = 0.32 = 32%の人がパープルパーティーを支持していると推定します。は、賛成票の総数「縮小」バージョンであることがわかります。それはそれがまだランダム変数であるが、二項分布に従っていないことを意味します。ランダム係数を定数係数スケーリングすると、次の規則に従うため、その平均と分散を見つけることができます:(したがって平均同じ係数)で、pp^=X/np^XkE(kX)=kE(X)kVar(kX)=k2Var(X)。分散がスケーリングする方法に注意してください。一般的に、変数が測定される単位の平方で分散が測定されることを知っている場合、それは理にかなっています:ここではあまり当てはまりませんが、ランダム変数が高さcmであった場合、分散は異なるスケーリング-長さを2倍にすると、面積が4倍になります。k2cm2

ここで、スケールファクターはです。これにより、ます。これは素晴らしい!平均して、私たちの推定値はまさに「あるべき」ものであり、ランダム投票者が紫党に投票すると言う真の(または人口)確率です。推定量は偏りがないと言います。しかし、それは平均的には正しいですが、時には小さすぎたり、時には高すぎたりします。分散を見ると、どれだけ間違っている可能性があるかがわかります。。標準偏差は、平方根1nE(p^)=1nE(X)=npn=pp^Var(p^)=1n2Var(X)=np(1p)n2=p(1p)np(1p)n、そしてそれは私たちの推定器がどれほどひどくオフになるかを把握するためです(それは実質的に二乗平均誤差、平均化する前にそれらを二乗することによって正と負の誤差を等しく悪いとして扱う平均誤差を計算する方法です)通常、標準エラーと呼ばれます。大規模なサンプルに有効であり、有名な中央極限定理を使用してより厳密に処理できる適切な経験則は、ほとんどの場合(約95%)、標準誤差が2つ未満であると推定が間違っていることです。

分数の分母に表示されるため、値が大きいほど(サンプルが大きいほど)、標準誤差が小さくなります。小さな標準エラーが必要な場合、サンプルサイズを十分に大きくするだけでよいので、これは素晴らしいニュースです。悪いニュースは、が平方根の中にあるため、サンプルサイズを4倍にすると、標準誤差が半分になるだけです。非常に小さな標準誤差には、非常に大きな、したがって高価なサンプルが含まれます。別の問題があります。特定の標準エラー(1%など)をターゲットにしたい場合は、計算で使用する値を知る必要があります。過去のポーリングデータがある場合は履歴値を使用できますが、最悪の場合に備えたいと思います。値nnpp最も問題なのは?グラフは有益です。

sqrt(p(1-p))のグラフ

最悪の場合(最高)の標準エラーは、ときに発生します。計算を使用できることを証明するために、「正方形を完成させる」方法を知っている限り、一部の高校の代数がトリックを行います。 p=0.5

p(1p)=pp2=14(p2p+14)=14(p12)2

式は角かっこが四角になっているので、常にゼロまたは正の答えを返し、それが四半期から取り去られます。最悪の場合(大きな標準誤差)、可能な限り少なくなります。減算できる最小値はゼロであり、場合に発生するため、ます。これの結果は、投票の50%近くの政党などの支持を推定しようとすると大きな標準誤差が得られ、それよりもかなり多かれ少なかれ人気のある提案の支持を推定する標準誤差が低くなることです。実際、私のグラフと方程式の対称性は、パープルパーティーの支持率が30%であろうと70%であろうと、パープルパーティーの支持率について同じ標準誤差が得られることを示しています。p12=0p=12

では、標準エラーを1%未満に保つために何人の人に投票する必要がありますか?これは、ほとんどの場合、私の見積もりが正しい割合の2%以内であることを意味します。最悪の場合の標準エラーはあり、となるため、。それはなぜあなたが何千人もの世論調査の数字を見る理由を説明するでしょう。0.25n=0.5n<0.01n>50n>2500

実際には、低い標準誤差は良い推定値を保証するものではありません。ポーリングの多くの問題は、理論的な性質ではなく実用的なものです。たとえば、サンプルはそれぞれ同じ確率のランダム投票者であると仮定しましたが、実際の生活で「ランダム」サンプルを取得することは困難です。電話またはオンラインポーリングを試してみてください。ただし、すべての人が電話やインターネットにアクセスできるだけでなく、人口統計(および投票意向)が異なる人々もそうではありません。結果への偏りを避けるために、ポーリング会社は実際には単純な平均ではなく、サンプルのあらゆる種類の複雑な重み付けを行いますpXin私が取った。また、世論調査員に嘘をつく!世論調査員がこの可能性を補ってきたさまざまな方法は、明らかに議論の余地があります。世論調査会社が英国のいわゆるシャイトリーファクターをどのように扱っているかについて、さまざまなアプローチを見ることができます。修正の1つの方法は、過去に人々が主張した投票意図がどれほど妥当であるかを判断するためにどのように投票したかを調べることでしたが、嘘をついていなくても、多くの有権者は単に選挙歴を覚えていないことがわかりました。このようなことを行っているとき、率直に言って「標準エラー」を0.00001%に下げるポイントはほとんどありません。

最後に、簡単な分析によると、必要なサンプルサイズが目的の標準誤差によってどのように影響されるか、の「最悪の場合」の値がより適切な比率と比較してどれだけ悪いかを示すグラフを次に示します。の以前のグラフの対称性により 、曲線はの曲線と同一であることを忘れないでくださいp=0.5p=0.7p=0.3p(1p)

さまざまな標準誤差に必要なサンプルサイズのグラフ


ここでは、y軸のlog10スケールが役立つ場合があります。
EngrStudent-モニカーの復活

7

「少なくとも30」ルールは、相互検証に関する別の投稿で対処されています。せいぜい経験則です。

数百万の人々を表すと思われるサンプルを考えると、30人よりもはるかに大きなサンプルが必要になります。直観的には、30人は各州から1人も含めることはできません。次に、共和党員、民主党員、独立党員(少なくとも)を代表し、それぞれについて、いくつかの異なる年齢カテゴリを表し、それぞれについて、いくつかの異なる収入カテゴリを表すと考えます。

わずか30人が呼び出されるだけで、サンプリングする必要のある人口統計の膨大な数を見逃すことになります。

EDIT2:[abaumannとStasKが反対した段落を削除しました。私はまだ100%説得していませんが、特にStasKの議論に反対することはできません。] 30人が適格なすべての有権者の中から完全にランダムに選択された場合、サンプルは何らかの意味で有効ですが、小さすぎます質問への回答が(すべての有権者の間で)実際に真であるか偽であるかを区別してみましょう。StasKは、以下の3番目のコメントで、それがいかに悪いかを説明しています。

編集:samplesize999のコメントへの回答では、「電力分析」と呼ばれる十分な大きさを決定するための正式な方法があります。これについてもここで説明します。abaumannのコメントは、違いを区別する能力と、ある程度の改善を行うために必要なデータ量との間にトレードオフがあることを示しています。彼が説明しているように、計算には平方根があります。つまり、(パワーの増加という観点から)利益がますます遅くなるか、(必要なサンプルの数に関して)コストが急速に増大することを意味します。十分なサンプルですが、それ以上ではありません。


2
「サンプルの全体のポイント-それは完全な妥当性です-それは母集団を反映しているということであり、ランダムではないということです。」それは明らかに間違っています!(一般化可能性の意味での)有効性は、サンプリング手順のランダムな性質に完全に由来します。むしろ、非常に小さなマージンに関心があるため、正確な見積もりが必要であり、大きなサンプルサイズが必要です。
アバウマン14

3
@abaumann:物事を理解している限り、ランダム化には魔法はありません。これは、人口を反映するサンプルを作成するための最も客観的な方法です。そのため、階層内でランダム化を使用するか、層別化と重み付けを使用してそれほど大きくないランダム化を補正しようとする場合があります。
ウェイン14

2
samplesize:これは、「エキスパート」であることとはほとんど関係ありません。たとえば、米国大統領候補はキャンペーン中に毎週および毎日「追跡調査」を実施し、これらは約200〜300人を調査するだけです。これらのサンプルサイズは、コストと情報の適切なバランスを提供します。別の極端な例では、NHANESのような特定の健康関連の研究は、これらの研究の莫大な費用が価値があるほど高い価値の実用的な情報を生成するために必要であるため、数万人または数十万人を登録します。どちらの場合も、専門家がサンプルサイズを決定しています。
whuber

2
技術的には、サンプルが母集団を代表している場合、一般化は有効です。アイデアは、サンプルがランダムであるとサンプルが代表的であることを保証するというものですが、サンプルがランダムでない場合、これを達成するのは難しい(必ずしも不可能ではない)ということです。FWIW、ポーリングは単純なランダムサンプリングを使用しません。
GUNG -復活モニカ

1
@sashkello、妥協点があります:成層ランダムサンプル(基本的にオプション#1)を使用するか、後でサンプルの再重み付け/ベンチマークを試みることができます。グンと同じように、私が最も大きな調査は、単純なランダムサンプルよりも複雑な何かを考える
マット・クラウス

0

多くのすばらしい回答がすでに投稿されています。同じ反応をもたらすが、直観をさらに進める可能性のある別のフレーミングを提案させてください。

@Glen_bと同様に、ステートメントに同意する真の割合が3%の誤差範囲内にあるという少なくとも95%の信頼性が必要であると仮定しましょう。母集団の特定のサンプルでは、​​真の割合は不明です。ただし、成功このパラメーターに関する不確実性は、ベータ分布で特徴付けることができます。pp

分布方法に関する事前情報はないため、は情報のない事前分布であると言います。これは、0から1までの一様分布です。ppBeta(α=1,β=1)p

調査から回答者から情報を得ると、の分布に関する信念を更新することができます。 "yes"応答および "no"応答を取得したときのの事後分布はです。ppδyδnpBeta(α=1+δy,β=1+δn)

真の割合が0.5である最悪のシナリオを想定して、確率質量の0.025のみが0.47未満であり、確率質量の0.025が0.53をような回答者を見つけたい3%の許容誤差で95%の信頼性を得るため)。つまり、Rのようなプログラミング言語では、値が0.47になるようなを把握したいと考えています。n=δy+δnnqbeta(0.025, n/2, n/2)

を使用すると、以下が得られます。n=1067

> qbeta(0.025, 1067/2, 1067/2) [1] 0.470019

これが望ましい結果です。

要約すると、「はい」と「いいえ」の回答を均等に分割した1,067人の回答者は、「はい」回答者の真の割合が47%〜53%であるという95%の信頼を得ることができます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.