ニュースを見ると、大統領選挙などのギャラップの世論調査のサンプルサイズが1,000を大きく上回っていることがわかりました。大学の統計から私が覚えていることは、サンプルサイズ30が「かなり大きい」サンプルだったことです。30を超えるサンプルサイズは、収益の減少により無意味であるように思われました。
ニュースを見ると、大統領選挙などのギャラップの世論調査のサンプルサイズが1,000を大きく上回っていることがわかりました。大学の統計から私が覚えていることは、サンプルサイズ30が「かなり大きい」サンプルだったことです。30を超えるサンプルサイズは、収益の減少により無意味であるように思われました。
回答:
ウェインは「30」問題に十分に対処しました(私の独自の経験則:統計に関連する30番の言及は間違っている可能性が高い)。
1000付近の数字がよく使われる理由
単純な割合の場合でも、調査では1000〜2000前後の数字がよく使用されます>(「 what支持しますか?」)。
これは、割合の合理的に正確な推定値が得られるように行われます。
二項サンプリングを仮定した場合、比率がときにサンプル比率の標準誤差*が最大になりますが、その上限は約25%〜75%の比率のかなり良い近似です。
*「標準誤差」=「分布の標準偏差」
一般的な目的は、真の割合の約、時間の約以内で割合を推定することです。そのは「エラーのマージン」と呼ばれます。95 %3 %
二項サンプリングでのその「最悪の場合」の標準誤差では、これは次のようになります。
...または「1000を少し超える」。
したがって、推測したい母集団から無作為に1000人を調査し、サンプルの58%が提案を支持している場合、母集団の割合が55%〜61%であることを合理的に確認できます。
(2.5%など、他の誤差範囲の値が使用される場合があります。誤差範囲を半分にすると、サンプルサイズは4の倍数になります。)
一部の下位集団の割合の正確な推定が必要な複雑な調査では(たとえば、提案を支持するテキサスの黒人大卒者の割合)、数が十分に大きく、そのサブグループのサイズは数百、おそらく合計数万件の回答が必要です。
それはすぐに非現実的になる可能性があるため、母集団を部分母集団(層)に分割し、それぞれを個別にサンプリングするのが一般的です。それでも、いくつかの非常に大規模な調査になる可能性があります。
30を超えるサンプルサイズは、収益の減少により無意味であるように思われました。
これは、エフェクトのサイズと相対的な変動性に依存します。の分散手段への影響は、あなたは、いくつかの状況では、いくつかの非常に大規模なサンプルが必要になる場合があります。
非常に大きなサンプルサイズ(正しく覚えていれば100万近く)を扱っていた質問(エンジニアによるものだと思います)に答えましたが、彼は非常に小さな効果を探していました。
サンプルの割合を推定する際に、サンプルサイズが30のランダムサンプルが何を残すかを見てみましょう。
私たちが30人に、全体として一般教書演説を承認したかどうかを尋ねるとします(強く同意、同意、反対、強く反対)。さらに、関心は、同意するか強く同意する割合にあると想像してください。
面接対象者のうち11人が同意し、5人が強く同意して、合計16人だと言います。
16/30は約53%です。人口の割合の限界は何ですか(たとえば95%間隔)?
仮定が当てはまる場合、人口の割合を35%から71%の間に(おおよそ)固定できます。
それほど便利ではありません。
特定の経験則では、データが正規分布している(つまり、ベル曲線のように見える)ことを想定するには30ポイントで十分であることが示唆されていますが、これはせいぜい大まかなガイドラインです。これが重要な場合は、データを確認してください!これは、分析がこれらの仮定に依存している場合、アンケートに少なくとも30人の回答者が必要であることを示唆していますが、他の要因もあります。
主な要因の1つは、「効果サイズ」です。ほとんどのレースはかなり近い傾向があるため、これらの違いを確実に検出するにはかなり大きなサンプルが必要です。(「正しい」サンプルサイズの決定に関心がある場合は、パワー分析を検討する必要があります)。約50:50のベルヌーイ確率変数(2つの結果を持つもの)がある場合、標準エラーを1.5%に下げるには約1000回の試行が必要です。これはおそらく、レースの結果を予測するのに十分な精度であり(最後の4回の米国大統領選挙の平均マージンは〜3.2パーセントでした)、これはあなたの観察とうまく一致しています。
投票データは、さまざまな方法でスライスされ、さいの目に切り分けられます。「候補者は、75歳以上の銃所持男性でリードしていますか?」または何でも。各回答者はこれらのカテゴリのほんの一部に収まるため、これにはさらに大きなサンプルが必要です。
大統領投票は、他の調査質問(たとえば、議会選挙など)に「バンドル」されることもあります。これらは州ごとに異なるため、「余分な」ポーリングデータがいくつかあります。
ベルヌーイ分布の分散はであるため、平均の標準誤差はです。プラグ(選挙はタイである)、1.5%(0.015)へと標準誤差を設定し、解決します。1.5%SEに到達するには1,111人の被験者を取得する必要があります√ p=0.5
この質問に対するいくつかの優れた答えはすでにありますが、標準エラーがそれである理由、を最悪のケースとして使用する理由、および標準エラーがによってどのように変化するかを答えたいと思います。n
投票者が1人だけの場合、投票者1に電話して「パープルパーティーに投票しますか?」と尋ねましょう。「yes」の場合は1、「no」の場合は0として答えをコーディングできます。「はい」の確率はだとしましょう。これで、確率で1、確率 0のバイナリ確率変数ができました。私たちは、と言う、成功の確率でベルヌーイ変数である我々は書くことができ、。予想される、または平均X 1、P 1 - P X 1、P X 1〜BのEのR 、N 、O 、U 、I 、L L I (P )X 1 E(X 1)= Σ X P (X 1 = X ) X X 1 1 - P P E(X 1)= 0 (1 − p。しかし、結果は2つしかありません。0は確率、1は確率で、合計はちょうどです。落ち着いて考える。これは実際には完全に合理的です-投票者1が紫党を支持する可能性が30%あり、変数が「はい」の場合は1、「いいえ」の場合は0にコード化した場合、は平均で0.3になると予想されます。X 1
を2乗するとどうなるか考えてみましょう。場合はで、場合はです。したがって、実際にはどちらの場合でもです。それらは同じであるため、同じ期待値を持つ必要があります。そのため、です。これにより、ベルヌーイ変数の分散を簡単に計算できます。Varしたがって、標準偏差はです。X 1 = 0 X 2 1 = 0 X 1 = 1 X 2 1 = 1 X 2 1 = X 1 E(X 2 1)= p V a r (X 1)= E(X 2 1)− E(X 1 )2 = p − p 2 =
明らかに私は他の有権者と話をしたい-それらを有権者2、有権者3、有権者と呼ぶことができます。それらがすべてパープルパーティーをサポートする同じ確率を持っていると仮定しましょう。これで、、からまでのベルヌーイ変数があり、各 1からまでのがあります。それらはすべて同じ平均と分散持っています。
サンプルで「はい」と言った人の数を見つけたいのですが、それを行うには、すべての足し合わせます。書きます。Iは、平均または期待値を算出することができるそのルールを使用して、それらの期待が存在する場合、及び延びますそれに。しかし、私はそれらの期待値のを合計しており、それぞれがですので、合計でを取得します。落ち着いて考える。私が200人を投票し、それぞれがパープルパーティーを支持していると30%の確率がある場合、もちろん0.3 x 200 = 60人が「はい」と言うと予想します。したがって、式は正しく見えます。それほど「明白ではない」とは、分散を処理する方法です。
そこであると言うルール が、私はそれを使用することができ、私のランダム変数は相互に独立している場合。さて、その仮定を立てましょうことがわかります。変数ならばの和であるの独立した成功の同じ確率でベルヌーイ試行、、我々はと言う、二項分布を持つ。このような二項分布の平均があり、分散が。
元の問題は、サンプルからを推定する方法でした。推定量を定義する賢明な方法はです。たとえば、200人のサンプルのうち64人が「はい」と言った場合、64/200 = 0.32 = 32%の人がパープルパーティーを支持していると推定します。は、賛成票の総数「縮小」バージョンであることがわかります。それはそれがまだランダム変数であるが、二項分布に従っていないことを意味します。ランダム係数を定数係数スケーリングすると、次の規則に従うため、その平均と分散を見つけることができます:(したがって平均同じ係数)で、。分散がスケーリングする方法に注意してください。一般的に、変数が測定される単位の平方で分散が測定されることを知っている場合、それは理にかなっています:ここではあまり当てはまりませんが、ランダム変数が高さcmであった場合、分散は異なるスケーリング-長さを2倍にすると、面積が4倍になります。
ここで、スケールファクターはです。これにより、ます。これは素晴らしい!平均して、私たちの推定値はまさに「あるべき」ものであり、ランダム投票者が紫党に投票すると言う真の(または人口)確率です。推定量は偏りがないと言います。しかし、それは平均的には正しいですが、時には小さすぎたり、時には高すぎたりします。分散を見ると、どれだけ間違っている可能性があるかがわかります。。標準偏差は、平方根、そしてそれは私たちの推定器がどれほどひどくオフになるかを把握するためです(それは実質的に二乗平均誤差、平均化する前にそれらを二乗することによって正と負の誤差を等しく悪いとして扱う平均誤差を計算する方法です)通常、標準エラーと呼ばれます。大規模なサンプルに有効であり、有名な中央極限定理を使用してより厳密に処理できる適切な経験則は、ほとんどの場合(約95%)、標準誤差が2つ未満であると推定が間違っていることです。
分数の分母に表示されるため、値が大きいほど(サンプルが大きいほど)、標準誤差が小さくなります。小さな標準エラーが必要な場合、サンプルサイズを十分に大きくするだけでよいので、これは素晴らしいニュースです。悪いニュースは、が平方根の中にあるため、サンプルサイズを4倍にすると、標準誤差が半分になるだけです。非常に小さな標準誤差には、非常に大きな、したがって高価なサンプルが含まれます。別の問題があります。特定の標準エラー(1%など)をターゲットにしたい場合は、計算で使用する値を知る必要があります。過去のポーリングデータがある場合は履歴値を使用できますが、最悪の場合に備えたいと思います。値最も問題なのは?グラフは有益です。
最悪の場合(最高)の標準エラーは、ときに発生します。計算を使用できることを証明するために、「正方形を完成させる」方法を知っている限り、一部の高校の代数がトリックを行います。
式は角かっこが四角になっているので、常にゼロまたは正の答えを返し、それが四半期から取り去られます。最悪の場合(大きな標準誤差)、可能な限り少なくなります。減算できる最小値はゼロであり、場合に発生するため、ます。これの結果は、投票の50%近くの政党などの支持を推定しようとすると大きな標準誤差が得られ、それよりもかなり多かれ少なかれ人気のある提案の支持を推定する標準誤差が低くなることです。実際、私のグラフと方程式の対称性は、パープルパーティーの支持率が30%であろうと70%であろうと、パープルパーティーの支持率について同じ標準誤差が得られることを示しています。
では、標準エラーを1%未満に保つために何人の人に投票する必要がありますか?これは、ほとんどの場合、私の見積もりが正しい割合の2%以内であることを意味します。最悪の場合の標準エラーはあり、となるため、。それはなぜあなたが何千人もの世論調査の数字を見る理由を説明するでしょう。
実際には、低い標準誤差は良い推定値を保証するものではありません。ポーリングの多くの問題は、理論的な性質ではなく実用的なものです。たとえば、サンプルはそれぞれ同じ確率のランダム投票者であると仮定しましたが、実際の生活で「ランダム」サンプルを取得することは困難です。電話またはオンラインポーリングを試してみてください。ただし、すべての人が電話やインターネットにアクセスできるだけでなく、人口統計(および投票意向)が異なる人々もそうではありません。結果への偏りを避けるために、ポーリング会社は実際には単純な平均ではなく、サンプルのあらゆる種類の複雑な重み付けを行います私が取った。また、世論調査員に嘘をつく!世論調査員がこの可能性を補ってきたさまざまな方法は、明らかに議論の余地があります。世論調査会社が英国のいわゆるシャイトリーファクターをどのように扱っているかについて、さまざまなアプローチを見ることができます。修正の1つの方法は、過去に人々が主張した投票意図がどれほど妥当であるかを判断するためにどのように投票したかを調べることでしたが、嘘をついていなくても、多くの有権者は単に選挙歴を覚えていないことがわかりました。このようなことを行っているとき、率直に言って「標準エラー」を0.00001%に下げるポイントはほとんどありません。
最後に、簡単な分析によると、必要なサンプルサイズが目的の標準誤差によってどのように影響されるか、の「最悪の場合」の値がより適切な比率と比較してどれだけ悪いかを示すグラフを次に示します。の以前のグラフの対称性により 、曲線はの曲線と同一であることを忘れないでください
「少なくとも30」ルールは、相互検証に関する別の投稿で対処されています。せいぜい経験則です。
数百万の人々を表すと思われるサンプルを考えると、30人よりもはるかに大きなサンプルが必要になります。直観的には、30人は各州から1人も含めることはできません。次に、共和党員、民主党員、独立党員(少なくとも)を代表し、それぞれについて、いくつかの異なる年齢カテゴリを表し、それぞれについて、いくつかの異なる収入カテゴリを表すと考えます。
わずか30人が呼び出されるだけで、サンプリングする必要のある人口統計の膨大な数を見逃すことになります。
EDIT2:[abaumannとStasKが反対した段落を削除しました。私はまだ100%説得していませんが、特にStasKの議論に反対することはできません。] 30人が適格なすべての有権者の中から完全にランダムに選択された場合、サンプルは何らかの意味で有効ですが、小さすぎます質問への回答が(すべての有権者の間で)実際に真であるか偽であるかを区別してみましょう。StasKは、以下の3番目のコメントで、それがいかに悪いかを説明しています。
編集:samplesize999のコメントへの回答では、「電力分析」と呼ばれる十分な大きさを決定するための正式な方法があります。これについてもここで説明します。abaumannのコメントは、違いを区別する能力と、ある程度の改善を行うために必要なデータ量との間にトレードオフがあることを示しています。彼が説明しているように、計算には平方根があります。つまり、(パワーの増加という観点から)利益がますます遅くなるか、(必要なサンプルの数に関して)コストが急速に増大することを意味します。十分なサンプルですが、それ以上ではありません。
多くのすばらしい回答がすでに投稿されています。同じ反応をもたらすが、直観をさらに進める可能性のある別のフレーミングを提案させてください。
@Glen_bと同様に、ステートメントに同意する真の割合が3%の誤差範囲内にあるという少なくとも95%の信頼性が必要であると仮定しましょう。母集団の特定のサンプルでは、真の割合は不明です。ただし、成功このパラメーターに関する不確実性は、ベータ分布で特徴付けることができます。
分布方法に関する事前情報はないため、は情報のない事前分布であると言います。これは、0から1までの一様分布です。
調査から回答者から情報を得ると、の分布に関する信念を更新することができます。 "yes"応答および "no"応答を取得したときのの事後分布はです。
真の割合が0.5である最悪のシナリオを想定して、確率質量の0.025のみが0.47未満であり、確率質量の0.025が0.53をような回答者を見つけたい3%の許容誤差で95%の信頼性を得るため)。つまり、Rのようなプログラミング言語では、値が0.47になるようなを把握したいと考えています。qbeta(0.025, n/2, n/2)
を使用すると、以下が得られます。
> qbeta(0.025, 1067/2, 1067/2)
[1] 0.470019
これが望ましい結果です。
要約すると、「はい」と「いいえ」の回答を均等に分割した1,067人の回答者は、「はい」回答者の真の割合が47%〜53%であるという95%の信頼を得ることができます。