信頼区間とサンプルサイズ


9

私は統計と信頼区間のフィールドにまったく新しいです。したがって、これは非常に些細なことであるか、または愚かでさえあるかもしれません。このことをよりよく説明している文献/テキスト/ブログを理解したり、指摘したりしていただければ幸いです。

CNN、Foxニュース、Politicoなどのさまざまなニュースサイトで、2012年の米国大統領レースに関する投票について調べています。各機関は、いくつかの投票を実施し、フォームの統計を報告しています。

CNN:オバマ氏の人気はX%で、誤差は+/- x1%です。サンプルサイズ600。FOX:オバマ氏の人気はY%で、誤差は+/- y1%です。サンプルサイズ800。XYZ:オバマ氏の人気はZ%で、誤差は+/- z1%です。サンプルサイズ300。

ここに私の疑問があります:

  1. どれを信頼するかをどうやって決めるのですか?それは信頼区間に基づくべきですか、それともFoxのサンプルサイズが大きいため、推定値の信頼性が高いと思いますか?信頼度とサンプルサイズの間に暗黙の関係があり、一方を指定すると他方を指定する必要がなくなりますか?

  2. 信頼区間から標準偏差を決定できますか?もしそうなら、それは常に有効ですか、それとも特定の分布(Gaussianなど)に対してのみ有効ですか?

  3. 上記の3つの推定値を「マージ」または「結合」して、信頼区間とともに独自の推定値を取得する方法はありますか?その場合、どのサンプルサイズを請求する必要がありますか?

CNN / Foxについては、私の例をわかりやすく説明するためにのみ言及しました。私はここで民主党対共和党論争を始めるつもりはありません。

私が提起した問題を理解するのを手伝ってください。

回答:


4

ピーターのすばらしい答えに加えて、ここにあなたの特定の質問に対するいくつかの答えがあります:

  1. 誰を信頼するかは、誰が投票を行っているか、そして彼らが良質の投票を獲得するためにどのような努力を払ったかにも依存します。サンプルが代表的ではなく、巨大な投票を行っている場合、サンプルサイズが大きいほど良くはありませんが、1つの非スイング状態でのみ良い結果が得られません。

    サンプルサイズと信頼区間の幅の間には関係がありますが、パーセンテージが0、1、または0.5にどれだけ近いかなど、他のものも幅に影響します。使用されたバイアス調整、サンプルの取得方法(クラスタリング、層別化など)。原則として、信頼区間の幅は1に比例します。なので、間隔を半分にするには、サンプルサイズの4倍が必要です。1

  2. サンプルの収集方法と間隔の計算に使用された式について十分に理解している場合は、標準偏差を解くことができます(使用されている信頼水準(通常は0.05)も知っておく必要があります)。ただし、層別サンプルとクラスターサンプルでは、​​式が異なります。また、ほとんどの世論調査はパーセンテージに注目しているため、二項分布を使用します。

  3. 情報を組み合わせる方法はいくつかありますが、一般的には、サンプルがどのように収集されたかについて何かを知っているか、間隔がどのように構築されたかについて何らかの形で想定する必要があります。ベイジアンアプローチは1つの方法です。


1
+1。しかし、#3の見通しは本当に厳しいか、難しいか?それぞれに独自の誤差がある独立した推定値のコレクションがある場合、なぜ(少なくともおおまかに)通常の方法で(加重平均として、二乗MoEによって逆に重み付けされて)結合できず、標準誤差を次のように結合できないのですか?よく(分散式を使用して)?それは完璧ではありませんが、信頼できる投票を1つ選ぶよりはましですよね?
whuber

グレッグ、ありがとう!回答ありがとうございます。質問3への回答で、「ベイジアンアプローチは1つの方法である」と述べました。これについてより多くの情報を提供するいくつかの文献を私に教えてもらえますか?
Nik

@whuber:コメントありがとうございます。それは私が考えていたものです。これらの推定値をこのように組み合わせることが正当化されると思いますか?完全ではないかもしれませんが、大部分は?
Nik

1
@whuber、私はそれを荒々しくペイントするつもりはありませんでした、ただポスターが気づいていて、必要とされる仮定で生きることができることを確認するために。
Greg Snow

@Nik、ベイジアン統計のためのウェブ上の多くのチュートリアルがあります。単純なアプローチ(サンプルがすべて単純なランダムサンプルであるか、またはSRSの仮定がそれほど遠くないような調査デザインであると仮定します)は、事前にベータから開始し、次に二項尤度で各ポーリングを使用して更新して新しい事後を取得します。ベイズのアプローチの良い点の1つは、最新の世論調査ほどの影響を与えたくない場合は、以前の調査の影響を無視できることです。
Greg Snow

4

これは大きなトピックですが、基本的に2つの問題があります。

1)精度-サンプルサイズによって決定されます。サンプルが大きいほど、標準誤差が低く、信頼区間が狭く、より正確な推定が得られます

2)バイアス-統計上、他の場所で行っているような否定的な意味を必ずしも持っていない。投票では、XXXXのランダムなサンプルを取得しようとします(有権者の可能性が高い、有権者が登録されている場合もあります)。しかし、そうではありません。一部の世論調査では、固定電話のみを使用しています。人々の異なるグループが多かれ少なかれ答える可能性があります。さまざまなグループが電話を切る可能性は多かれ少なかれあります。

そのため、すべての世論調査員は自分の応答に重みを付けます。つまり、有権者に関する既知の事実と一致するように結果を調整しようとします。しかし、彼らはそれを少し異なって行います。したがって、同じポーリング入力データを使用しても、異なる数値が得られます。

誰を信頼する?ええと、538でのネイトシルバーの作品を見ると、彼は前回の選挙での世論調査の正確さを評価しています。しかし、だからといって、それらの精度が同じになるというわけではありません。


ピーターに感謝します。したがって、誤差が少ない推定値はより「正確」です。X%+/- x1%のエラーマージンからどのように偏っているのかを知る方法はありますか?個々のサンプルの好みを知らない限り、それは不可能だと思いますよね?
Nik

はい、そうです。もちろん、一部の世論調査員は(ある方向または別の方向に)既知のバイアスを持っています。多くの場合、内部投票(一方の当事者が実行)は偏っています。彼らがこれを行うことができる1つの方法は、いくつかの世論調査を無害にして、有利なものだけを解放することです。それから、候補者についての質問が彼または彼女についての否定的な質問によって前に置かれる「プッシュ投票」の全体の問題があります。
ピーターフロム-モニカの回復

1

これは、調査サンプリングの領域に該当します。原則として、ランダム化が使用されるため、この方法が機能します。主観的な決定に基づいて世論調査で異なる可能性のあるものを以下に示します。

  1. サンプリングフレーム。どの有権者グループからサンプルを抽出する必要がありますか?

  2. 昨日の投票または来週の調査に基づいてオバマ対ロムニーに関する彼の意見を変えるかもしれない未定の有権者の変動性をどのように処理しますか?

  3. ピーターはバイアスに触れました。1936年の文芸ダイジェスト世論調査は災難でした。サンプリングフレームが電話番号のランダムな選択に基づいていたため、FDRよりも共和党の候補者を選びました。1936年には、上流階級と裕福な人だけが電話を持っていました。そのグループは共和党候補者に投票する傾向がある共和党によって支配されました。ルーズベルトは、民主党のグループになりがちな貧困層や中産階級から投票を得た地滑りで勝ちました!それは、サンプリングフレームの微妙に悪い選択によるバイアスを示しています。

  4. 調査のサンプリングは有限の人口を扱います。母集団のサイズはNです。単純なランダムサンプルがその母集団から抽出され、サイズがnであるとします。簡単にするために、オバマとロムニーだけが実行されていると仮定します。このサンプリングフレームでオバマ氏が獲得する票の割合は、バイナリ変数の平均です(回答者がオバマ氏を選択した場合は1、ロムニーは0と言います)。この変数の標本平均の分散は、[p(1-p)/ n] [Nn] / Nです。ここで、pは、オバマを選択する実際の人口比率です。[Nn] / Nは有限母集団の修正です。ほとんどの世論調査では、NはNよりもはるかに大きく、正解は無視できます。p(1-p)/ nを見ると、分散はnとともに下がっています。したがって、nが大きい場合、特定の信頼水準での信頼区間は小さくなります。

米国国勢調査局の世論調査担当者、その他の調査サンプラーおよび統計家はすべて、これらの統計ツールを自由に使用でき、より複雑で正確な方法を実行します(クラスターランダムサンプルと層別ランダムサンプリングでいくつかの方法を説明します)。

それらのモデリングの仮定が有効な場合、メソッドは非常にうまく機能します。出口ポーリングはその典型的な例です。選挙当日には、ほぼすべての州が最終的に数える前に、ネットワークがほぼすべての州で勝者を正確に予測しているのがわかります。これは、選挙前日の変動がなくなったためです。彼らは歴史的に人々がどのように投票する傾向があったかを知っており、偏見を避ける方法で選択された境内を決定することができます。ネットワークが異なる場合があります。これは、他の考え方よりも勝者を選ぶ競争が原因である可能性があります。また、投票が非常に近いためにまれに発生する場合もあります(フロリダ州の大統領選挙2000など)。

これにより、何が起こっているのかをより明確に把握できると思います。1948年の「デューイがトルーマンを倒す」や1936年の文学ダイジェストの大失敗のような大きなミスはもはや見られません。しかし、統計は完全ではなく、統計学者はそれらが確実であるとは決して言えません。


詳しい説明ありがとうございます。これは本当に役に立ちました!
Nik

大きなミスはもうありませんか?クリントンは2016年に優勝しましたね。私はあなたの知られていない未知のものを取り、あなたに黒い白鳥を育てます。私のパパがよく言ったように、「それがあなたを殺すのはあなたが知らないものです。」
Carl

1
私の答えは、クリントンや、多くの奇妙な問題があった2016年の選挙とは関係がありませんでした。(1)ロシアの介入、(2)クリントンが一般投票に勝利し、(3)一部のトランプ有権者はトランプに投票することを認めようとはしませんでした。おそらく、投票者の投票率が予想されたものと異なる場合、投票が間違っている可能性があることを付け加えておきます。
Michael R. Chernick 2017
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.