選挙で、候補者が勝者になるという確実性をどのように伝えることができますか?


14

昨日私が総選挙があり、テレビネットワークは、すべての投票が開かれるずっと前に勝者を呼び始めました。

彼らはすべてのアカウントで正しい結果を出しました。私は統計が絶対に実行可能であることを知っています。それでも、私は興味があります。想定:

  • 私たちは、オープンしている外に投票。jj
  • 我々は持っている持つ現在のスコアがある候補cが1C 2C 3c n ;nc1c2c3cn

主要な候補者が勝者である確実性をどのように計算できますか?


1
通常、広範な出口ポーリングデータ、および結果を予測するために使用できるその他のデータにアクセスできることに注意してください。サンプリングエラーが原因でマークから外れていないことを確認するには、着信カウントからの十分な確認のみが必要です。確かに複雑な問題があり、着信カウントは一般に偏ったサンプルですが、出口調査はそれらの問題のいくつかに対処するのに役立つのに大いに役立ちます。
GUNG -復活モニカ

1
「確実性」が文字通りに解釈されることを意図している場合、統計は「ほぼ確実に」「確実性」という質問に答えることができません。しかし、答えが正しいという高いレベルの自信を持って答えを出すことができます。(言い換えると、データを取得して分析を正しく行うと、「私の答えは時間のx%についてのみ間違っている」などと言うことができます。)
エミルフリードマン

回答:


14

実際の主な難しさは、運の悪循環が1人の候補者にさらに票を与えるという統計的な不確実性ではありません。1桁以上の大きな問題は、開かれた投票が投票の公平なサンプルではないことです。この効果を無視すると、有名なエラー「Dewey Defeats Truman」が発生しますが、これは大きなバイアスのサンプルで発生しました。

実際には、ある候補者と別の候補者を支持する有権者は、日中に働くか、海外に派遣されるかによって不在者投票によって投票するかどうかによって、地域ごとに均等に分配されません。これらは小さな違いではありません。

現在、報道機関は人口をグループに分け、その結果を使用して各グループの投票方法(投票率を含む)を推定することだと思います。これらは、この選挙からのデータだけでなく、以前の選挙に基づいたモデルと以前の仮定に基づいている可能性があります。これらは、パームビーチのバタフライ投票のような奇妙なことを考慮していないかもしれません


3
オーストラリアでは、約10〜15年前までは、保守的な政党は通常、早期のカウントで強力になり、進歩的な政党は遅れてカムバックしました。テレビネットワークはおそらく何が起こっているかを知っていましたが、おそらくその変動性がより多くのドラマを生み出しました。アナリスト名のアントニー・グリーンがブースごとのブース結果を使用し始めたとき、それはすべて変わりました。田舎の小さなブースはカウントを早くし、結果を早め、より保守的に投票する傾向があるという事実を説明するためです。アントニーは、他の誰かがこれを使用する数時間前に選挙結果を正しく呼び出したことで有名です。
ボグダノビスト

1
過去数年のブースごとの結果を使用して、合計結果の推定値を非常に正確に調整できます。
ピーターエリス

@DouglasZare現在開いている投票はランダムなサンプルではないということです。
マイケルR.チャーニック

1
@Michael Chernick:非ランダムサンプルとバイアスサンプルの違いは何ですか?en.wikipedia.org/wiki/Sampling_biasはそれらを同義語として使用しているようです。
ダグラスザーレ

1
@DouglasZareあなたのリンクから、ウィキペディアはバイアスされたサンプルを非ランダムの同義語として使用していることがわかります。それは悪い選択だと思います。バイアス一般とは、推定値がパラメーターの真の値と等しくないという期待を指します。サンプリングのコンテキストでは、非ランダムサンプルは特定の推定値のバイアスを意味しません。バイアスにつながる場合も、しない場合もあります。
マイケルR.チャーニック

0

調査サンプリングでは、割合の推定値の標準誤差が必要です。jよりもiに依存します。また、私は開かれた投票がランダムに選択されたことを要求します。pが候補Aの真の最終比率である場合、推定の分散は

1jp1p

1j有限母集団補正係数と呼ばれます。この分散を推定するには、式のpの代わりにpの通常の推定を使用します。標準誤差は、平方根を取ることで得られます。投票者は、勝者を予測する際に、推定値にプラスまたはマイナス3の標準誤差を使用する場合があります。間隔に0.5が含まれていない場合、0.5が下限を下回っている場合、候補者Aが勝者と宣言され、0.5が上限を上回っている場合、相手は勝者と宣言されます。もちろん、これは、0.5がインターバルの外にある場合に勝者が誰であるかを非常に高い確信をもって言うだけです。使用するものが3つの標準誤差である場合(2項の正規近似に基づいて)、信頼レベルは0.99です。0.5が間隔内にある場合、誰も勝者として宣言されず、投票者はさらにデータが蓄積されるのを待ちます。

投票を行う際に、投票者は累積投票から層別化されたランダムサンプルを選択して、カウントされたすべての投票を確認した場合に発生する可能性のあるバイアスを回避できます。累積されたすべての票を調べる際の問題は、特定の地区が他の地区を数え終えることであり、人口を代表していない可能性があることです。

ここの記事は、問題と多数の参考文献を適切に網羅しています。

まだ報告していない境内は、追随している候補者のいる党を支持する傾向のある構内であるか、不在者投票は、後続している候補者を支持する可能性が高いため、累積票は割合の偏った推定値を提供できることが指摘されていますそして、それらの票は最後に数えられます。ハリスやギャラップのような洗練された世論調査員は、このようなtrapには陥りません。私が概説した累積投票に基づいて信頼区間を構築する簡単な分析は、使用される1つの要素にすぎません。これらの世論調査官には、自由に使える情報がたくさんあります。選挙の直前に行われた投票があり、最近の選挙で行われたすべての境内と不在者投票の投票パターンがあります。

したがって、反対の方向に近い選挙を振り回す可能性のある明確なバイアスがある場合、世論調査員はこれを認識し、勝者を投じることを控えます。

米国では、不在者投票は主に海外の軍隊と自宅から離れた学校にいる大学生からのものです。軍隊は保守的で共和党に投票する傾向がありますが、同僚の学生はよりリベラルで民主党に投票する傾向があります。これらすべての考慮事項が考慮されます。

現代の世論調査の注意と洗練は、1936年の文学ダイジェスト世論調査やシカゴ新聞の1948年のデューイ選挙の時期尚早な譲歩などの重大な誤りがそれ以来起こらなかった理由です。


2
調査サンプリングとの暗黙の類似は適切ですが、この質問は複雑な要因を追加しませんか?1つ目は、3つ以上の候補者の可能性です。2つ目は、これが逐次決定の問題であるということです。通常、ポーリングサイズを指定し、サンプルに基づいて1つの決定を行う投票者とは異なり、ネットワークのサンプルが増え、選挙を呼び出すか待つかを決定する必要があるたびに詳しくは。ここで引用する調査アプリケーションは、この動的な状況には適用できないようです。そして、なぜネットワークは3つのSEを使用するのでしょうか?(その評判は危機にatしています。)
whuber

1
@whuberおそらく実際には考慮されない合併症があることに同意します。簡単にするために、多数派が勝つ2つの候補のケースを選びました。これがOPが念頭に置いていた状況だと思います。3人以上の候補者による複数の勝利には、「勝利候補者が相手よりも高い割合であったことを示す必要があります。それがある。
マイケル・R. Chernick

1
私が3 SEを選んだのは、投票者が勝者を宣言する前に自分が正しいことを「非常に確実に」知りたいと思うからです。したがって、3を2よりも多く使用すると思います。エラーのリスクをさらに小さくしたい場合は、3よりも高くなる可能性があります。標準エラーの式を使用して、OPに確実性のレベルがiおよびjを簡単な方法で。状況を複雑にすると、結果がより複雑になり、依存関係I iとjが明確に見えなくなります。
マイケルR.チャーニック

2
n2

3
私はいくつかのダウン票を得ているので、誰かがその正当性を説明しますか?
マイケルR.チャーニック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.