選挙は1回限りのイベントであるため、繰り返すことのできる実験ではありません。「ヒラリーは勝つ可能性が75%ある」という言葉は、厳密には技術的に何を意味するのでしょうか?直感的または概念的な定義ではなく、統計的に正しい定義を求めています。
私は、アマチュア統計のファンであり、議論の中で出てきたこの質問に答えようとしています。客観的な反応があると確信していますが、自分で考え出すことはできません...
選挙は1回限りのイベントであるため、繰り返すことのできる実験ではありません。「ヒラリーは勝つ可能性が75%ある」という言葉は、厳密には技術的に何を意味するのでしょうか?直感的または概念的な定義ではなく、統計的に正しい定義を求めています。
私は、アマチュア統計のファンであり、議論の中で出てきたこの質問に答えようとしています。客観的な反応があると確信していますが、自分で考え出すことはできません...
回答:
これまでに提供されたすべての回答は役立ちますが、統計的に非常に正確ではないため、それを試してみましょう。同時に、私はこの選挙に焦点を当てるのではなく、一般的な答えをするつもりです。
クリントンが選挙で勝利したような現実の出来事についての質問に答えようとするとき、心に留めておくべき最初のことは、urからさまざまな色のボールを取り出すような数学の問題とは対照的です」質問に回答するためのユニークで合理的な方法であり、したがってユニークで合理的な答えではありません。「ヒラリーは75%の勝利の可能性がある」とだけ言って、選挙のモデル、推定に使用したデータ、モデル検証の結果、背景の仮定、 「一般投票や選挙投票などを参照している場合、彼らはその意味を実際には伝えておらず、予測が良いかどうかを評価するのに十分な情報を提供していません。それに
それでは、統計学者がクリントンのチャンスを推定するために使用する手順は何ですか?確かに、彼らはどのように問題を組み立てるか?高いレベルでは、確率自体のさまざまな概念がありますが、その中で最も重要なのは、頻度主義とベイジアンです。
frequentistビュー、確率のように、同じ実験の多くの独立した試行を超えるイベントの限界周波数を表し、大数の法則(強いまたは弱いです)。特定の選挙はユニークなイベントですが、その結果は、歴史的および仮説的なイベントの無限の人口から引き付けられたものと見ることができます。これは、すべてのアメリカ大統領選挙、または2016年の世界中のすべての選挙、または何か他のものを含む可能性があります。クリントンの勝利の75%の可能性は、が独立した選挙の結果のシーケンス(0または1)であり、モデルに関する限り、この選挙と完全に同等であることを意味します。のX 1、X 2、… 、、 nが無限大になるにつれて確率が0.75に収束します。
でベイズビュー、確率は(または実際の信念、あなたがsubjectivistベイズしているかどうかに依存してもしなくてもよい)、信憑性や信頼性の度合いを表しています。クリントンの勝利の75%の確率は、彼女が勝つ75%の信頼できることを意味します。信頼性は、(モデルまたはアナリストの既存の信念に基づいて)確率の基本法則(ベイズの定理のような、および共同事象の確率がいずれかの限界確率を超えることができないという事実)の範囲内で自由に選択できますコンポーネントイベント)。これらの法律を要約する1つの方法は、イベントの結果に賭け、ギャンブラーにあなたの信用度に応じてオッズを与えると、ギャンブラーはオランダの本を作成できないことです。つまり、イベントが実際にどのように機能したとしてもお金を失うことを保証する一連の賭けです。
確率について頻繁に見ようとベイジアンの見方とを問わず、データを分析して確率を推定する方法については、まだ多くの決定を下す必要があります。おそらく最も一般的な方法は、線形回帰などのパラメトリック回帰モデルに基づいています。この設定では、アナリストはパラメーターと呼ばれる数値のベクトルによってインデックスが付けられた分布のパラメトリックファミリー(つまり、確率測定)を選択します。各結果は、この分布から抽出された独立したランダム変数であり、共変量に従って変換されます。共変量は、アナリストが結果を予測するために使用する既知の値(失業率など)です。アナリストは、データと最小二乗などのモデル適合の基準を使用して、パラメーター値の推定値を選択しますまたは最尤法。これらの推定値を使用して、モデルは結果の予測を生成できます(おそらく単一の値、場合によっては間隔は共変量の任意の値またはその他の値のセット)を生成できます。特に、選挙の結果を予測できます。パラメトリックモデルの他に、ノンパラメトリックモデル(つまり、無限に長いパラメーターベクトルでインデックス付けされた分布のファミリによって定義されるモデル)、およびデータがまったく生成されたモデルを使用しない予測値を決定する方法もあります。 、最近傍分類子やランダムフォレストなど。
予測を考え出すことは1つのことですが、予測が良いかどうかをどのように知るのですか?結局のところ、十分に不正確な予測は役に立たないよりも悪いです。予測のテストは、モデル検証の大規模なプラクティスの一部です。つまり、特定のモデルが特定の目的に対してどれだけ優れているかを定量化します。予測を検証する2つの一般的な方法は、交差検定と、モデルを近似する前にデータをトレーニングとテストのサブセットに分割することです。データに含まれる選挙が2016年の米国大統領選挙を代表する程度まで、予測の検証から得られる予測精度の推定値は、2016年の米国大統領選挙の予測がどれほど正確かを示します。
統計学者が二進法の結果を予測したい場合(ヒラリーの勝利対ヒラリーの勝利はありません)、彼らは宇宙が想像上のコインを投げていると想像します-ヘッズ、ヒラリーの勝利。しっぽ、彼女は負けます。一部の統計学者にとって、コインは結果に対する信念の程度を表しています。他の人にとって、コインは、同じ状況下で何度も選挙をやり直した場合に何が起こるかを表しています。哲学的に言えば、数字をドラッグする前であっても、不確実な将来の出来事について話すときの意味を知ることは困難です。しかし、数字の出所を見ることができます。
選挙のこの時点で、一連の投票結果があります。これらの形式は次のとおりです。たとえば、オハイオ州では1000人が投票されました。40%がトランプをサポートし、39%がヒラリーをサポートし、21%が未定です。民主党、共和党(およびその他の微量党)の各候補者に対して、以前の選挙から同様の投票が行われます。前の年には、成果もあります。たとえば、7月の投票で40%の票を獲得した候補者が、以前の10回の選挙のうち8回勝利したことをご存知かもしれません。または、結果は、10回の選挙のうち7回で、民主党がオハイオ州を占領したと言うかもしれません。オハイオ州とテキサス州の比較を知っているかもしれません(おそらく彼らは同じ候補者を選ばないでしょう)-未決定の投票がどのように決裂するかについての情報を持っているかもしれません-そして、候補者が「急増」し始めたときに何が起こるかの興味深いモデルを持っているかもしれません。
したがって、前の選挙を考慮に入れると、選挙コインはすでに何度も投げられていると言えます。同じ選挙は4年ごとに再実施されているわけではありませんが、そういうふりをすることはできます。このすべての情報から、投票者は複雑なモデルを作成して、今年の結果を予測します。
ヒラリーの75%の勝率は、「今日」の私たちの知識の状態に関連しています。投票結果のある候補者は、彼女がいる州では「今」、選挙期間中の投票の傾向を考えると、4年のうち3選挙年で選挙に勝つと言っています。モデルは8月の世論調査の状態に基づいているため、現在、彼女の勝利の確率は変わっています。
米国では、歴史的に統計的に多数の選挙が行われていませんが、投票が始まって以来ずっと少ないです。また、たとえば70年代のポーリングトレンドがまだ当てはまるとは限りません。だから、少し危険です。
一番下の行は、ヒラリーは彼女の就任演説で作業を開始する必要があるということです。
統計学者がこれを言うとき、彼らは勝利のマージンまたは投票のシェアを言及していません。彼らは選挙のシミュレーションを多数実行し、各候補者が獲得する投票の割合を数えています。多くの堅固な大統領モデルについて、各州の予測があります。いくつかは近くにあり、レースが複数回実行される場合、両方の候補者が勝つことができます。予測間隔は0の勝利のマージンと何度も重複するため、バイナリ応答ではなく、シミュレーションが何を期待するかをより正確に示します。
FiveThirtyEightの方法論のページは、フードの下にあるものをもう少し理解するのに役立ちます:http : //fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/
この質問に非常に関連するフリーコノミクスラジオのエピソードがあります(一般的に、選挙の詳細ではありません)。その中で、スティーブン・ダブナーは、米国の防衛機関からのプロジェクトのリードにインタビューし、世界的な政治的出来事を予測する最良の方法を決定します。
それはまた、ほとんどの人がするよりも政治についてもっと知るのに大いに役立ちます。うまくいくためにはほとんど必要な条件だと思います。しかし、彼らは十分ではありません。なぜなら、非常に頭が良くて、気の近い人がたくさんいるからです。非常に賢く、ユニークなイベントに確率を付けることは不可能だと思う人がたくさんいます。
その後、彼らは何をすべきではないかを議論します
これらのタイプの質問をすると、ほとんどの人は「どのようにして確率をユニークな歴史的出来事と思われるものに割り当てることができますか?」と言います。私たちが本当にできる最善のことは、あいまいな表現を使用し、あいまいな表現を予測することです。次のようなことを言うことができます。これが起こる可能性があります。そして、何かが起こる可能性があると言うことは、多くを言うことではありません。
次に、エピソードは、最も成功した予測者がこれらの確率を推定するために使用した方法論に入り、非公式のベイジアンアプローチを提唱します
ですから、アフリカの独裁者や国についても何も知らずに、この独裁者のことは聞いたことがありません。この国のことは聞いたことがありません。基本料金を見て、それは私の最初の予測です。それから質問は、「私は何をしますか?」です。それから、私は国と独裁者について何かを学び始めます。そして、問題の独裁者が91歳であり、前立腺癌を進行していることを知った場合、確率を調整する必要があります。そして、首都に暴動があり、沖に軍事クーデターの兆候があることを知った場合、再び確率を調整する必要があります。しかし、基本レートの確率から開始することは、少なくとも最初に妥当性の球場にいることを保証する良い方法です。
このエピソードは、「未来を予測するのにそれほどひどくならない方法」と呼ばれ、非常に楽しい話です。この種のことに興味があるなら、ぜひチェックしてみてください!
2016年の選挙は確かに1回限りのイベントです。しかし、コインの反転やダイスのトスも同様です。
候補者が勝つ可能性が75%あることを知っていると主張する場合、結果を予測していません。彼らは、ダイの形状を知っていると主張しています。
選挙の結果がこれを無効にすることはできません。しかし、75%に到達するために使用するモデルが多くの選挙に対してテストされる場合、予測値が限られていることが示される可能性があります。または、貴重なものとして生まれるかもしれません。
もちろん、価値のある予測因子が候補者に知られると、候補者は行動を変えることができ、モデルを無関係にすることができます。または、すべてが不均衡に吹き飛ばされることがあります。アイオワで何が起こるか見てください。
「ヒラリーは勝つ可能性が75%である」と誰かが言うとき、ヒラリーが勝った場合に25ドルを獲得し、ヒラリーが勝たなかった場合に75ドルを獲得する賭けを提供した場合、彼らはそれを考慮します公正な賭けであり、どちらの側も好む特別な理由はありません。
これらの割合は通常、予測市場からのものです。これらは、利用可能なすべての情報を要約し、通常、ほとんどのイベントを予測する分析方法よりも優れています。
予測市場は、特定のイベントが発生するかどうかに賭ける機会を人々に提供します。利益は提案の両側の人々の間の交渉によって設定されます。一般的に、命題について特別な知識を持っている人は、その知識を活用してお金を稼ごうとしますが、それはその情報を漏らすという副作用があります。
たとえば、特定の有名人が今年末まで生き残るかどうかについての予測市場があるとします。大衆は有名人の年齢を知っており、誰もが年末までに有名人が死ぬ基本的な確率を調べることができます。それがすべてわかっていれば、人々はこの命題のどちらか一方に、ほぼその確率で喜んで賭けることを期待するでしょう。
今、誰かが有名人の健康状態が悪いことを知っていたが、それを隠していたとします。あるいは、有名人の家族が心臓病の病歴を持っていることを知っていたと言う人もいます。その情報を持っている人々は、その命題の片側を取る気があり、買い手が株価を押し上げ、売り手がそれを押し下げるようにレートを調整します。
言い換えれば、オッズが低すぎる場合、利益を求めている人々はそれらを押し上げます。そして、彼らが高すぎるとき、利益を求めている人々は彼らを押し下げます。賭けの価格は最終的に、すべての価格が物事のコストと価値に関する集合的な知恵を反映するように、発生する命題のオッズに関する全員の集合的な知恵を反映します。
重要な質問は、一意のイベントに確率をどのように割り当てるかです。答えは、一意ではなくなるモデルを開発することです。より簡単な例は、大統領が就任中に死亡する確率は何だと思いますか?大統領を特定の年齢の人、特定の年齢と性別の人と見なすことができます。など...各モデルは異なる予測を提供します...先験的に正しいモデルはありません。どのモデルが最も適切かを選択するのは統計学者次第です。
投票が非常に厳しい競争を示していることを考えると、75%は正確である場合とそうでない場合があります。
あなたはそれがどういう意味なのかを尋ねているのであり、彼らがこれをどのように計算したのかではない。(クリントンと彼女の主要な対戦相手以外の誰かを無視した場合)彼女が勝った場合、4 ドルのリターンを得るには3 ドルを賭ける必要があるということです。または、他のランナーに1 ドルの賭けをすると、彼が勝った場合は4ドルを返します。
私の答えは、どちらかの候補者が勝つための実際のチャンスと、人々(ギャンブラー、またはオッズ)が期待しているものとを少し区別します。このような数字、たとえば75%を見ると、オッズメーカーの数字が表示され、49〜48%を見ると、投票結果が表示されていると思います。
彼らがそれを正しく行っていれば、75%の可能性があると彼らが言うとき、それらの時間の約4分の3が起こります。(または、より一般的には、同じアイデアがすべてのパーセンテージ予測に適用されます)
私たちの哲学的意見やモデルをどの程度信じているかによって、それよりも多くの意味を帰することができますが、この実用的な観点は、最も一般的な分母のようなものです。直接ではなく効果)この実用的な観点に従って予測を行います。