現実の単一の将来のイベントの確率:「ヒラリーは75%の確率で勝つ」と言うとき、それはどういう意味ですか?


79

選挙は1回限りのイベントであるため、繰り返すことのできる実験ではありません。「ヒラリーは勝つ可能性が75%ある」という言葉は、厳密には技術的に何を意味するのでしょうか?直感的または概念的な定義ではなく、統計的に正しい定義を求めています。

私は、アマチュア統計のファンであり、議論の中で出てきたこの質問に答えようとしています。客観的な反応があると確信していますが、自分で考え出すことはできません...


4
世論調査は確率的推定を行わず、さらにコンテキストがないため、その声明は予測市場の1つ、たとえばアイオワエレクトロニックマーケットからの現在の結果に基づいているようです(tippie.uiowa.edu/iemを参照)。より詳細な説明については、「方法論」ページまたは予測市場に関する多くの論文を参照してください。
マイクハンター

13
ここでの重要な問題は、確率を一意の(つまり、1回限りの)イベントに付加できるかどうかです。この場合、「確率の高いダイスを何度も振って、 6を振ると6分の1に近づきます。しかし、単なる主観的な信念の程度は、実際には「確率」のように振る舞うべきであるという議論があります-より技術的には、確率の公理に従うべきです。したがって、この質問に対する哲学的アプローチは、いわゆるオランダ語の本の議論に言及するかもしれません。
シルバーフィッシュ

19
75%の確率で発生するものの75%が発生します。
user253751

2
ステートメントのソースに依存します。場合によっては、たとえば、あるモデルの下での確率を​​指します(たとえば、fivethirtyeight.comでの確率評価のように)が、他の場合では、他のコンテキストに関連し、別の何かを意味する場合があります。
-Glen_b

3
私はそれから、クリントンの予想結果が投票で勝つことを読みましたが、数字の信頼区間は実際の結果が予想結果と同じではない可能性が25%であるようなものです。
JimmyB

回答:


60

これまでに提供されたすべての回答は役立ちますが、統計的に非常に正確ではないため、それを試してみましょう。同時に、私はこの選挙に焦点を当てるのではなく、一般的な答えをするつもりです。

クリントンが選挙で勝利したような現実の出来事についての質問に答えようとするとき、心に留めておくべき最初のことは、urからさまざまな色のボールを取り出すような数学の問題とは対照的です」質問に回答するためのユニークで合理的な方法であり、したがってユニークで合理的な答えではありません。「ヒラリーは75%の勝利の可能性がある」とだけ言って、選挙のモデル、推定に使用したデータ、モデル検証の結果、背景の仮定、 「一般投票や選挙投票などを参照している場合、彼らはその意味を実際には伝えておらず、予測が良いかどうかを評価するのに十分な情報を提供していません。それに

それでは、統計学者がクリントンのチャンスを推定するために使用する手順は何ですか?確かに、彼らはどのように問題を組み立てるか?高いレベルでは、確率自体のさまざまな概念がありますが、その中で最も重要なのは、頻度主義とベイジアンです。

  • frequentistビュー、確率のように、同じ実験の多くの独立した試行を超えるイベントの限界周波数を表し、大数の法則(強いまたは弱いです)。特定の選挙はユニークなイベントですが、その結果は、歴史的および仮説的なイベントの無限の人口から引き付けられたものと見ることができます。これは、すべてのアメリカ大統領選挙、または2016年の世界中のすべての選挙、または何か他のものを含む可能性があります。クリントンの勝利の75%の可能性は、が独立した選挙の結果のシーケンス(0または1)であり、モデルに関する限り、この選挙と完全に同等であることを意味します。のX 1X 2バツ1バツ2 nが無限大になるにつれて確率が0.75に収束します。バツ1バツ2バツnn

  • ベイズビュー、確率は(または実際の信念、あなたがsubjectivistベイズしているかどうかに依存してもしなくてもよい)、信憑性や信頼性の度合いを表しています。クリントンの勝利の75%の確率は、彼女が勝つ75%の信頼できることを意味します。信頼性は、(モデルまたはアナリストの既存の信念に基づいて)確率の基本法則(ベイズの定理のような、および共同事象の確率がいずれかの限界確率を超えることができないという事実)の範囲内で自由に選択できますコンポーネントイベント)。これらの法律を要約する1つの方法は、イベントの結果に賭け、ギャンブラーにあなたの信用度に応じてオッズを与えると、ギャンブラーはオランダの本を作成できないことです。つまり、イベントが実際にどのように機能したとしてもお金を失うことを保証する一連の賭けです。

確率について頻繁に見ようとベイジアンの見方とを問わず、データを分析して確率を推定する方法については、まだ多くの決定を下す必要があります。おそらく最も一般的な方法は、線形回帰などのパラメトリック回帰モデルに基づいています。この設定では、アナリストはパラメーターと呼ばれる数値のベクトルによってインデックスが付けられた分布のパラメトリックファミリー(つまり、確率測定)を選択します。各結果は、この分布から抽出された独立したランダム変数であり、共変量に従って変換されます。共変量は、アナリストが結果を予測するために使用する既知の値(失業率など)です。アナリストは、データと最小二乗などのモデル適合の基準を使用して、パラメーター値の推定値を選択しますまたは最尤法。これらの推定値を使用して、モデルは結果の予測を生成できます(おそらく単一の値、場合によっては間隔は共変量の任意の値またはその他の値のセット)を生成できます。特に、選挙の結果を予測できます。パラメトリックモデルの他に、ノンパラメトリックモデル(つまり、無限に長いパラメーターベクトルでインデックス付けされた分布のファミリによって定義されるモデル)、およびデータがまったく生成されたモデルを使用しない予測値を決定する方法もあります。 、最近傍分類子ランダムフォレストなど

予測を考え出すことは1つのことですが、予測が良いかどうかをどのように知るのですか?結局のところ、十分に不正確な予測は役に立たないよりも悪いです。予測のテストは、モデル検証の大規模なプラクティスの一部です。つまり、特定のモデルが特定の目的に対してどれだけ優れているかを定量化します。予測を検証する2つの一般的な方法は、交差検定と、モデルを近似する前にデータをトレーニングとテストのサブセットに分割することです。データに含まれる選挙が2016年の米国大統領選挙を代表する程度まで、予測の検証から得られる予測精度の推定値は、2016年の米国大統領選挙の予測がどれほど正確かを示します。


私はこの答えがとても好きで、2つの共通の視点が私が期待していたものだと指摘しました。少ないほうがもっと良かったと思う。
マイクワイズ

4
すでにいくつかの簡潔な答えがあります。私はもっ​​と完全な試みをしたかったのです。
-Kodiologist

7
私は、頻繁な見方が受け入れられるとは思わない。選挙のようなイベントは本質的にランダムではありません。まったく同じ条件で選挙を100万回繰り返した場合、同じ結果が100万回得られます。条件に関する不完全な知識を補うために、人為的にモデルにランダム性を導入しています。
ステファン

6
それは統計学の哲学において議論の余地のない問題ではありません。私自身の見解では、文字通り真のモデルはありませんが、一部のモデルは他のモデルよりも有用です。
-Kodiologist

32

統計学者が二進法の結果を予測したい場合(ヒラリーの勝利対ヒラリーの勝利はありません)、彼らは宇宙が想像上のコインを投げていると想像します-ヘッズ、ヒラリーの勝利。しっぽ、彼女は負けます。一部の統計学者にとって、コインは結果に対する信念の程度を表しています。他の人にとって、コインは、同じ状況下で何度も選挙をやり直した場合に何が起こるかを表しています。哲学的に言えば、数字をドラッグする前であっても、不確実な将来の出来事について話すときの意味を知ることは困難です。しかし、数字の出所を見ることができます。

選挙のこの時点で、一連の投票結果があります。これらの形式は次のとおりです。たとえば、オハイオ州では1000人が投票されました。40%がトランプをサポートし、39%がヒラリーをサポートし、21%が未定です。民主党、共和党(およびその他の微量党)の各候補者に対して、以前の選挙から同様の投票が行われます。前の年には、成果もあります。たとえば、7月の投票で40%の票を獲得した候補者が、以前の10回の選挙のうち8回勝利したことをご存知かもしれません。または、結果は、10回の選挙のうち7回で、民主党がオハイオ州を占領したと言うかもしれません。オハイオ州とテキサス州の比較を知っているかもしれません(おそらく彼らは同じ候補者を選ばないでしょう)-未決定の投票がどのように決裂するかについての情報を持っているかもしれません-そして、候補者が「急増」し始めたときに何が起こるかの興味深いモデルを持っているかもしれません。

したがって、前の選挙を考慮に入れると、選挙コインはすでに何度も投げられていると言えます。同じ選挙は4年ごとに再実施されているわけではありませんが、そういうふりをすることはできます。このすべての情報から、投票者は複雑なモデルを作成して、今年の結果を予測します。

ヒラリーの75%の勝率は、「今日」の私たちの知識の状態に関連しています。投票結果のある候補者は、彼女がいる州では「今」、選挙期間中の投票の傾向を考えると、4年のうち3選挙年で選挙に勝つと言っています。モデルは8月の世論調査の状態に基づいているため、現在、彼女の勝利の確率は変わっています。

米国では、歴史的に統計的に多数の選挙が行われていませんが、投票が始まって以来ずっと少ないです。また、たとえば70年代のポーリングトレンドがまだ当てはまるとは限りません。だから、少し危険です。

一番下の行は、ヒラリーは彼女の就任演説で作業を開始する必要があるということです。


1
彼女はまだ最初に通過する指名受け入れスピーチを持っています。
WBT

26

統計学者がこれを言うとき、彼らは勝利のマージンまたは投票のシェアを言及していません。彼らは選挙のシミュレーションを多数実行し、各候補者が獲得する投票の割合を数えています。多くの堅固な大統領モデルについて、各州の予測があります。いくつかは近くにあり、レースが複数回実行される場合、両方の候補者が勝つことができます。予測間隔は0の勝利のマージンと何度も重複するため、バイナリ応答ではなく、シミュレーションが何を期待するかをより正確に示します。

FiveThirtyEightの方法論のページは、フードの下にあるものをもう少し理解するのに役立ちます:http : //fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/


17

この質問に非常に関連するフリーコノミクスラジオのエピソードがあります(一般的に、選挙の詳細ではありません)。その中で、スティーブン・ダブナーは、米国の防衛機関からのプロジェクトのリードにインタビューし、世界的な政治的出来事を予測する最良の方法を決定します。

それはまた、ほとんどの人がするよりも政治についてもっと知るのに大いに役立ちます。うまくいくためにはほとんど必要な条件だと思います。しかし、彼らは十分ではありません。なぜなら、非常に頭が良くて、気の近い人がたくさんいるからです。非常に賢く、ユニークなイベントに確率を付けることは不可能だと思う人がたくさんいます

その後、彼らは何をすべきではないかを議論します

これらのタイプの質問をすると、ほとんどの人は「どのようにして確率をユニークな歴史的出来事と思われるものに割り当てることができますか?」と言います。私たちが本当にできる最善のことは、あいまいな表現を使用し、あいまいな表現を予測することです。次のようなことを言うことができます。これが起こる可能性があります。そして、何かが起こる可能性があると言うことは、多くを言うことではありません。

次に、エピソードは、最も成功した予測者がこれらの確率を推定するために使用した方法論に入り、非公式のベイジアンアプローチを提唱します

ですから、アフリカの独裁者や国についても何も知らずに、この独裁者のことは聞いたことがありません。この国のことは聞いたことがありません。基本料金を見て、それは私の最初の予測です。それから質問は、「私は何をしますか?」です。それから、私は国と独裁者について何かを学び始めます。そして、問題の独裁者が91歳であり、前立腺癌を進行していることを知った場合、確率を調整する必要があります。そして、首都に暴動があり、沖に軍事クーデターの兆候があることを知った場合、再び確率を調整する必要があります。しかし、基本レートの確率から開始することは、少なくとも最初に妥当性の球場にいることを保証する良い方法です。

このエピソードは、「未来を予測するのにそれほどひどくならない方法」と呼ばれ、非常に楽しい話です。この種のことに興味があるなら、ぜひチェックしてみてください!


3
+1。で古いポスト私が実行している例を挙げて、このアプローチをスケッチ。ベイジアン対フリークエンティストの議論に関して中立的な方法でそれを行うことを目指し、ベイジアン手法が確率の推定、予測、または一見ユニークなイベントに関する有用な情報を提供する唯一の手段ではないことを示しました。そのような分析で確率がどのような役割を果たしているかを正確に特定し、暗黙的に確率を正確に推定する必要性を強調することを試みました(単に「情報を提供しない」方法で確率を構成するのではなく)。
whuberの

1
このスレッドに関連するのは、いわゆる「ホットハンド」論争です。ギャンブラーとホットハンドの誤 aに驚いたというタイトルのユニークな論文で 、ミラーとサンジュロは、「ホットハンド」の存在を否定する上で文献が何十年もの間間違っているという説得力のある証拠を提供しています。歴史的文献は、同種のベルヌーイ試行の無条件の確率に基づいていましたが、同じ試行の有限シーケンスの条件付き確率は、ホットハンドの直感を確認します。選挙についても同様に、条件付き確率的結果のシーケンスの結果としてこの選挙を扱うことができます。
マイクハンター

15

2016年の選挙は確かに1回限りのイベントです。しかし、コインの反転やダイスのトスも同様です。

候補者が勝つ可能性が75%あることを知っていると主張する場合、結果を予測していません。彼らは、ダイの形状を知っていると主張しています。

選挙の結果がこれを無効にすることはできません。しかし、75%に到達するために使用するモデルが多くの選挙に対してテストされる場合、予測値が限られていることが示される可能性があります。または、貴重なものとして生まれるかもしれません。

もちろん、価値のある予測因子が候補者に知られると、候補者は行動を変えることができ、モデルを無関係にすることができます。または、すべてが不均衡に吹き飛ばされることがあります。アイオワで何が起こるか見てください。


7
「ダイの形状を知っていると主張している」+1
WBT

@WBT、いいえ、それは完全に間違ったメッセージです。75%は、サイコロのようなランダムなイベントを管理する(推定される)(物理的な)確率とは何の関係もありません。75%の確実性があることを意味します
イニスフリー

1
@innisfreeメタファーはまだ有用です。私は他の回答に対するあなたのコメントであなたが同意しないことを認めていますが(そして別の回答を投稿することは歓迎します)、75%は結果確率分布が4つの(ピラミッド型の)ダイの分布と等しいと主張する人です四辺のうち「ヒラリー」とラベル付けされています。「形状」にラベルも含めると、メタファーの流れが少し良くなります。
WBT

6

「ヒラリーは勝つ可能性が75%である」と誰かが言うとき、ヒラリーが勝った場合に25ドルを獲得し、ヒラリーが勝たなかった場合に75ドルを獲得する賭けを提供した場合、彼らはそれを考慮します公正な賭けであり、どちらの側も好む特別な理由はありません。

これらの割合は通常、予測市場からのものです。これらは、利用可能なすべての情報を要約し、通常、ほとんどのイベントを予測する分析方法よりも優れています。

予測市場は、特定のイベントが発生するかどうかに賭ける機会を人々に提供します。利益は提案の両側の人々の間の交渉によって設定されます。一般的に、命題について特別な知識を持っている人は、その知識を活用してお金を稼ごうとしますが、それはその情報を漏らすという副作用があります。

たとえば、特定の有名人が今年末まで生き残るかどうかについての予測市場があるとします。大衆は有名人の年齢を知っており、誰もが年末までに有名人が死ぬ基本的な確率を調べることができます。それがすべてわかっていれば、人々はこの命題のどちらか一方に、ほぼその確率で喜んで賭けることを期待するでしょう。

今、誰かが有名人の健康状態が悪いことを知っていたが、それを隠していたとします。あるいは、有名人の家族が心臓病の病歴を持っていることを知っていたと言う人もいます。その情報を持っている人々は、その命題の片側を取る気があり、買い手が株価を押し上げ、売り手がそれを押し下げるようにレートを調整します。

言い換えれば、オッズが低すぎる場合、利益を求めている人々はそれらを押し上げます。そして、彼らが高すぎるとき、利益を求めている人々は彼らを押し下げます。賭けの価格は最終的に、すべての価格が物事のコストと価値に関する集合的な知恵を反映するように、発生する命題のオッズに関する全員の集合的な知恵を反映します。


2
他の回答がベットに言及していないのは残念です。これは基本的に確率とは何かの定義であり、誰もが忘れたように見えます。
マイケルルバルビエグリューネ

2
@MichaelGrünewald:まったくそうではありません。本当の確率(ルーレットホイールやカードゲームに関係する確率など)を反映したギャンブルのオッズを持つことは可能ですが、それはそうではありません。誰が選挙で勝つかについての賭けのオッズは株価に似ています...彼らは主に人々の気持ちに
ロバートハーベイ

@RobertHarveyポイントは、確率が主観的な信念を表しているということです(期待という言葉は私たちにそれを思い出させるべきです)。そう、私はモデルを構築し、最も賢い方法を使用して情報を集約することができますが、最終的に、私が述べることができるのは「アクセスできるすべての利用可能な情報を与えれば、これらの賭けのオッズは公平だと思います」です。「真の確率」などというものはありません。確率計算は、結果として信念を計算するのに役立ちます。多分「真の確率」を定義したいと思わない限り。
マイケルルバルビエグリューネ

@RobertHarveyあなたはすべてが人々の気持ちに基づいていると主張することができます。数学的な議論をするなら、それは正しいと思うからです。人々は、彼らが望む任意の方法、arbitrary意的または厳格な方法で、提案の賭けにどのオッズを受け入れるかを自由に決定できます。良い予測方法では、最終結果が群衆の知恵を伝える十分な情報を持つ人々がいます。
デビッドシュワルツ

4

重要な質問は、一意のイベントに確率をどのように割り当てるかです。答えは、一意ではなくなるモデルを開発することです。より簡単な例は、大統領が就任中に死亡する確率は何だと思いますか?大統領を特定の年齢の人、特定の年齢と性別の人と見なすことができます。など...各モデルは異なる予測を提供します...先験的に正しいモデルはありません。どのモデルが最も適切かを選択するのは統計学者次第です。


1
「正しい」チェックマークの上に長い回答を付けましたが、これもとても気に入っています。大統領の職務で死ぬ確率に問題を移すことは、それを明らかにします。みなさん、思いやりのある配慮をありがとう。
ピトサラス

1
ユニークなイベントの結果を含む任意の仮説に確率(妥当性の程度)を割り当てるためのフレームワーク(ベイズ統計)
innisfree

3

投票が非常に厳しい競争を示していることを考えると、75%は正確である場合とそうでない場合があります。

あなたはそれがどういう意味なのかを尋ねているのであり、彼らがこれをどのように計算したのかではない。(クリントンと彼女の主要な対戦相手以外の誰かを無視した場合)彼女が勝った場合、4 ドルのリターンを得るには3 ドルを賭ける必要があるということです。または、他のランナーに1 ドルの賭けをすると、彼が勝った場合は4ドルを返します。

私の答えは、どちらかの候補者が勝つための実際のチャンスと、人々(ギャンブラー、またはオッズ)が期待しているものとを少し区別します。このような数字、たとえば75%を見ると、オッズメーカーの数字が表示され、49〜48%を見ると、投票結果が表示されていると思います。


2
そして、質問者は統計的な意味について尋ねているので、これは通常選挙では起こりませんが、52/48などの「きつい」結果を予測できる可能性があることに注意してください。オッズのためにベガスへ。たとえば、オリンピックの男子100m決勝戦では、勝利のマージンは4%未満になりますが、統計モデルでは勝者になる可能性があります。その52/48の信頼区間がすべてです。これは、選挙を予測するときに十分に大きく、通常 75%の確率に変換されません。
スティーブジェソップ

1
JoeTaxpayerは非常に有用で実用的な(その用語の哲学的な意味での)視点です。それはやや不正確な意思決定理論の提示です。パリミューチュエルのベッティングオッズが設定される方法です。他の特徴は、「群衆の知恵」または「市場ベースの価格」かもしれません。それは本当に質問に対処します、その情報で私何ができるでしょう(私はそれを信じると仮定します。)
DWin

1
私は選挙大学の言及を見ていません。POTUSは選挙大学を通じて選出されます。したがって、クリントンが選挙大学の51%の51%だけを獲得し、残りのどれも獲得できなかった場合、人気投票のわずか26%で勝利します。したがって、一般的に選挙大学を考慮していない投票結果は時々間違っています。
MikeP

2
@MikePの投票では、勝つ可能性は報告されませんが、投票結果も報告されます。勝つ可能性を報告するモデルは、さまざまな州の世論調査からデータを引き出し、選挙大学を考慮に入れます-少なくとも、立派なものは考慮します。
ホッブズ

2

彼らがそれを正しく行っていれば、75%の可能性があると彼らが言うとき、それらの時間の約4分の3が起こります。(または、より一般的には、同じアイデアがすべてのパーセンテージ予測に適用されます)

私たちの哲学的意見やモデルをどの程度信じているかによって、それよりも多くの意味を帰することができますが、この実用的な観点は、最も一般的な分母のようなものです。直接ではなく効果)この実用的な観点に従って予測を行います。


いいえ、意味は明らかに認識論的/ベイジアン、75%の信念です。誰も選挙結果がランダム変数である擬似実験を想像していません。
イニスフリー

@Innisfree:半信半疑の75%程度が間違っていることが判明した場合、自分の信念の測定方法を再調整する必要があります!想像された実験が関与する必要はありません。あなたの信念が過去にどれだけ頻繁に現実に変換されたかの客観的な尺度です。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.