ネイトシルバーの予測の正確さをどのように判断できますか?


19

まず、彼は結果の確率を与えます。そのため、たとえば、米国の選挙に対する彼の予測は、現在クリントンが82%対トランプが18%です。

今、トランプが勝ったとしても、彼が勝ったはずの時間の18%だけではなかったことをどうやって知るのですか?

もう1つの問題は、彼の確率が時間とともに変化することです。7月31日、トランプとクリントンの間はほぼ50対50でした。

私の質問は、彼は同じ結果で同じ将来のイベントに対して毎日異なる確率を持っていることを考えると、その日まで利用可能な情報に基づいて予測を行った毎日の正確さをどのように測定できますか?


1
できないと思います。そのような評価を行うための黄金の基準が必要であり、私たちが持っている最高のものは、比較するのが難しい前の選挙からの観察だけです(すべての選挙にはサンプリングと投票者の行動の代替方法が含まれるので)。しかし、私は選挙調査の専門家ではないので、これをコメントではなく回答として残しています:)
タルガリリ

2
@TalGalili:スコアリングルールを使用して、少なくとも何かを言うことができます。たとえば、回帰で推定する観測不可能なパラメーターについて何かを言うことができます。
S. Kolassa-モニカの復活

これはおそらく「スコアリングルール」ですが、n個のイベントについて、発生するイベントの確率を掛けて、n番目のルートを取得して平均的な予測率を取得します(予測が0%になることはありません)。各日ごとの確率を個別の予測と見なすことができます。
バリーカーター

なぜ確率は時間とともに変化しないのですか?スポーツイベントでは、ゴールが決められたりホームランが打たれたりするたびにオッズは変わりませんか?
ロドリゴデアゼベド

8
Silverのモデルは、単なる確率の推定以上のものを提供します。50の各州の勝利確率と勝利マージンから得られる推定勝利マージンを提供します。したがって、単一のバイナリ結果を予測するだけでなく、50の異なる測定値(いくつかの(おそらくは高い)相関関係があるものの)のポイント推定値とエラーマージンが得られます。
ミカ

回答:


14

確率的予測(または既知の密度予測)は、、つまり、密度予測と観測結果をいわゆるスコアにマッピングする関数を使用評価できます。実際、予測される真の密度です。適切なスコアリングルールは、真の将来の密度によってのみ予想される最小化されたスコアリングルールです。

確率的天気予報のコンテキストでは、Brier(1950、Monthly Weather Reviewから始まる、適切なスコアリングルールが多数あります。Czado et al。(2009、Biometricsは、個別のケースのより最近の概要を示しています。Gneiting&Katzfuss(2014、Annual Review of Statistics and its Applicationは、一般的な確率的予測の概要を示します-特に、Gneitingは、適切なスコアリングルールの原因の推進に非常に積極的です。

ただし、スコアリングルールは解釈がやや難しく、実際には複数の確率的予測を比較する場合にのみ役立ちます。スコアが低い方が優れています。つまり、サンプリングのばらつきまでです。つまり、評価する予測を多数用意し、そのスコアを平均化する方が常に良いのです。

シルバーまたは他の人の予測の「更新」を含める方法は良い質問です。スコアリングルールを使用して、ある時点でのさまざまな予測の「スナップショット」を比較したり、Silverの経時的な確率的予測を調べたり、各時点でスコアを計算したりすることもできます。実際の結果が近いほど、スコアが低くなる(つまり、密度予測がますます良くなる)ことを望みます。


5
別の言い方:一意のイベントの個々の予測確率を単独で評価することはできませんが、予測機能は(スコア関数によって)評価できます。
kjetil bハルヴォルセン16年

1
「期待値が最小化されている」場合、重要な問題はアンサンブルに対する期待値だと思いますか ネイトシルバーの予測をすべて採用しますか?大統領選挙以上のものですか?ここに単一の答えがあるかどうかわかりません。異なる予測者を比較するには、一般的な一連のイベントに対する予測が合理的です。
GeoMatt22

@ GeoMatt22 -すべての選挙予測を集約する有効な場合がありので、彼は、他の選挙のための合理的に同様の方法論を持っている
DVK

11

Nate Silverの著書The Signal and the Noiseで彼は次のように書いています。

予測の最も重要なテストの1つ-それは単一の最も重要なテストであると私は主張します-キャリブレーションと呼ばれます。40%の確率で雨が降るとおっしゃいましたが、実際にどのくらいの頻度で雨が降りましたか?長期的に見ると、実際に約40%の時間で雨が降った場合、予測は十分に調整されています。代わりに、時間のわずか20パーセント、または時間の60パーセントで雨が降ったとしても、そうではありませんでした。

したがって、これはいくつかの点を上げます。まず第一に、あなたが正しく指摘しているように、あなたが予測している出来事の結果によって、単一の予測の質について本当に推論することはできません。最善の方法は、多くの予測の過程でモデルのパフォーマンスを確認することです。

考えておくべきもう1つのことは、Nate Silverが提供する予測はイベントそのものではなく、イベントの確率分布であるということです。したがって、大統領選挙の場合、彼はクリントン、トランプ、またはジョンソンがレースに勝つ確率分布を推定しています。この場合、彼は多項分布を推定しています。

しかし、彼は実際にははるかに詳細なレベルでレースを予測しています。彼の予測では、各候補者が各州で獲得する票の割合の確率分布を推定しています。したがって、3つの候補を検討する場合、これは長さ51 * 3のランダムベクトルで特徴付けられ、区間[0、1]の値を取ることで、状態内の比率の比率が1になるという制約があります。51という数字は、他の50の州+ DCであるためです(実際、一部の州では選挙大学の票を分割できるため、実際にはもう少し多いと思います)。

今、あなたは彼の予測を評価するためのデータをあまり持っていません-彼は私が知っている最後の3つの選挙の予測を提供しただけです(もっとありましたか?)そのため、実際にモデルを手に入れて、シミュレートされたデータを使用してモデルを評価できる場合を除き、彼のモデルを公正に評価する方法はないと思います。しかし、あなたが見ることができるいくつかの興味深いものがまだあります。たとえば、特定の時点、たとえば選挙から1週間外の時点で、州ごとの投票率をどのくらい正確に予測したかを見るのは興味深いと思います。たとえば、1週間、1か月、6か月、1年など、複数の時点でこれを繰り返すと、彼の予測にかなり興味深い説明を提供できます。重要な注意事項:結果は選挙内の州間で非常に相関しているため、51州* 3選挙独立予測インスタンスがあるとは本当に言えません(つまり、モデルがある州の候補者のパフォーマンスを過小評価する場合、他の州でも過小評価する傾向があります) 。でも、とにかく意味のあることをするのに十分なデータがあるように、とにかくこのように考えるでしょう。


4

予測できない単一の予測については、「このコインには60%の確率で頭に浮かぶ」という主張が1回のトスで修正に近いかどうかを判断できます。

しかし、あなたは多くの予測にわたって彼の方法論を評価することができます-特定の選挙について、彼は大統領選挙全体だけでなく、大統領の投票および他の多くの人種(家、上院、政府の投票に関する多くの予測を行いますなど)、また、彼は時間の経過とともにほぼ同様の方法論を使用します。

この評価を行うには多くの方法があります(かなり洗練された方法もあります)が、それを理解するための比較的簡単な方法をいくつか見ることができます。たとえば、勝つ確率の予測を、たとえば(50-55%、55-65%など)の帯域に分割し、その帯域の予測の割合がどのようになったかを確認できます。効果があった50〜55%の予測の割合は、平均がどこにあったかに応じて50〜55%の範囲内になります(さらに、ランダムな変動のマージン*)。

したがって、そのアプローチ(または他のさまざまなアプローチ)により、結果の分布が選挙全体または複数の選挙全体の予測と一致していたかどうかを確認できます(覚えているなら、彼の予測は本来のはずだったよりも正しかったと思います) 、これは彼の標準誤差が平均してわずかに過大評価されていることを示唆しています)。

*予測は独立していないため、それを評価する方法には注意する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.