Nate Silverの著書The Signal and the Noiseで彼は次のように書いています。
予測の最も重要なテストの1つ-それは単一の最も重要なテストであると私は主張します-キャリブレーションと呼ばれます。40%の確率で雨が降るとおっしゃいましたが、実際にどのくらいの頻度で雨が降りましたか?長期的に見ると、実際に約40%の時間で雨が降った場合、予測は十分に調整されています。代わりに、時間のわずか20パーセント、または時間の60パーセントで雨が降ったとしても、そうではありませんでした。
したがって、これはいくつかの点を上げます。まず第一に、あなたが正しく指摘しているように、あなたが予測している出来事の結果によって、単一の予測の質について本当に推論することはできません。最善の方法は、多くの予測の過程でモデルのパフォーマンスを確認することです。
考えておくべきもう1つのことは、Nate Silverが提供する予測はイベントそのものではなく、イベントの確率分布であるということです。したがって、大統領選挙の場合、彼はクリントン、トランプ、またはジョンソンがレースに勝つ確率分布を推定しています。この場合、彼は多項分布を推定しています。
しかし、彼は実際にははるかに詳細なレベルでレースを予測しています。彼の予測では、各候補者が各州で獲得する票の割合の確率分布を推定しています。したがって、3つの候補を検討する場合、これは長さ51 * 3のランダムベクトルで特徴付けられ、区間[0、1]の値を取ることで、状態内の比率の比率が1になるという制約があります。51という数字は、他の50の州+ DCであるためです(実際、一部の州では選挙大学の票を分割できるため、実際にはもう少し多いと思います)。
今、あなたは彼の予測を評価するためのデータをあまり持っていません-彼は私が知っている最後の3つの選挙の予測を提供しただけです(もっとありましたか?)そのため、実際にモデルを手に入れて、シミュレートされたデータを使用してモデルを評価できる場合を除き、彼のモデルを公正に評価する方法はないと思います。しかし、あなたが見ることができるいくつかの興味深いものがまだあります。たとえば、特定の時点、たとえば選挙から1週間外の時点で、州ごとの投票率をどのくらい正確に予測したかを見るのは興味深いと思います。たとえば、1週間、1か月、6か月、1年など、複数の時点でこれを繰り返すと、彼の予測にかなり興味深い説明を提供できます。重要な注意事項:結果は選挙内の州間で非常に相関しているため、51州* 3選挙独立予測インスタンスがあるとは本当に言えません(つまり、モデルがある州の候補者のパフォーマンスを過小評価する場合、他の州でも過小評価する傾向があります) 。でも、とにかく意味のあることをするのに十分なデータがあるように、とにかくこのように考えるでしょう。