まれなイベントをどのように予測しますか?


11

私は保険リスク予測モデルの開発に取り組んでいます。これらのモデルは、航空会社のノーショー予測、ハードウェア障害検出などの「まれなイベント」のものです。データセットを準備していたため、分類を適用しようとしましたが、否定的なケースの割合が高いため、有用な分類子を取得できませんでした。

私は高校の統計コース以外に統計とデータのモデリングの経験があまりないので、ちょっと混乱しています。

最初に思ったように、私は不均質なポアソンプロセスモデルを使用することを考えています。イベントデータ(日付、緯度、経度)に基づいて分類し、特定の場所の特定の日の特定の時間におけるリスクの可能性を適切に推定しました。

知りたいのですが、まれなイベントを予測するための方法論やアルゴリズムは何ですか?
この問題に取り組むためのアプローチとして何をお勧めしますか?

回答:


9

標準的なアプローチは「極値理論」であり、スチュアートコールズによる主題に関する優れたがあります(ただし、現在の価格はかなり間違っているようですが...極端です)。

分類法または回帰法を使用して良好な結果が得られない理由は、これらの方法は通常、データの条件付き平均の予測に依存し、極端なイベントは通常、すべて同じ方向に並ぶ「ランダムな」要因の組み合わせによって引き起こされるためです。そのため、それらはもっともらしい結果の分布の裾にあります。これは通常、条件付き平均から遠く離れています。できることは、平均値だけでなく、条件付き分布全体を予測し、しきい値を超える分布の裾を積分することにより、極端なイベントの確率に関する情報を取得することです。これは、豪雨の統計的ダウンスケーリングのアプリケーションでうまく機能することがわかりました。


1
Pythonでこの理論の実装はありますか?
user3378649 2014

申し訳ありませんが、私は(まだ)Pythonでプログラムしていないので、私はそこで助けることができません。
Dikran Marsupial 14

yx1,,xny>Y0P(y>Y0|x1,,xn)E(y|x1,,xn)y>Y0P(y>Y0|x1,,xn)

はい、それは可能ですが、最小化しているコスト関数は、分布の裾を正しく取得することに重点が置かれていないため、それが興味の対象である場合は、裾のイベントをより明示的に試してモデル化することをお勧めします。
Dikran Marsupial 14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.