まれなイベントのロジスティック回帰に対処する戦略

27

限られた人口の中でまれな出来事を研究したいと思います。どの戦略が最適かわからないので、この問題に関連するヒントと参考文献をいただければ幸いです。どこから始めればいいか分からない。

私の問題は政治学の問題であり、515,843のレコードからなる有限の人口を持っています。これらは、513,334個の「0」と2,509個の「1」を持つバイナリ従属変数に関連付けられています。人口の0.49％しか占めていないため、「1」をまれなイベントとして作成できます。

「1」の存在を説明するためにモデルを構築したい約10個の独立変数のセットがあります。私たちの多くと同様に、私はKing＆Zengの2001年のまれなイベントの修正に関する記事を読みました。彼らのアプローチは、ケースコントロール設計を使用して「0」の数を減らし、インターセプトに修正を適用することでした。

ただし、この投稿では、King＆Zengの議論は、母集団全体で既にデータを収集している場合は必要ないと述べています。これは私の場合です。したがって、古典的なロジットモデルを使用する必要があります。私にとって残念なことに、有意な係数は得られますが、私のモデルは予測の観点からはまったく役に立ちません（私の「1」の99.48％を予測できません）。

King＆Zengの記事を読んだ後、ケースコントロールデザインを試したいと思い、すべての「1」で「0」の10％だけを選択しました。ほぼ同じ係数で、モデルは全母集団に適用された場合、「1」のほぼ3分の1を予測することができました。もちろん、多くの偽陽性があります。

したがって、3つの質問があります。

1）人口に関する十分な知識があるときにKing＆Zengのアプローチが不利な場合、記事で人口を知っている状況を使用して、そのポイントを証明するのはなぜですか？

2）ロジット回帰の係数が十分であり、予測力が非常に低い場合、これらの変数によって説明される変動は無意味であることを意味しますか？

3）まれなイベントに対処するための最良のアプローチは何ですか？キングのリロジットモデル、ファースのアプローチ、正確なロジットなどについて読んだ。

logistic rare-events

— ダミアン
ソース

数字はおなじみのように聞こえます...たぶん、民族紛争に関するデータセットですか？もしそうなら、それは時系列です

— クリスチャン・ザウアー14

十分近い。これは、アフリカの紛争イベントの場所に関するデータセットです。ただし、時間を考慮せずにこれらのイベントの場所を調べます。

— ダミアン14

1

ああ、民族紛争がramp延しているので、私の症例の多くはアフリカから来ました。地理学を勉強しますか？時間を考慮するのは大きな問題でしょうか？特に、特定の変数が時間とともに変化するという事実（政治システム、冷戦など）により、私はそれが本当に便利だと感じました

— クリスチャン・ザウアー14

1989年から2010年までの期間をカバーするUCDPのGEDデータセットを使用しています。紛争の発生場所に影響を与える地理的要因に興味があります。時間の変動は確かに多くのことを言いますが、答えられる質問は異なります。また、私の独立変数の多くは、異なる期間利用できない（土地被覆）か、まったく変化しなかった（地形）

— ダミアン14

1

「（私の「1」の99.48％を予測できない）。」あなたには、いくつかの任意のカットオフルールを使用しているようなこの音[例えば0.5！]分類するため、ロジスティック回帰の全体的なアイデアが出力確率であるということであるのに対し、 -それは偽陽性/陰性のバランスをとるために、しきい値を決定するためにあなた次第です

— seanv507

17

（1）「母集団の完全な知識」がある場合、予測を行うためにモデルが必要なのはなぜですか？あなたは暗黙のうちにそれらを仮想の超集団からのサンプルと考えているのではないかと思われます。こちらとこちらをご覧ください。サンプルから観察結果を捨てる必要がありますか？いいえ。King＆Zengはこれを支持していません。

[...]国際関係などの分野では、観測可能な1（戦争など）の数は厳密に制限されているため、ほとんどのアプリケーションでは、利用可能なすべての1またはそれらの大きなサンプルを収集するのが最善です。唯一の実際の決定は、同様に収集する0の数です。0の収集にコストがかからない場合は、できるだけ多くのデータを収集するほうがよいため、できるだけ多く収集する必要があります。

あなたが話していると思う状況は、「軍事化された州間紛争データでを選択する」という例です。K.＆Z。それを使用して、彼らのポイントを証明してください：この例では、研究者がすべての1と0の割合を収集して経済化しようとした場合、彼らの推定値は利用可能なすべての1と0をサンプリングしたものと似ています。他にどのように説明しますか？ $Y$

（2）ここでの主な問題は、不適切なスコアリングルールを使用して、モデルの予測パフォーマンスを評価することです。あなたのモデルが真実だったとしましょう。そうすれば、どんな個人にとっても、まれな出来事の可能性を知っていました。たとえば、来月にヘビに噛まれることです。任意の確率のカットオフを規定し、それより上のものは噛まれ、下のものは噛まれないと予測することで、さらに何を学びますか？カットオフを50％にすると、誰も噛まないと予測されるでしょう。あなたがそれを十分に低くするならば、あなたは皆が噛まれると予測することができます。だから何？モデルの賢明な適用には、誰が反毒の唯一のバイアルを与えられるべきか、またはキャリブレーション-スネークバイトのコストに比べてブーツを買う価値があるのは誰ですか？差別が必要です。

— スコルチ-モニカの復職
ソース

お返事ありがとうございます。（1）については、今後の出来事の可能性を説明するために、これまでに知っている観測のサンプルについて話す方が適切でしょうか？（2）については、スコアリングルールとは何かを理解するために少し時間を費やしました。ウィキペディアの記事を正しく理解している場合、イベントが発生すると予想される確率のさまざまな値でスコアリング関数を変更し、カットオフ値として最高スコアの確率を選択する必要があります。対数スコアリングルールを選択した場合、期待値をどのように実装するのですか？

— ダミアン14

1

R^{2}

$R^2$

@Scortchi;だから、ケースの確率が過小評価されているように思える場合、ロジスティック回帰を使用して、オペのように（たとえば、連続予測子が約10個）、観測/ケースの数を主張しますか？ありがとう

— -user2957945

3

あるレベルでは、モデルの不正確さは、単にプロセスを予測するのが難しく、変数だけでは予測できないということです。さらに説明する可能性のある他の変数はありますか？

一方、従属変数をカウント/通常の問題（競合による死傷者、競合期間など）としてキャストできる場合は、ゼロインフレカウント回帰またはハードルモデルを試すことができます。これらは、0から1の間で定義が不十分であるという同じ問題を抱えている可能性がありますが、変数が相関するいくつかの競合はゼロから引き離される可能性があります。

— グレックマクファーレン
ソース

4

（+1）良い提案。ただし、このモデルの「不正確さ」は、50％を超える多くの確率を予測できないということです。「1」が通常10％から40％の確率を予測している場合、「0」の0.5％未満と比較すると、多くのアプリケーションで強力な予測パフォーマンスと見なされます。

— Scortchi -復活モニカ

2

過半数母集団のダウンサンプリングに加えて、まれなイベントもオーバーサンプリングできますが、少数派クラスのオーバーサンプリングは過適合につながる可能性があるため、注意して確認してください。

このホワイトペーパーでは、Yap、Bee Wah、et al。「不均衡なデータセットの処理におけるオーバーサンプリング、アンダーサンプリング、バギングおよびブースティングの適用。」pdf

また、同じ問題についても説明しているため、この質問をリンクしたいと思います

— アレクセイ・グリゴレフ
ソース

0

あなたの質問は、より良い解決策を見つけるためにロジット回帰をどのように同軸化することができるかに要約されます。しかし、より良い解決策が存在することを確信していますか？10個のパラメータのみで、より良い解決策を見つけることができましたか？

たとえば、入力に積項を追加するか、ターゲット側にmax-outレイヤーを追加することにより、より複雑なモデルを試してみます（したがって、ターゲット1のさまざまな適応的に検出されたサブセットの複数のロジスティック回帰変数が本質的にあります）。

— ニール・G
ソース

ご回答有難うございます。私は間違いなく、さまざまな方法で変数を組み合わせてみます。しかし、前に、私は私のモデルの不振は、技術的な問題からか、どこか別の場所から来ているかどうかを知りたい

— ダミアン

-1

いい質問ですね。

私の考えでは、問題は推論をしようとしているのか（係数が何を伝えているのか興味があるのか）予測するのかどうかです。後者の場合、機械学習（BART、randomForest、ブーストされたツリーなど）からモデルを借りることができます。これは、ロジットよりも予測においてほぼ確実に優れた仕事をします。推論を行っており、非常に多くのデータポイントがある場合は、賢明な相互作用項、多項式項などを含めてみてください。あるいは、このペーパーのように、BARTから推論することもできます。

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

私は最近、まれなイベントでいくつかの作業を行ってきましたが、どのくらいのまれなケースが分析に影響を与える可能性があるか事前に知りませんでした。0ケースのダウンサンプリングは必須です。理想的なダウンサンプル比率を見つけるための1つの戦略は

すべての1を使用します。1を持っているとしましょう。
いくつかの値z =描画するn1の倍数を設定します。おそらく5から始めて1に減らします。
z * n1 0個の観測値を描く
サブセットデータのサンプルでモデルを推定し、データセット全体で相互検証することを確認します
興味のある関連する適合度を保存します：関心のある係数、ROC曲線のAUC、混同行列の関連する値など。
連続して小さいzに対してステップ2：5を繰り返します。おそらく、ダウンサンプリングすると、（テストセット内の）偽陰性と偽陽性の比率が減少することがわかります。つまり、より多くの1を予測し始めます。1が実際に1であるだけでなく、実際には0であるものも多くあります。この誤分類にaddle点がある場合、それは良いダウンサンプル率になります。

お役に立てれば。JS

— ジム
ソース

1

（-1）ロジスティック回帰のダウンサンプリングはまったく必要ありません。こちらをご覧ください。応答を選択すると、予想される切片のみが変更されるため、ダウンサンプリングでは推定オッズ比の精度が低下します。ロジスティック回帰は予測確率を提供します。予測確率は、さまざまな種類の誤分類のコストを考慮して計算されたカットオフを使用して分類したり、個人のランク付けに使用したり、自分の権利に興味を持っている場合に使用できます。

— Scortchi -復活モニカ

ロジスティック回帰の使用について言及しなかったことに気づくでしょうが、その代わりに、まれなケースにより適しているメソッド（ダウンサンプリングされたBARTなど）があることを示唆しています。

— ジム14

ロジスティック回帰についての質問と、それを行うときにダウンサンプリングするかどうか、そして「賢明な相互作用項、多項式項を含む」について書くとき、ロジスティック回帰について議論しているようです。そのため、ダウンサンプリングに関するアドバイスが代替方法での使用のみを目的としていることは明らかではありません。おそらく、答えを編集して明確にすることを検討してください。

— Scortchi -復活モニカ