回答:
私はコメントの他の回答に同意しなかったので、自分で回答するのは公正です。してみましょう応答(良い/悪いのアカウント)であること、そして共変量なります。X
ロジスティック回帰の場合、モデルは次のとおりです。
データの収集方法について考えます。
分布をモデル化しているだけなので、上記のモデルはどちらも問題ありません。これらは前向き研究と呼ばれるでしょう。
または:
(と特定の変数に基づいてデータを選択することもできます。これは層別化されたケースコントロール研究であり、作業がはるかに複雑であるため、ここでは説明しません)。X
疫学(Prentice and Pyke(1979)を参照)からの良い結果があり、ケースコントロール研究では、ロジスティック回帰によって最尤推定値を見つけることができ、遡及的データの予測モデルを使用しています。
これはあなたの問題にどのように関連していますか?
それは、より多くのデータを収集できる場合は、悪いアカウントを見て、ロジスティック回帰を使用してを推定できることを意味します(ただし、を調整して、表現)。追加のアカウントごとに1ドルかかるとすると、これは単にすべてのアカウントを見るよりも費用対効果が高い可能性があります。 α
しかし、その一方で、可能なすべてのデータがすでにある場合、層別化する意味はありません。単にデータを破棄し(より悪い推定値を与え)、その後を推定しようとする問題が残ります。
漸近的に、ポジティブパターンとネガティブパターンの比率は本質的に無関係です。この問題は主に、少数派クラスのサンプルが少なすぎて統計的分布を適切に説明できない場合に発生します。データセットを大きくすると、一般に問題が解決します(可能な場合)。
これが不可能な場合は、データを再サンプリングしてバランスのとれたデータセットを取得し、分類器の出力に乗法調整を適用して、トレーニングセットと操作上の相対クラス頻度の差を補正することをお勧めします。(漸近的に)最適な調整係数を計算できますが、実際には交差検証を使用して調整を調整するのが最善です(漸近的なケースではなく、実際的な有限ケースを扱っているため)。
このような状況では、私はモデルの委員会をよく使用します。モデルの委員会は、すべてが少数パターンと、少数パターンと同じサイズの多数パターンの異なるランダムサンプルでトレーニングされます。これは、多数決パターンの単一サブセットの選択における不運を防ぎます。
理論的には、「良い」と「悪い」の比率のサイズがほぼ同じである場合、よりよく区別することができます。層別サンプリング、不良ケースのオーバーサンプリング、次に重み付けを再実行して後で実際の比率に戻ることで、これに移行できる場合があります。
これにはいくつかのリスクがあります。特に、あなたのモデルは個人を「潜在的に悪い」として分類している可能性があります-おそらく、期日に光熱費を支払わないかもしれない人々。これを行う際のエラーの影響を正しく認識することが重要です。特に、モデルによって「優良顧客」の数が「潜在的に悪い」とラベル付けされる数はいくつですか。また、層別サンプリングによるモデル。
失敗の割合が低い(悪いアカウント)ことが問題になりますか?一部の人々がすでに指摘したように、サンプルデータのバランスが取れている限り、そうではありません。ただし、データのバランスが取れていない場合、考慮していない選択効果があると、データを追加してもほとんど役に立たない可能性があります。この場合、マッチングを使用する必要がありますが、バランスが欠如していると、マッチングがかなり役に立たなくなる可能性があります。別の戦略は、自然な実験を見つけようとすることです。そのため、機器変数または回帰不一致設計を使用できます。
最後に、重要なことですが、バランスの取れたサンプルがある場合、または選択バイアスがない場合は、悪いアカウントがまれであるという事実を心配するかもしれません。5%は珍しいとは思いませんが、念のため、レアイベントロジスティックスの実行に関するGary Kingの論文をご覧ください。ZeligパッケージのRでは、まれなイベントロジスティックを実行できます。
私は不正検出で働いているので、この種の問題は私にとって新しいものではありません。機械学習コミュニティは、データが不均衡であることについてかなり多くの意見を持っていると思います(クラスでは不均衡です)。したがって、すでに言及されていると思いますいくつかの完全に簡単な戦略と、いくつかのきちんとしたアイデアがあり、いくつかの方法があります。これが問題の漸近的な意味を理解するふりをするつもりはありませんが、ロジスティック回帰では常に妥当な結果が得られるようです。どこかに紙があるかもしれませんが、確かではありません。
私がそれを見ると、ここにあなたのオプションがあります:
とにかく、私はこれらの方法をすべて使用しましたが、とにかく最も簡単なのは、とにかくロジスティック回帰の問題に重みを付け直すことです。モデルを直感的にチェックするためにできることの1つは、
-Intercept/beta
これは、特定の変数ceteris paribusの決定境界(どちらかのクラスに存在する確率50%)でなければなりません。それが意味をなさない場合、たとえば、決定境界が厳密に正である変数の負の数である場合は、修正が必要なロジスティック回帰にバイアスがあります。