ロジスティック回帰の柔軟なバージョン


8

私は、どちらかのグループ(70対10,000)のデータポイントの数に大きな違いがあるロジスティック回帰を適合させようとしています。私の統計学者の友人は、これはロジスティック回帰の既知の問題であり、そのような種類の数値ではデータをオーバーフィットし、基本的に機能しないことを教えてくれました。データをビニングしてモデルと比較すると、これが間違いなく事実であることは明らかです。

この種類のバイナリ応答データをフィッティングするためのより良い/より柔軟な方法を誰かが知っているのだろうか?

(ちなみに私は統計家ではないので、気楽にやってください!)


2つのグループとは、バイナリ応答によって定義されたグループを意味しますか?もしそうなら、分類問題のようなロジスティック回帰問題を考える必要があります。1つのグループには、カテゴリを予測する変数を見つけるための多くの情報があります。ただし、2番目のグループには70個の観測値しかないため、2番目のグループが最初のグループと異なる点を確認するための情報は少なくなります。このタイプの問題では、グループ2のサンプルサイズが小さいことが問題であり、不均衡ではありません。700対100,000の場合、不均衡は同じですが、問題はそれほど難しくありません。
マイケルR.シェニック

2
したがって、過剰適合問題は、データが少なすぎて機能が多すぎるという古典的な問題だと思います。オーバーフィットの唯一の解決策は、特徴の数を減らすか、サンプルサイズを増やすことです。別の方法論を見つけることは役に立ちません。
マイケルR.シェニック

「2つのグループとは、バイナリ応答によって定義されるグループを意味しますか?」- はい!
Stacey_bio

これを分類問題として扱う場合、どこから始めればよいかについての提案はありますか?誰もが知っている可能性がある、私が使用できる確立された方法はありますか?ありがとう!
Stacey_bio

基本的に私が探しているのは、この種のデータに適した「確率的バイナリ分類」の方法です。何らかの確立された方法(統計的またはその他の方法)があったらすばらしいでしょう
Stacey_bio

回答:


4

これが機能しないのは、グループのサイズの不均衡からではなく、グループの1つの小ささに起因します。より大きなグループのダウンサンプリングは問題ありませんが、過剰適合には役立ちません。(ところで、rがダウンサンプリング比である線形項に±log(r)を追加することにより、ダウンサンプリングされたモデルからの予測を修正する簡単でエレガントな方法があります。)

過剰適合が本当に問題である場合、変数の数を減らすか、モデルを正則化する必要があります。


4

この問題は、ロジスティック回帰、サポートベクトル分類、ナイーブベイズ分類など、ほとんどすべての分類アプローチで発生します。2つの絡み合った問題があります。

  • 不均衡なデータセットでトレーニングされたモデルは、過半数のクラスを支持するバイアスを獲得するという意味で過剰適合します。

  • 同程度の不均衡があるテストデータセットでこのモデルを評価する場合、分類の正確さは、非常に誤解を招くパフォーマンス指標になる可能性があります。

これらの問題に関する文献には、3つのソリューション戦略が含まれています。

  1. ラージクラスをアンダーサンプリングするか、スモールクラスをオーバーサンプリングすることで、トレーニングセットのバランスを復元して、最初からバイアスが発生しないようにすることができます(@grotosによる応答を参照)。

  2. または、誤分類のコストを変更して、モデルがそもそもバイアスを取得しないようにすることもできます。

  3. 追加の安全策は、精度をいわゆるバランスのとれた精度に置き換えることです。これは、クラス固有の精度の算術平均、として定義されますここで、とは、それぞれ正の例と負の例で得られた精度を表します。分類器がどちらのクラスでも同等に良好に機能する場合、この項は従来の精度(つまり、正しい予測の数を予測の総数で割ったもの)まで減少します。対照的に、従来の精度が偶然以上の場合φ:=12π++ππ+π分類器は不均衡なテストセットを利用するため、必要に応じて、バランスの取れた精度が偶然に低下します(関連する質問に対する私の回答から取った下のスケッチを参照)。

精度とバランスの取れた精度

以前の回答で詳述したように、上記のアプローチのうち少なくとも2つを組み合わせて検討することをお勧めします。たとえば、少数派クラスをオーバーサンプリングして、分類子が過半数クラスに有利なバイアスを獲得するのを防ぐことができます。これに続いて、分類子のパフォーマンスを評価するときに、精度をバランスのとれた精度で置き換えることができます。


0

応答の分布を意味しますか?つまり、「はい」が70ケース、「いいえ」が10000ケースありますか?

もしそうなら、それはデータマイニングアプリケーションの一般的な問題です。1,000,000のインスタンスを持つデータベースを想像してみてください。約1,000のケースのみが「はい」です。1%以下の応答率は、ビジネス予測モデリングでは一般的です。そして、特に与えられたモデルの安定性を評価することで、大きな問題であるモデルをトレーニングするためにサンプルを選択する場合。

私たちがすることは、異なる比率のサンプルを選ぶことです。前述の例では、「YES」のケースは1000件、たとえば「NO」のケースは9000件です。このアプローチにより、より安定したモデルが得られます。ただし、実際のサンプル(1,000,000行のサンプル)でテストする必要があります。

私はロジスティック回帰、決定木などのデータマイニングモデルでテストしました。しかし、「適切な」[1]統計モデルでは使用していません。

「統計のオーバーサンプリング」として検索できます。最初の結果はかなり良いです:http : //www.statssa.gov.za/isi2009/ScientificProgramme/IPMS/1621.pdf

[1]「データマイニングではない」という意味の「適切な」。


0

異なるクラスの例の相対的な比率に影響を受けない分類手法が必要な場合、サポートベクターマシンには、決定木と同様にその特性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.