機械学習で不均衡なデータが本当に問題になるのはいつですか?


53

ロジスティック回帰SVM決定木バギング、およびその他の類似の質問を使用する際に、不均衡なデータについて複数の質問がありました。これが非常に人気のあるトピックです。残念ながら、各質問はアルゴリズム固有であるようで、不均衡なデータを扱うための一般的なガイドラインは見つかりませんでした。

不均衡なデータを扱うMarc Claesenの回答の1つを引用

(...)学習方法に大きく依存します。ほとんどの汎用アプローチには、これに対処する1つ(または複数の)方法があります。

しかし、データの不均衡について正確に心配する必要があるのはいつですか?主に影響を受けるのはどのアルゴリズムで、どのアルゴリズムを処理できますか?データのバランスを取るためにどのアルゴリズムが必要ですか?このようなQ&Aサイトでは、各アルゴリズムについて議論することは不可能であることを認識しています。むしろ、いつ問題になるかについての一般的なガイドラインを探しています。



@MatthewDruryありがとう、これは興味深い質問ですが、私見では、範囲が異なります。私が求めているのは、これが本当に問題である場合のガイドラインです。確かに答えるなぜ答えるに質問リードをする際の質問に、私はのために正確な答えを探していたときに質問。
ティム

9
けっこうだ!同感です。これに関する「文学」は、実際に解決すべき問題があることをあなたに納得させることなく、または問題がどのような状況で発生するかを告げることなく、問題を修正する方法に関するすべてのようです。私にとってこのテーマの最もイライラする部分の1つです。
マシュードゥルーリー

2
@MatthewDruryそれはまさに問題です!
ティム

1
メソッドの総調査は、SEの質問の範囲内ではありません。質問を絞り込みますか?
AdamO

回答:


29

直接的な答えではありませんが、統計文献では、不均衡なデータに対する偏見の一部に歴史的なルーツがあることに注意する価値があります。

多くの古典的なモデルは、特に実験計画に密接に関連するANOVAのようなメソッド(統計的手法を開発するための伝統的/独自の動機)のバランスのとれたデータの仮定の下できれいに簡素化します。

しかし、統計的/確率的算術は、不均衡なデータで非常にく、非常に速くなります。コンピュータが広く採用される前は、手作業による計算が非常に広範囲であったため、不均衡なデータのモデルを推定することは事実上不可能でした。

もちろん、コンピューターは基本的にこれを非問題にしています。同様に、大規模なデータセットのモデルを推定し、高次元の最適化問題を解決し、50年前のように機能的に不可能であった分析的に難解な結合確率分布からサンプルを引き出すことができます。

それは古い問題であり、学者は問題に取り組むのに多くの時間を費やしました...一方、多くの応用問題はその研究を上回った/不要にしましたが、古い習慣は激しく死にます...

追加して編集:

私は出てこなかったと言うだけで、それを言うだけです。不均衡なデータを使用することで低レベルの問題はありません。私の経験では、「不均衡なデータを回避する」というアドバイスは、アルゴリズム固有のものか、継承された知恵です。私は、一般に、不均衡なデータが適切に指定されたモデルに概念的な問題をもたらさないというAdamOに同意します。


4
私はあなたの主張を理解しているようですが、あなたの施設にはそれらを支持する議論がありません。偏見と、機械学習にどのような影響を与えたかについて、いくつかの議論や例を挙げていただけますか?
ティム

1
それはあなたがほとんど真で言う一方で、ある ANOVAのような方法がバランスの取れたデータと、より堅牢であることも場合、非正規は例えば、少ないバランスの取れたデータに問題のあります。しかし、私はこのすべてが...この質問の意図に直交していると考えている
HalvorsenのはKjetil B

7
出てこなかったと言うだけで、それを言うだけです。不均衡なデータを使用しても低レベルの問題はありません。私の経験では、「不均衡なデータを回避する」というアドバイスは、アルゴリズム固有のものか、継承された知恵です。私は、一般に、不均衡なデータは明確に指定されたモデルに概念的な問題をもたらさないというAdamOに同意します。
ヘンリー

1
@ M.HenryL。このコメントは、完全性のために回答に追加する価値があります。
ティム

16

WLOGでは、「データの希薄性」というより微妙な概念や小さなセル数ではなく、単一の要因で不均衡に集中できます。

学習に焦点を当てていない統計分析で、傾向スコアを使用して小さなグループを大きなグループに一致させる、同等またはそれ以上のパワーが得られることがよくあります。これは、マッチングが、グループメンバーシップの決定要因の「バランスをとる」という観点で交絡因子の調整と同様の目的を果たし、交絡効果をブロックするためです。多変量解析で調整する可能性のある交絡因子の数の根拠は、サンプルサイズによって異なります。いくつかの経験則では、10〜20回の観測ごとに1つの変数を使用します。不均衡なデータでは、データが十分に大きいと単純に信じていますが、少数の人々がより稀な条件を持っているため、分散インフレは電力を大幅に減少させます。実際、あなたは調整しすぎています。

したがって、少なくとも回帰では(ただし、すべての状況で疑わしい)、不均衡なデータの唯一の問題は、サンプルサイズが事実上小さいことです。まれなクラスの人数に適した方法がある場合、そのメンバーシップの割合が不均衡であれば問題はありません。


13

不均衡なデータは、アプリケーションによっては問題になります。たとえば、Aが99.99%、Bが0.01%の確率でデータが発生し、特定の結果を予測しようとすると、アルゴリズムは常にAと言うでしょう。これはもちろん正しいことです。メソッドが99.99%より優れた予測精度を得る可能性は低いです。ただし、多くのアプリケーションでは、予測の正確さだけでなく、Bが時々発生する理由にも関心があります。これは、不均衡なデータが問題になる場所です。99.99%よりも正確に予測できることをメソッドに納得させるのは難しいためです。方法は正しいですが、質問には適していません。したがって、不均衡なデータを解決することは、基本的に、正確な結果ではなく興味深い結果を得るために意図的にデータにバイアスをかけることです。

一般に、3つのケースがあります。

  1. 正確な予測に純粋に興味があり、データが補完的であると考える場合。この場合、99.99%の正確な予測の栄光に浴し、まったく修正する必要はありません:)。

  2. あなたは予測に興味がありますが、データは公正なサンプルからのものですが、どういうわけかいくつかの観測を失いました。完全にランダムな方法で観測を失った場合でも、大丈夫です。偏った方法でそれらを失ったが、どのように偏ったのかわからない場合は、新しいデータが必要になります。ただし、これらの観測が1つの特性に基づいてのみ失われる場合。(たとえば、AとBで結果をソートしましたが、他の方法ではなく、Bの半分を失いました)Ypuはデータをブートストラップできます。

  3. 正確なグローバル予測には関心がありませんが、まれなケースにのみ関心があります。この場合、データをブートストラップするか、他のケースのウェイデータをスローする十分なデータがある場合、そのケースのデータを膨らませることができます。これはデータと結果にバイアスをかけるため、チャンスとそのような結果は間違っていることに注意してください!

一般的に、それは主に目標が何であるかに依存します。不均衡なデータに苦しむ目標もあれば、そうでない目標もあります。それ以外の場合、一般にひどい結果が得られるため、すべての一般的な予測方法はそれに苦しみます。


7
モデルを確率的に評価すると、この話はどのように変わりますか?
マシュードゥルーリー

@MatthewDrury元のモデルの確率は、ケース1および3でほとんど正しいです。問題は、非常に大きなデータセットBのみでAから正しく分離可能になり、Bの確率がゆっくりと実際の値に収束することです。例外は、BがAから非常に明確に分離されている場合、またはAから完全にランダムに分離されている場合、確率はそれぞれほぼ即座に収束するか、収束しないことです。

@zenむしろ、ロジスティック回帰の脆弱性が少ないことに同意しません。ロジスティック回帰はデータの不均衡に対して非常に脆弱であり、小さなサンプルバイアスを作成し、対数オッズ比は2の係数に向かう傾向があります。条件付きロジスティック回帰は、バイアスなしで同じORを推定する代わりになります。
AdamO

@AdamOはい、ロジスティック回帰は依然として脆弱です。しかし、木の場合、小さなケースは完全に無視できます。サンプルサイズが小さいだけでもありません。nが大きく、たとえばオプションツリー間の分布が80%-20%の場合でも、20%オプションの割合が何らかの変数xで明らかに増加しても、80%オプションの選択を選択できます。新しいより極端な観測値が見つかった場合、または枝の数が極端なポイントに対して少ない場合、ツリーは80%オプションを予測しますが、ロジスティック回帰ではそうなる可能性は低くなります。あなたは条件付きロジスティック回帰について正しいです

2
@MatthewDrury Stephen Sennは、私が頻繁に読み直す論文でこの点について優れた議論をしています。発見的方法では、エントリabcdを含む2x2テーブルのオッズ比はad /(bc)によって推定され、分散1 / a + 1 / b + 1 / c + 1 / dを持ちます。任意の数のケース(aおよびc)をサンプリングでき、オッズ比は依然として不偏ですが、分散は無限になります。これは精度の問題です。
AdamO

8

2つのクラスがあると仮定します。

  • A、人口の99.99%を表します
  • 人口の0.01%を表すB

まれな病気や詐欺師の影響を受けた個人である可能性のあるクラスBの要素を特定することに興味があるとします。

Aの学習者は、損失関数で高い得点を推測するだけで、非常に少数の誤って分類された要素は、針(この場合は干し草の山)を数値的に移動しない可能性があります。この例は、クラスの不均衡の問題を軽減する「トリック」の1つである直感をもたらします。つまり、コスト関数を微調整します。

モデルがほぼゼロの感度とほぼ1の特異性を示す場合、不均衡なデータが問題であると感じます。この記事の「問題を無視する」セクションの例を参照してください。

多くの場合、問題には解決策があります。前述のトリックに加えて、他のオプションがあります。ただし、モデルと計算の複雑さが増すという代償が伴います。

質問は、どのモデルがほぼゼロの感度とほぼ1の特異性に落ち着く可能性が高いかを尋ねます。私はそれがいくつかの次元に依存していると感じています:

  • 通常どおり、容量が少なくなります。
  • いくつかのコスト関数は、他よりも苦労するかもしれません:平均二乗誤差(MSE)は、以下より公開されるフーバー - MSEが誤って分類された方の少ない良性であるべきBのクラス要素。

1
これは、(1)最大化しようとするKPIが正確であること、および(2)その正確さが分類モデル評価に適切なKPIであることを暗黙的に推定します。そうではありません。
S. Kolassa -復活モニカ

5

考えてみると、完全に分離可能な高度に不均衡なデータセットでは、ほとんどすべてのアルゴリズムがエラーなしで実行されます。

したがって、それはデータのノイズの問題であり、特定のアルゴリズムにあまり関係していません。また、特定のタイプのノイズをどのアルゴリズムが最適に補正するかは事前にはわかりません。

最終的には、異なる方法を試して、相互検証によって決定する必要があります。


このコメントは少し過小評価されているように思います。クラスの不均衡は必ずしも問題ではないということを誰かに納得させるために少し時間を費やしています。
RDK

これは質問に答えません。不均衡なクラスはどのように「データのノイズの問題」になりますか?
S. Kolassa -復活モニカ

2
@StephanKolassaこれは答えです。なぜなら、不均衡なデータは(直接)問題ではないと言うからです。そのため、「どのように」それを尋ねることはできません。より一般的な質問「データ分析におけるノイズの問題への対処方法」についての答えは、個々のデータセットに固有であり、検証を設定し、動作するものをすべて試すことです。議論が本当に必要な場合は、ele.uri.edu / faculty / he / PDFfiles / ImbalancedLearning.pdfにアイデアがあると思います。しかし、最終的にはサンプリング/再重み付け/しきい値処理を行うことになり、このデータセットで何が起こったのかを正確に知る価値はありません。
ジェレヌク
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.