統計とビッグデータ unbalanced-classes

3

さて、20：1の経験則を考慮して、十分なサンプルがあると思います：合計7つの予測変数のかなり大きなサンプル（N = 374）。私の問題は次のとおりです。使用する予測変数のセットが何であれ、100％の特異性と0％の感度よりも分類が良くなることはありません。満足のいくものではありませんが、候補予測変数のセット（これから逸脱することはできません）を考えると、これは実際には最良の結果になる可能性があります。しかし、私はもっと良くできると思わずにはいられなかったので、従属変数のカテゴリはほぼ4：1の非常に不均一なバランスであることに気付きました。よりバランスのとれたサブサンプルで分類を改善できますか？

81 regression logistic sample-size unbalanced-classes

5

機械学習で不均衡なデータが本当に問題になるのはいつですか？

ロジスティック回帰、SVM、決定木、バギング、およびその他の類似の質問を使用する際に、不均衡なデータについて複数の質問がありました。これが非常に人気のあるトピックです。残念ながら、各質問はアルゴリズム固有であるようで、不均衡なデータを扱うための一般的なガイドラインは見つかりませんでした。不均衡なデータを扱うMarc Claesenの回答の1つを引用（...）学習方法に大きく依存します。ほとんどの汎用アプローチには、これに対処する1つ（または複数の）方法があります。しかし、データの不均衡について正確に心配する必要があるのはいつですか？主に影響を受けるのはどのアルゴリズムで、どのアルゴリズムを処理できますか？データのバランスを取るためにどのアルゴリズムが必要ですか？このようなQ＆Aサイトでは、各アルゴリズムについて議論することは不可能であることを認識しています。むしろ、いつ問題になるかについての一般的なガイドラインを探しています。

53 machine-learning classification predictive-models unbalanced-classes

6

強く不均衡なクラスを持つバイナリ分類

私は（機能、バイナリ出力0または1）の形式のデータセットを持っていますが、1はほとんど発生しないため、常に0を予測するだけで、70％と90％の間の精度が得られます（見ている特定のデータに応じて）。MLメソッドは、ほぼ同じ精度を与えてくれます。この状況に適用する標準的なメソッドがいくつかあるべきだと思います。これにより、明白な予測ルールよりも精度が向上します。

52 machine-learning classification binary-data unbalanced-classes

4

教師あり機械学習のクラスの不均衡

これは一般的な質問であり、メソッドやデータセットに固有のものではありません。データセット内の0の数が約90％、1の数が約10％である教師あり機械学習のクラス不均衡問題にどのように対処しますか？分類器を最適にトレーニングするにはどうすればよいですか？私が従う方法の1つは、データセットのバランスを取り、分類器をトレーニングして複数のサンプルに対してこれを繰り返すためのサンプリングです。これはランダムだと感じています。この種の問題に取り組むための枠組みはありますか。

47 machine-learning unbalanced-classes supervised-learning

4

不均衡なデータに対する決定ツリーのトレーニング

私はデータマイニングが初めてであり、非常に不均衡なデータセットに対してデシジョンツリーをトレーニングしようとしています。ただし、予測精度が低いという問題があります。データはコースを学習している学生で構成され、クラス変数はコースのステータスであり、2つの値（撤回済みまたは現在）があります。年齢人種性別コース ... コース状況データセットには、撤回されたよりも多くの現在のインスタンスがあります。撤回されたインスタンスは、合計インスタンスの2％のみを占めます。人が将来撤退する確率を予測できるモデルを構築したいと考えています。ただし、トレーニングデータに対してモデルをテストする場合、モデルの精度はひどいです。データが1つまたは2つのクラスに支配されているディシジョンツリーでも同様の問題が発生しました。この問題を解決し、より正確な分類器を構築するには、どのアプローチを使用できますか？

43 classification cart unbalanced-classes accuracy

1

ダウンサンプリングはロジスティック回帰係数を変更しますか？

非常にまれな陽性クラスのデータセットがあり、陰性クラスをダウンサンプリングし、ロジスティック回帰を実行する場合、陽性クラスの有病率を変更したという事実を反映するように回帰係数を調整する必要がありますか？たとえば、Y、A、B、Cの4つの変数を持つデータセットがあるとします。Y、A、Bはバイナリで、Cは連続です。11,100個の観測値Y = 0および900 Y = 1の場合： set.seed(42) n <- 12000 r <- 1/12 A <- sample(0:1, n, replace=TRUE) B <- sample(0:1, n, replace=TRUE) C <- rnorm(n) Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1) A、B、Cが与えられた場合、Yを予測するためにロジスティック回帰を近似します。 dat1 <- data.frame(Y, …

34 logistic unbalanced-classes case-control-study

3

クラスの不均衡の問題の根本的な原因は何ですか？

私は最近、機械学習/統計学習の「クラスの不均衡問題」について多くのことを考えてきましたが、何が起こっているのか分からないという感覚をさらに深めています。まず、用語を定義（または試行）します。クラス不均衡問題マシン/統計的学習では1クラスに0のクラスの割合が非常に偏っているとき、いくつかのバイナリ分類（*）アルゴリズムはうまく機能しないという観察です。したがって、たとえば、上記の例では、すべての1クラスごとに100個の000クラスがある場合、クラスの不均衡は1から100または1 ％です。1111111001001001%1%1\% 私が見た問題の声明のほとんどは、十分な資格と考えるもの（どのモデルが苦労しているのか、不均衡が問題であるか）を欠いており、これが私の混乱の原因の1つです。機械学習/統計学習の標準テキストの調査では、ほとんど何もわかりません。統計斜の要素と統計的学習の概要は、インデックス内の「クラスの不均衡」を含んでいません。予測データ分析の機械学習では、インデックスに「クラスの不均衡」も含まれていません。マーフィーの機械学習：確率的観点には、インデックスに「クラスの不均衡*」が含まれています。SVMのセクションを参照しますが、次の興味深いコメントが見つかりました。 SVMは確率を使用して不確実性をモデル化しないため、これらの困難、およびそれらを修正するために提案された多数のヒューリスティックが根本的に発生するため、出力スコアはクラス間で比較できないことに注意してください。このコメントは私の直観と経験を思い起こさせます：私の以前の仕事では、ロジスティック回帰と勾配ブーストツリーモデルを（二項対数尤度を最小化するために）不均衡なデータ（1%1%1\%クラスの不均衡の程度）に、パフォーマンスの明らかな問題。私は（どこかで）分類木ベースのモデル（木自体とランダムフォレスト）もクラスの不均衡の問題に苦しんでいると読みました。これにより、水が少し濁り、ツリーは何らかの意味で確率を返します。つまり、ツリーの各終端ノードのターゲットクラスの投票レコードです。まとめると、私が本当に望んでいるのは、クラスの不均衡問題（存在する場合）を引き起こす力の概念的な理解です。不適切に選択されたアルゴリズムと怠algorithmsなデフォルトの分類しきい値を使用して自分自身で行うことですか？適切なスコアリング基準を最適化する確率モデルを常に当てはめると消えますか？別の言い方をすれば、原因は単に損失関数の不適切な選択、つまり、厳密な分類ルールと全体的な精度に基づいてモデルの予測力を評価することですか？その場合、適切なスコアリングルールを最適化しないモデルは役に立たない（または少なくとも有用性が低い）か？（*）分類とは、バイナリ応答データに適合する統計モデルを意味します。私はない、それはかもしれないが、私の目標は、一つのクラスにハード譲渡またはその他であると仮定します。

30 classification predictive-models unbalanced-classes scoring-rules

4

クラスの不均衡の下でのPrecision-Recall曲線の最適化

私はいくつかの予測子を持っている分類タスクを持っています（そのうちの1つが最も有益です）、私は分類器を構築するためにMARSモデルを使用していますも元気）。これで、トレーニングデータに大きなクラスの不均衡があります（各ポジティブサンプルに対して約2700のネガティブサンプル）。情報検索タスクと同様に、私は、上位の肯定的なテストサンプルの予測をより懸念しています。このため、Precision Recall曲線のパフォーマンスは私にとって重要です。まず、トレーニングデータでモデルをトレーニングし、クラスの不均衡をそのまま維持しました。トレーニング済みのモデルを赤で表示し、最も重要な入力を青で表示します。不均衡データのトレーニング、不均衡データの評価：クラスの不均衡がモデルをスローしていると考えて、上位のポジティブサンプルの学習はデータセット全体のごく一部であるため、バランスの取れたトレーニングデータセットを取得するためにポジティブトレーニングポイントをアップサンプリングしました。バランスの取れたトレーニングセットでパフォーマンスをプロットすると、良いパフォーマンスが得られます。PR曲線とROC曲線の両方で、訓練されたモデルは入力よりも優れています。（アップサンプリング）バランスデータのトレーニング、（アップサンプリング）バランスデータの評価：ただし、バランスの取れたデータでトレーニングされたこのモデルを使用して、元のバランスの取れていないトレーニングセットを予測すると、PRカーブのパフォーマンスが低下します。（アップサンプリングされた）バランスデータのトレーニング、元のアンバランスデータの評価：だから私の質問は： PR曲線の視覚化が訓練されたモデル（赤）のパフォーマンスの低下を示し、ROC曲線がクラスの不均衡のために改善を示すのはなぜですか？リサンプリング/アップサンプリング/ダウンサンプリングのアプローチはこれを解決して、トレーニングを高精度/低リコール領域に集中させることができますか？高精度/低リコール領域にトレーニングを集中する他の方法はありますか？

30 machine-learning roc precision-recall unbalanced-classes data-visualization

4

トレーニングデータセットのクラスのバランスをとるべきなのはいつですか？

トレーニングデータの不均衡なクラスが問題につながる可能性があることを学んだオンラインコースがありました。これは、不均衡が多すぎる場合に良い結果が得られるため、分類アルゴリズムが多数決ルールに従うためです。割り当てでは、多数派クラスのアンダーサンプリングによりデータのバランスを取る必要がありました。ただし、このブログでは、バランスの取れたデータはさらに悪いと誰かが主張しています。 https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ それでどちらですか？データのバランスを取るべきかどうかクラスの不均衡な割合に順応できる人もいるかもしれないので、使用されるアルゴリズムに依存しますか？その場合、不均衡なデータで信頼できるのはどれですか？

29 machine-learning classification unbalanced-classes

6

ロジスティック回帰のサンプルサイズは？

調査データからロジスティックモデルを作成します。これは、154人の回答者のみがインタビューされた4つの居住コロニーの小規模な調査です。私の従属変数は「仕事への十分な移行」です。154人の回答者のうち、73人は仕事に十分に移行したが、残りはそうではないと答えたことがわかりました。したがって、従属変数は本質的にバイナリであるため、ロジスティック回帰を使用することにしました。7つの独立変数（3つの連続変数と4つの名義変数）があります。1つのガイドラインでは、各予測変数/独立変数について10のケースが必要であることを示唆しています（Agresti、2007）。このガイドラインに基づいて、ロジスティック回帰を実行しても問題ないと思います。私は正しいですか？そうでない場合は、独立変数の数を決定する方法を教えてください？

26 logistic sample-size assumptions power unbalanced-classes

4

不均衡なデータセットに対するxgboostのscale_pos_weightの適切な使用法は何ですか？

非常に不均衡なデータセットがあります。チューニングのアドバイスに従って使用しようとしていますが、scale_pos_weightどのようにチューニングする必要があるかはわかりません。私はそれを見ることRegLossObj.GetGradientができます： if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight そのため、陽性サンプルの勾配はより影響力があります。ただし、xgboostの論文によると、勾配統計は常に特定のツリーの特定のノードのインスタンス内でローカルに使用されます。ノードのコンテキスト内で、候補分割の損失削減を評価する葉ノードのコンテキスト内で、そのノードに与えられる重みを最適化するしたがって、何が良いかを前もって知る方法はありません。scale_pos_weight正と負のインスタンスの比率が1：100になるノードと、比率が1：2のノードでは、数値が大きく異なります。ヒントはありますか？

26 unbalanced-classes xgboost

4

オーバーサンプリング、アンダーサンプリング、SMOTEはどのような問題を解決しますか？

最近の好評の質問で、Timは、機械学習で不均衡なデータが本当に問題になるのはいつかを尋ねます。質問の前提は、クラスバランスと不均衡クラスの問題について議論する多くの機械学習文献があるということです。考え方は、ポジティブクラスとネガティブクラスの間に不均衡があるデータセットは、一部の機械学習分類（ここでは確率モデルを含む）アルゴリズムに問題を引き起こし、完全な50/50を復元するために、データセットを「バランス」する方法を探さなければならないということです。正と負のクラスに分割します。賛成の回答の一般的な意味は、「少なくともモデリングに思慮深い場合はそうではない」ということです。M.ヘンリーL.は、受け入れられた答えに対する上向きのコメントで、次のように述べています。 [...]不均衡なデータの使用には、低レベルの問題はありません。私の経験では、「不均衡なデータを回避する」というアドバイスは、アルゴリズム固有のものか、継承された知恵です。私は、一般に、不均衡なデータは明確に指定されたモデルに概念的な問題をもたらさないというAdamOに同意します。 AdamOは、クラスバランスの「問題」は本当にクラス希少性の 1つだと主張したがって、少なくとも回帰では（ただし、すべての状況で疑わしい）、不均衡なデータの唯一の問題は、サンプルサイズが事実上小さいことです。まれなクラスの人数に適した方法がある場合、そのメンバーシップの割合が不均衡であれば問題はありません。これが目前の真の問題である場合、データセットのバランスを取ることを目的としたすべてのリサンプリング方法の目的は何ですか：オーバーサンプリング、アンダーサンプリング、SMOTEなど、未解決の問題が残ります。明らかに、サンプルサイズが暗黙的に小さいという問題に対処していないため、何もないところから情報を作成することはできません！

24 machine-learning classification predictive-models unbalanced-classes

2

テストセットとトレーニングセットの分布の違いを処理する方法

機械学習またはパラメーター推定の基本的な前提の1つは、目に見えないデータがトレーニングセットと同じ分布に由来するということです。ただし、実際のケースによっては、テストセットの分布はトレーニングセットとほとんど異なります。製品の説明を約17,000クラスに分類しようとする大規模な複数分類問題について考えてみましょう。トレーニングセットには、非常に歪んだクラス事前分布があります。そのため、一部のクラスには多くのトレーニング例があり、一部のクラスにはほんのわずかしかありません。クライアントから未知のクラスラベルを持つテストセットが与えられたとします。トレーニングセットでトレーニングされた分類器を使用して、テストセットの各製品を17,000クラスのいずれかに分類しようとします。テストセットのクラス分布は歪んでいる可能性がありますが、異なるビジネス分野に関連している可能性があるため、トレーニングセットのそれとはおそらく非常に異なっています。2つのクラス分布が大きく異なる場合、トレーニングされた分類器はテストセットでうまく機能しない可能性があります。これは、Naive Bayes分類器で特に明らかです。確率的分類器のトレーニングセットと特定のテストセットの違いを処理する原則的な方法はありますか？「トランスダクティブSVM」はSVMでも同様のことを行うと聞きました。特定のテストセットで最高のパフォーマンスを発揮する分類器を学習するための同様の手法はありますか？次に、この実用的なシナリオで許可されているように、異なるテストセットに対して分類器を再トレーニングできます。

23 machine-learning classification skewness unbalanced-classes multi-class

3

非常に不均衡なデータの分類/評価指標

不正検出（クレジットスコアリングのような）問題に対処します。そのため、詐欺的観測と非詐欺的観測の間には非常に不均衡な関係があります。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlは、さまざまな分類指標の優れた概要を提供します。Precision and Recallまたはkappa両方が良い選択のようです：そのような分類器の結果を正当化する1つの方法は、それらをベースライン分類器の結果と比較し、それらが実際にランダムチャンス予測よりも優れていることを示すことです。私が理解している限りkappaでは、ランダムなチャンスが考慮されるので、ここでの方がわずかに良い選択かもしれません。より平易な英語でCohenのカッパ Iことを理解しkappa、情報ゲインの概念を扱いました： [...] 80％の観測精度は、50％の予測精度に対して、75％の予測精度ではあまり印象的ではありません[...] したがって、私の質問は次のようになります。 kappaこの問題に対してより適切な分類メトリックであると仮定するのは正しいですか？単に使用kappaするだけで、分類アルゴリズムに対する不均衡の悪影響を防ぐことができますか？再（ダウン/アップ）サンプリングまたはコストベースの学習（http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdfを参照）はまだ必要ですか？

22 classification unbalanced-classes precision-recall cohens-kappa model-evaluation

5

回帰における不均衡なデータのサンプリング

分類のコンテキストで不均衡なデータを処理することに関して良い質問がありましたが、私は人々が回帰のためにサンプリングするために何をするのかと思っています。問題の領域はサインに対して非常に敏感ですが、ターゲットの大きさに対してはわずかに敏感であるとします。ただし、その大きさは十分に重要であるため、モデルは分類（ポジティブクラスとネガティブクラス）ではなく回帰（連続ターゲット）である必要があります。そして、この問題領域では、トレーニングデータのセットはポジティブターゲットよりも10倍多いネガティブになると言います。このシナリオでは、ポジティブターゲットの例をオーバーサンプリングしてネガティブターゲットの数と一致させ、モデルをトレーニングして2つのケースを区別します。明らかに、不均衡なデータではトレーニングアプローチがひどく機能するため、何らかのサンプリングを行う必要があります。予測を行うときに、このオーバーサンプリングを「元に戻す」適切な方法は何でしょうか？おそらく、自然なトレーニングデータのターゲットの（負の）平均または中央値で翻訳しますか？

22 regression sampling unbalanced-classes

タグ付けされた質問 「unbalanced-classes」

タグ付けされた質問「unbalanced-classes」