タグ付けされた質問 「unbalanced-classes」

データ内の一部のクラスが過小評価されている分類子または分類の問題に関する質問。

5
「バランスのとれた」データセットと「代表的な」データセットのどちらを選ぶべきですか?
私の「機械学習」タスクは、悪意のあるトラフィックから良性のインターネットトラフィックを分離することです。現実の世界のシナリオでは、インターネットトラフィックのほとんど(たとえば90%以上)が無害です。したがって、モデルのトレーニングにも同様のデータ設定を選択する必要があると感じました。しかし、「クラスバランシング」データアプローチを使用してモデルをトレーニングし、同数の良性および悪意のあるトラフィックのインスタンスを暗示している研究論文(私の研究分野)に出会いました。 一般に、機械学習モデルを構築している場合、実世界の問題を代表するデータセット、またはモデルの構築に適したバランスの取れたデータセットを選択する必要があります(特定の分類子がクラスの不均衡でうまく動作しないため、または私に知られていない他の理由による)? 誰かが選択の長所と短所、そしてどちらを選択するかを決定する方法の長所と短所にもっと光を当てることができますか?

4
非常に不均衡なデータセットのトレーニングのクイックガイド
トレーニングセットに約1000個の陽性サンプルと10000個の陰性サンプルがある分類問題があります。したがって、このデータセットは非常に不均衡です。プレーンランダムフォレストは、すべてのテストサンプルを多数派クラスとしてマークしようとしています。 ここでは、サブサンプリングと重み付きランダムフォレストに関するいくつかの良い答えを示します。高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか? RF以外のどの分類方法が問題を最善の方法で処理できますか?

4
XGBoostを使用した不均衡なマルチクラスデータ
このディストリビューションには3つのクラスがあります。 Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 そして、私はxgboost分類に使用しています。というパラメータがあることを知っていますscale_pos_weight。 しかし、「マルチクラス」の場合はどのように処理され、どのように適切に設定できますか?

4
高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか?
バイアスの高いバイナリデータセットがあります。ポジティブクラスよりもネガティブクラスの例が1000倍多くあります。このデータでツリーアンサンブル(エクストラランダムツリーやランダムフォレストなど)をトレーニングしたいのですが、ポジティブクラスの十分な例を含むトレーニングデータセットを作成するのは困難です。 層化されたサンプリングアプローチを行って、肯定的な例と否定的な例の数を正規化することの意味は何でしょうか 言い換えると、たとえば、トレーニングセット内の肯定的なクラスの例の数を人為的に(リサンプリングによって)膨らませることは悪い考えですか?

2
テキスト分類にSMOTEをどのように適用しますか?
Synthetic Minority Oversampling Technique(SMOTE)は、データセットの不均衡問題で使用されるオーバーサンプリング技術です。これまでのところ、これを一般的な構造化データに適用する方法について考えています。しかし、テキスト分類問題にそれを適用することは可能ですか?データのどの部分をオーバーサンプリングする必要がありますか?それについてはすでに別の質問がありますが、答えはありません。どこから始めればよいでしょうか?

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
不均衡なクラス—偽陰性を最小限に抑える方法は?
バイナリクラス属性を持つデータセットがあります。クラス+1(癌陽性)のインスタンスは623個、クラス-1(癌陰性)のインスタンスは101,671個あります。 私はさまざまなアルゴリズム(ナイーブベイズ、ランダムフォレスト、AODE、C4.5)を試してみましたが、それらはすべて許容できない偽陰性率を持っています。ランダムフォレストは、全体の予測精度が最も高く(99.5%)、偽陰性率が最も低くなりますが、陽性クラスの79%は見落とします(つまり、悪性腫瘍の79%を検出できません)。 この状況を改善するにはどうすればよいですか? ありがとう!

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

4
アンバランスクラス:Spark MLLibのMLアルゴリズムのclass_weight
Python sklearnには、不均衡データを処理するためのclass_weightパラメーターを持つ複数のアルゴリズム(たとえば、回帰、ランダムフォレストなど)があります。 ただし、MLLibアルゴリズムにはそのようなパラメーターはありません。一部のMLLibアルゴリズムにclass_weightを実装する計画はありますか?または、MLLibに不均衡データに対するアプローチはありますか?それとも実際に、MLLibですべてのアップ/ダウンサンプリングを自分で処理する必要がありますか? ありがとう!

2
SMOTE実行後のトレーニング/テスト分割
私は非常に不均衡なデータを扱っているので、SMOTEアルゴリズムを使用してデータセットをリサンプリングしました。 SMOTEリサンプリング後、トレーニングセットを使用してモデルを構築し、テストセットを使用してモデルを評価することで、リサンプリングされたデータセットをトレーニング/テストセットに分割しました。 ただし、テストセットの一部のデータポイントが実際にトレーニングセットのデータポイントからジッターされる可能性がある(つまり、情報がトレーニングセットからテストセットにリークしている)ため、テストセットは実際にはクリーンセットではないテスト。 誰か似たような経験はありますか?情報は本当にトレーニングからテストに漏れていますか?または、SMOTEアルゴリズムが実際に処理してくれて、心配する必要はありませんか? どうもありがとう!

2
トレーニングサンプルのクラスの不均衡を修正する方法
最近、就職の面接でトレーニングデータセットのクラスの不均衡を修正するための解決策について尋ねられました。バイナリ分類のケースに焦点を当てましょう。 私は2つのソリューションを提供しました:分類子のバランスのとれたデータのバッチを供給することによる少数派クラスのオーバーサンプリング、またはバランスのとれたトレーニングセット(豊富な固有のサブセットと同じ少数派のセット)で多くの分類子をトレーニングするなどの豊富なクラスの分割。インタビュアーがノードを結んだが、私は後に断られ、彼らが言及した知識のギャップの1つはこの答えであった。メトリックを変更して話し合うことができたことがわかりました。 しかし、私の頭に浮かぶ質問は、次のとおりです。テストセットが同じ比率になる場合、クラスAを80%にして分類子をトレーニングすることは本当に問題なのでしょうか。機械学習の経験則では、トレーニングセットは、最良の予測パフォーマンスを得るためにテストと可能な限り類似している必要があるようです。 クラスのバランスをとるのに必要なテストの分布について何もわからない(事前に知らない)場合だけではありませんか?多分私はインタビューでこの点を上げるべきだった。

4
低確率分類のためのAdaBoostのトレーニングとテスト
不正/不正ではないと分類したいデータセットがあり、弱者がたくさんいます。私の懸念は、詐欺よりも詐欺の方がはるかに多いことです。そのため、私の弱い学習者は平均よりも優れたパフォーマンスを発揮しますが、完全なセットでは50%を超える精度を実行するものはありません。 私の質問は、詐欺の半分で詐欺ではないテストおよびトレーニングセットをセットアップする必要があるのか​​、それとも代表的なサンプルを使用するだけなのかです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.