データサイエンス unbalanced-classes

5

「バランスのとれた」データセットと「代表的な」データセットのどちらを選ぶべきですか？

私の「機械学習」タスクは、悪意のあるトラフィックから良性のインターネットトラフィックを分離することです。現実の世界のシナリオでは、インターネットトラフィックのほとんど（たとえば90％以上）が無害です。したがって、モデルのトレーニングにも同様のデータ設定を選択する必要があると感じました。しかし、「クラスバランシング」データアプローチを使用してモデルをトレーニングし、同数の良性および悪意のあるトラフィックのインスタンスを暗示している研究論文（私の研究分野）に出会いました。一般に、機械学習モデルを構築している場合、実世界の問題を代表するデータセット、またはモデルの構築に適したバランスの取れたデータセットを選択する必要があります（特定の分類子がクラスの不均衡でうまく動作しないため、または私に知られていない他の理由による）？誰かが選択の長所と短所、そしてどちらを選択するかを決定する方法の長所と短所にもっと光を当てることができますか？

48 machine-learning dataset unbalanced-classes

4

非常に不均衡なデータセットのトレーニングのクイックガイド

トレーニングセットに約1000個の陽性サンプルと10000個の陰性サンプルがある分類問題があります。したがって、このデータセットは非常に不均衡です。プレーンランダムフォレストは、すべてのテストサンプルを多数派クラスとしてマークしようとしています。ここでは、サブサンプリングと重み付きランダムフォレストに関するいくつかの良い答えを示します。高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか？ RF以外のどの分類方法が問題を最善の方法で処理できますか？

29 machine-learning classification dataset unbalanced-classes

4

XGBoostを使用した不均衡なマルチクラスデータ

このディストリビューションには3つのクラスがあります。 Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 そして、私はxgboost分類に使用しています。というパラメータがあることを知っていますscale_pos_weight。しかし、「マルチクラス」の場合はどのように処理され、どのように適切に設定できますか？

19 classification xgboost multiclass-classification unbalanced-classes

4

高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか？

バイアスの高いバイナリデータセットがあります。ポジティブクラスよりもネガティブクラスの例が1000倍多くあります。このデータでツリーアンサンブル（エクストラランダムツリーやランダムフォレストなど）をトレーニングしたいのですが、ポジティブクラスの十分な例を含むトレーニングデータセットを作成するのは困難です。層化されたサンプリングアプローチを行って、肯定的な例と否定的な例の数を正規化することの意味は何でしょうか言い換えると、たとえば、トレーニングセット内の肯定的なクラスの例の数を人為的に（リサンプリングによって）膨らませることは悪い考えですか？

14 machine-learning feature-selection unbalanced-classes

2

テキスト分類にSMOTEをどのように適用しますか？

Synthetic Minority Oversampling Technique（SMOTE）は、データセットの不均衡問題で使用されるオーバーサンプリング技術です。これまでのところ、これを一般的な構造化データに適用する方法について考えています。しかし、テキスト分類問題にそれを適用することは可能ですか？データのどの部分をオーバーサンプリングする必要がありますか？それについてはすでに別の質問がありますが、答えはありません。どこから始めればよいでしょうか？

13 unbalanced-classes text smote

1

LSTMセルはいくつ使用すればよいですか？

使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則（または実際の規則）はありますか？具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。私が定義する分類問題があると仮定してください： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか？ 4*((n+1)*m + m*m)*c cセルの数はどこですか？これに基づいています：LSTMネットワークのパラメーターの数を計算する方法？私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

不均衡なクラス—偽陰性を最小限に抑える方法は？

バイナリクラス属性を持つデータセットがあります。クラス+1（癌陽性）のインスタンスは623個、クラス-1（癌陰性）のインスタンスは101,671個あります。私はさまざまなアルゴリズム（ナイーブベイズ、ランダムフォレスト、AODE、C4.5）を試してみましたが、それらはすべて許容できない偽陰性率を持っています。ランダムフォレストは、全体の予測精度が最も高く（99.5％）、偽陰性率が最も低くなりますが、陽性クラスの79％は見落とします（つまり、悪性腫瘍の79％を検出できません）。この状況を改善するにはどうすればよいですか？ありがとう！

11 classification random-forest decision-trees unbalanced-classes

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

4

アンバランスクラス：Spark MLLibのMLアルゴリズムのclass_weight

Python sklearnには、不均衡データを処理するためのclass_weightパラメーターを持つ複数のアルゴリズム（たとえば、回帰、ランダムフォレストなど）があります。ただし、MLLibアルゴリズムにはそのようなパラメーターはありません。一部のMLLibアルゴリズムにclass_weightを実装する計画はありますか？または、MLLibに不均衡データに対するアプローチはありますか？それとも実際に、MLLibですべてのアップ/ダウンサンプリングを自分で処理する必要がありますか？ありがとう！

8 machine-learning apache-spark unbalanced-classes weighted-data

2

SMOTE実行後のトレーニング/テスト分割

私は非常に不均衡なデータを扱っているので、SMOTEアルゴリズムを使用してデータセットをリサンプリングしました。 SMOTEリサンプリング後、トレーニングセットを使用してモデルを構築し、テストセットを使用してモデルを評価することで、リサンプリングされたデータセットをトレーニング/テストセットに分割しました。ただし、テストセットの一部のデータポイントが実際にトレーニングセットのデータポイントからジッターされる可能性がある（つまり、情報がトレーニングセットからテストセットにリークしている）ため、テストセットは実際にはクリーンセットではないテスト。誰か似たような経験はありますか？情報は本当にトレーニングからテストに漏れていますか？または、SMOTEアルゴリズムが実際に処理してくれて、心配する必要はありませんか？どうもありがとう！

8 machine-learning unbalanced-classes evaluation

2

トレーニングサンプルのクラスの不均衡を修正する方法

最近、就職の面接でトレーニングデータセットのクラスの不均衡を修正するための解決策について尋ねられました。バイナリ分類のケースに焦点を当てましょう。私は2つのソリューションを提供しました：分類子のバランスのとれたデータのバッチを供給することによる少数派クラスのオーバーサンプリング、またはバランスのとれたトレーニングセット（豊富な固有のサブセットと同じ少数派のセット）で多くの分類子をトレーニングするなどの豊富なクラスの分割。インタビュアーがノードを結んだが、私は後に断られ、彼らが言及した知識のギャップの1つはこの答えであった。メトリックを変更して話し合うことができたことがわかりました。しかし、私の頭に浮かぶ質問は、次のとおりです。テストセットが同じ比率になる場合、クラスAを80％にして分類子をトレーニングすることは本当に問題なのでしょうか。機械学習の経験則では、トレーニングセットは、最良の予測パフォーマンスを得るためにテストと可能な限り類似している必要があるようです。クラスのバランスをとるのに必要なテストの分布について何もわからない（事前に知らない）場合だけではありませんか？多分私はインタビューでこの点を上げるべきだった。

7 training unbalanced-classes class-imbalance

4

低確率分類のためのAdaBoostのトレーニングとテスト

不正/不正ではないと分類したいデータセットがあり、弱者がたくさんいます。私の懸念は、詐欺よりも詐欺の方がはるかに多いことです。そのため、私の弱い学習者は平均よりも優れたパフォーマンスを発揮しますが、完全なセットでは50％を超える精度を実行するものはありません。私の質問は、詐欺の半分で詐欺ではないテストおよびトレーニングセットをセットアップする必要があるのか、それとも代表的なサンプルを使用するだけなのかです。

7 classification unbalanced-classes

タグ付けされた質問 「unbalanced-classes」

タグ付けされた質問「unbalanced-classes」