タグ付けされた質問 「class-imbalance」

2
データの不均衡を処理する必要があるのはなぜですか?
データの不均衡に対処する必要がある理由を知る必要があります。私はそれをどのように扱うか、アップサンプリングまたはダウンサンプリング、またはSmoteを使用することで問題を解決するためのさまざまな方法を知っています。 たとえば、100のうち1%のまれな疾患があり、トレーニングセットに50/50サンプルのバランスのとれたデータセットを使用することに決めたとします。疾患?比率が100分の1であっても。 データの不均衡に対処する必要があるのはなぜですか? バランスを設定するための推奨比率は何ですか

2
データセットは分類可能ではないと私たちはいつ言いますか?
何も分類できないデータセットを何度も分析しました。分類子を取得できるかどうかを確認するには、通常、次の手順を使用しました。 数値に対するラベルの箱ひげ図を生成します。 次元数を2または3に減らして、クラスが分離可能かどうかを確認します。LDAも試してみました。 SVMとランダムフォレストを強制的に適合させ、機能の重要性を調べて、機能に意味があるかどうかを確認します。 クラスの不均衡が問題であるかどうかを確認するために、アンダーサンプリングやオーバーサンプリングなどのクラスと手法のバランスを変更してみてください。 私が考えることができる他の多くのアプローチがありますが、試していません。これらの機能が良くなく、予測しようとしているラベルにまったく関連していないことを時々知っています。次に、その直感を使用して演習を終了し、より優れた機能またはまったく異なるラベルが必要であると結論付けます。 私の質問は、これらの機能では分類できないとデータサイエンティストがどのように報告するかです。これを報告したり、最初に異なるアルゴリズムでデータをフィッティングしたりするための統計的方法はありますか?

3
データセットを不均衡と見なす必要があるのはいつですか?
データセット内の正と負の例の数が不均衡な状況に直面しています。 私の質問は、データセットである種のバランシングを強制するために大きなカテゴリをサブサンプリングする必要があるときを教えてくれる経験則がありますか? 例: 正の例の数が1,000で負の例の数が10,000の場合、データセット全体で分類器をトレーニングする必要がありますか、それとも負の例をサブサンプリングする必要がありますか? 1,000の正の例と100,000の負の例についても同じ質問です。 10,000人が肯定的で1,000人が否定的である場合も同じ質問です。 等...

1
不均衡なクラスに対処するためのアプローチの分類
不均衡クラス問題に対処するために開発されたアプローチを分類する最良の方法は何ですか? この記事では、それらを次のように分類しています。 前処理:オーバーサンプリング、アンダーサンプリング、ハイブリッド法を含みます コスト重視の学習:直接的な方法とメタ学習が含まれ、後者はさらにしきい値とサンプリングに分割されます。 アンサンブル手法:アンサンブル学習と組み合わせたコスト重視のアンサンブルとデータ前処理が含まれます。 第二の分類: データの前処理:分布の変更とデータ空間の重み付けが含まれます。1クラス学習は、分布の変化と見なされます。 特別な学習方法 予測後処理:しきい値法とコスト重視の後処理を含みます ハイブリッドメソッド: 3番目の記事: データレベルのメソッド アルゴリズムレベルの方法 ハイブリッド法 最後の分類では、出力調整を独立したアプローチと見なしています。 前もって感謝します。

2
トレーニングサンプルのクラスの不均衡を修正する方法
最近、就職の面接でトレーニングデータセットのクラスの不均衡を修正するための解決策について尋ねられました。バイナリ分類のケースに焦点を当てましょう。 私は2つのソリューションを提供しました:分類子のバランスのとれたデータのバッチを供給することによる少数派クラスのオーバーサンプリング、またはバランスのとれたトレーニングセット(豊富な固有のサブセットと同じ少数派のセット)で多くの分類子をトレーニングするなどの豊富なクラスの分割。インタビュアーがノードを結んだが、私は後に断られ、彼らが言及した知識のギャップの1つはこの答えであった。メトリックを変更して話し合うことができたことがわかりました。 しかし、私の頭に浮かぶ質問は、次のとおりです。テストセットが同じ比率になる場合、クラスAを80%にして分類子をトレーニングすることは本当に問題なのでしょうか。機械学習の経験則では、トレーニングセットは、最良の予測パフォーマンスを得るためにテストと可能な限り類似している必要があるようです。 クラスのバランスをとるのに必要なテストの分布について何もわからない(事前に知らない)場合だけではありませんか?多分私はインタビューでこの点を上げるべきだった。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.