タグ付けされた質問 「unbalanced-classes」

個別のカテゴリまたは*クラス*に編成されたデータは、観測数()各クラスに属することは、クラス間で一定ではありません。等しくないクラス *アンバランス*です。

2
不均衡なデータのロジスティック回帰に重みを追加する
不均衡なデータ(9:1)でロジスティック回帰をモデル化します。glmR の関数でweightsオプションを試してみたかったのですが、それが何をするのか100%確信できません。 私の出力変数がであるとしましょうc(0,0,0,0,0,0,0,0,0,1)。今、私は「1」に10倍の重みを与えたいです。だから私は重みの引数を与えますweights=c(1,1,1,1,1,1,1,1,1,1,1,10)。 私がそれをするとき、それは最尤法の計算で考慮されます。私は正しいですか?「1」の誤分類は、「0」の誤分類よりも10倍悪いだけです。

2
ANOVAの変数の順序は重要ではありませんか?
多因子ANOVAで変数が指定される順序は違いを生じるが、多重線形回帰を行う場合、順序は重要ではないことを理解するのは正しいですか? そのため、測定された失血 yや2つのカテゴリ変数などの結果を想定します アデノイド切除術の方法 a、 扁桃摘出方法 b。 モデルy~a+bはモデルとは異なりますy~b+a(または、Rでの私の実装は示すようです)。 ここでの用語は、ANOVAは階層モデルであるということを理解するのは正しいですか?最初の要因に残差の分散を割り当てる前に、最初の要因にできる限り多くの分散を割り当てるためですか? 上記の例では、扁桃摘出術を行う前にアデノイド切除術を最初に行うので、階層は理にかなっていますが、固有の順序のない2つの変数があるとどうなりますか?

2
オーバーサンプリングされた不均衡データの分類のテスト
私はひどく不均衡なデータに取り組んでいます。文献では、いくつかの方法を使用して、再サンプリング(オーバーサンプリングまたはアンダーサンプリング)を使用してデータのバランスを再調整しています。2つの優れたアプローチは次のとおりです。 SMOTE:合成マイノリティオーバーサンプリングTEchnique(SMOTE) ADASYN:不均衡学習のための適応合成サンプリングアプローチ(ADASYN) ADASYNを実装したのは、その適応性とマルチクラス問題への拡張の容易さからです。 私の質問は、ADASYN(またはその他のオーバーサンプリング手法)によって生成されたオーバーサンプリングデータをテストする方法です。前述の2つの論文では、彼らがどのように実験を行ったかは明らかではありません。2つのシナリオがあります。 1-データセット全体をオーバーサンプリングし、それをトレーニングセットとテストセットに分割します(または相互検証)。 2-元のデータセットを分割した後、トレーニングセットのみでオーバーサンプリングを実行し、元のデータテストセットでテストします(クロス検証で実行できます)。 最初のケースでは、結果はオーバーサンプリングを行わない場合よりもはるかに優れていますが、オーバーフィットがあるかどうか心配です。2番目の場合、結果はオーバーサンプリングなしの場合よりわずかに良く、最初の場合よりもはるかに悪いです。しかし、2番目のケースに関する懸念は、少数クラスのすべてのサンプルがテストセットに送られた場合、オーバーサンプリングでは利点が得られないことです。 そのようなデータをテストする他の設定があるかどうかはわかりません。

3
不均衡なデータセットのROC対精度-再現率曲線
私はこの議論を読み終えました。彼らは、PR AUCが不均衡なデータセットのROC AUCよりも優れていると主張しています。 たとえば、テストデータセットには10​​個のサンプルがあります。9個のサンプルが陽性で、1個が陰性です。私たちはすべてを肯定的に予測する恐ろしいモデルを持っています。したがって、TP = 9、FP = 1、TN = 0、FN = 0というメトリックが得られます。 次に、精度= 0.9、再現率= 1.0。精度と再現率はどちらも非常に高いですが、分類子が不十分です。 一方、TPR = TP /(TP + FN)= 1.0、FPR = FP /(FP + TN)= 1.0。FPRは非常に高いため、これは適切な分類器ではないことがわかります。 明らかに、ROCは不均衡なデータセットのPRよりも優れています。誰かがPRの方が良い理由を説明できますか?

2
GBM分類は、クラスサイズの不均衡に悩まされますか?
監視対象のバイナリ分類の問題を扱っています。GBMパッケージを使用して、個人を未感染/感染として分類したいと思います。私は、感染した個人の15倍も感染していない。 クラスサイズが不均衡な場合にGBMモデルが影響を受けるかどうか疑問に思っていましたか?この質問に答える参考文献は見つかりませんでした。 感染していない人に1の重みを、感染した人に15の重みを割り当てることで重みを調整しようとしましたが、結果は良くありませんでした。

3
非常に不均衡な設定でのコスト重視の学習のための提案
数百万行と100列までのデータセットがあります。共通クラスに属するデータセット内のサンプルの約1%を検出したいと思います。最小精度の制約がありますが、非常に非対称なコストのため、特定のリコールにあまり熱心ではありません(10の肯定的な一致が残っていない限り!) この設定でお勧めするアプローチは何ですか?(論文へのリンクは歓迎、実装へのリンクは歓迎)

3
不均衡データ用のSVM
データセットでサポートベクターマシン(SVM)を使用しようとしています。しかし、問題を試みる前に、SVMは極端に不均衡なデータに対してうまく機能しないと警告されました。私の場合、95〜98%の0と2〜5%の1を使用できます。 スパース/アンバランスデータでSVMを使用することについて説明したリソースを見つけようとしましたが、見つけることができたのは 'sparseSVM'(少量のサポートベクターを使用)だけでした。 私は誰かが簡単に説明できることを望んでいました: そのようなデータセットでSVMがどの程度うまくいくと予想されるか SVMアルゴリズムに変更を加える必要がある場合 これについて議論するリソース/論文



1
不均衡なクラスをオーバー/アンダーサンプリングする場合、精度の最大化は誤分類コストの最小化と異なりますか?
まず、データマイニングの書籍で使用されるいくつかの一般的なレイアウトについて説明し、不均衡なデータセットの処理方法を説明します。通常、メインセクションの名前はUnbalanced Datasetsで、これらの2つのサブセクション、コスト重視の分類とサンプリングテクニックについて説明します。 まれなクラスの問題に直面すると、コストに敏感な分類とサンプリングの両方を実行できるようです。代わりに、まれなクラスも分類の対象であり、そのクラスのレコードの誤分類がコストがかかる場合は、コストに敏感な手法を適用する必要があると思います。 一方、オーバーサンプリングやアンダーサンプリングなどのサンプリング手法は、特定のクラスに焦点を当てることなく、分類のターゲットが全体的に良好な精度である場合に役立ちます。 この信念は、分類子をコスト重視にする一般的な方法であるMetaCostの理論的根拠に由来しています:まれなクラスの誤分類エラーにペナルティを課すために分類子をコスト重視にする場合、他のクラスをオーバーサンプリングする必要があります。大まかに言えば、分類器は他のクラスに適応しようとし、まれなクラスに固有になります。 これは、まれなクラスをオーバーサンプリングすることの反対であり、通常、この問題に対処するために推奨される方法です。まれなクラスのオーバーサンプリングまたは他のクラスのアンダーサンプリングは、全体の精度を向上させるのに役立ちます。 私の考えを確認していただければ幸いです。 これを述べると、不均衡なデータセットが直面する一般的な質問は次のとおりです。 他のレコードと同じくらい多くのまれなレコードをカウントするデータセットを取得しようとする必要がありますか? 私の答えは、正確さを求めている場合です。OK。よりまれなクラスの例を見つけるか、他のクラスの一部のレコードを削除して実行できます。 コストに敏感な手法でレアクラスに焦点を当てている場合は、答えます。レアクラスの例を見つけることはできますが、他のクラスのレコードは削除しないでください。後者の場合、分類器を他のクラスに適応させることはできず、まれなクラスの誤分類エラーが増加する可能性があります。 あなたは何に答えますか?

1
勾配ブースティングは、1%のような低いイベント率のデータに適していますか?
Enterprise Minerを使用して、イベント率が約1%のデータセットで勾配ブーストを試行していますが、出力を生成できません。私の質問は、ディシジョンツリーベースのアプローチなので、このような低いイベントで勾配ブースティングを使用することは適切ですか?

2
ロジスティック回帰のP> 0.5カットオフが「最適」ではないのはなぜですか?
序文:カットオフを使用するかどうかのメリット、またはカットオフを選択する方法については気にしません。私の質問は純粋に数学的で、好奇心によるものです。 ロジスティック回帰は、クラスAとクラスBの事後条件付き確率をモデル化し、事後条件付き確率が等しい超平面に適合します。したがって、理論的には、0.5の分類ポイントは、事後確率をモデル化するため(一貫して同じクラス比に遭遇すると仮定)、セットバランスに関係なく合計誤差を最小化することを理解しました。 私の実際の例では、分類カットオフとしてP> 0.5を使用すると非常に低い精度(約51%の精度)が得られます。ただし、AUCを見ると0.99を超えています。そのため、いくつかの異なるカットオフ値を調べたところ、P> 0.6で98%の精度(小さいクラスで90%、大きいクラスで99%)が得られました。 クラスは非常に不均衡であり(1:9)、高次元の問題です。ただし、クラスを各交差検定セットに均等に割り当てたため、モデルの適合と予測の間でクラスのバランスに違いが生じないようにしました。また、モデルの適合と予測で同じデータを使用してみましたが、同じ問題が発生しました。 0.5がエラーを最小化しない理由に興味があります。クロスエントロピー損失を最小化することでモデルが適合している場合、これは設計によるものだと考えました。 なぜこれが起こるのかについてのフィードバックはありますか?それは罰則の追加によるものですか、もしそうなら、誰かが何が起こっているのか説明できますか?

1
誤検知の数を減らす方法は?
私は歩行者検出と呼ばれるタスクを解決しようとしています、そして私は2つのカテゴリーのポジティブ-人々、ネガティブ-バックグラウンドでバイナリクラスシファーをトレーニングします。 データセットがあります: 陽性の数= 3752 負の数= 3800 私はtrain \ test split 80 \ 20%とRandomForestClassifier形式のscikit-learn をパラメーターで使用します: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) スコアを取得:95.896757% トレーニングデータのテスト(完全に機能): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 テストデータのテスト: true positive: 742 false positive: 57 false negative: 5 true negative: 707 私の質問は、偽陽性の数を減らす方法です(背景は人として分類されます)?また、なぜ偽陰性よりも偽陽性のエラーが多いのですか? class_weightパラメータを使用しようとしましたが、ある時点でパフォーマンスが低下します(class_weight = {0:1,1:4}で確認できます)。 class_weight= …

3
高精度または再現率の高いバイナリ分類器を取得するには、どの損失関数を使用する必要がありますか?
非常にまれにしか発生しない(画像内で)オブジェクトの検出器を作成しようとしています。スライディング/サイズ変更されたウィンドウに適用されるCNNバイナリ分類器を使用する予定です。私はバランスのとれた1:1の正と負のトレーニングとテストセットを作成しました(そのような場合にそれを行うのは正しいことですか?)、分類器はテストセットで精度の点で問題ありません。ここで、分類子の再現率/精度を制御したいので、たとえば、過半数のクラスオカレンスの多くに誤ってラベルを付けないようにします。 (私にとって)明らかな解決策は、現在使用されているのと同じロジスティック損失を使用することですが、調整可能ないくつかの定数で2つのケースのいずれかで損失を乗算することにより、タイプIとタイプIIのエラーに異なる重みを付けます。正しいですか? PS 2番目の考えでは、これは一部のトレーニングサンプルに他のサンプルよりも重みを付けることと同じです。1つのクラスを追加するだけで、同じことを実現できると思います。

1
不均衡なデータセットの作成
訓練されたモデルを不均衡なデータセットでテストしてもらいたいのですが。バランスのとれたラベル付きデータセット(スパム/非スパム)から合成データを生成するために利用できるアルゴリズムはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.