統計とビッグデータ unbalanced-classes

1

マルチクラス分類問題にSoftmax回帰を使用しています。各クラスの事前確率が同じではありません。私はロジスティック回帰（2つのクラスの回帰）から、クラスの以前の確率がバイアス（）に暗黙的に追加されることを。log(p0/p1)log⁡(p0/p1)\log(p_0/p_1) 通常、私は手動でこの用語をバイアスから削除します。私の質問は、ソフトマックス回帰バイアスの対応する用語は何ですか？ありがとう。

8 logistic prior unbalanced-classes

2

等しくないグループの単純ベイズ分類器

単純ベイズ分類器を使用して、2つのデータグループを分類しています。データの1つのグループが他のグループよりもはるかに大きい（4倍以上）。分類器の各グループの事前確率を使用しています。問題は、私が得た結果の真陽性率が0％、偽陽性率が0％であるということです。以前の値を0.5と0.5に設定した場合も同じ結果が得られました。しきい値をより良いものに設定して、よりバランスの取れた結果を得るにはどうすればよいですか？ロジスティック回帰分類器を使用すると、同様の問題が発生しました。バイアスから前期を差し引くことで解決しました。このデータでフィッシャー線形判別を使用すると、中間に設定されたしきい値で良い結果が得られます。この問題にはいくつかの一般的な解決策があると思いますが、見つけることができませんでした。更新：私は分類器が過剰適合していることに気づきました。トレーニングセットのパフォーマンスは完璧です（100％正確）。同じグループを使用すると、分類子は「小さな」グループにも分類を開始しますが、パフォーマンスはかなり低くなります（FLDまたはLRよりも悪い）。 UPDATE2：問題は、完全な共分散行列を使用していたことでした。対角共分散行列で実行すると、より「バランスの取れた」結果が得られました。

8 machine-learning naive-bayes unbalanced-classes

3

MLを使用して、非常に不均衡なクラスのデータセットで人間のラベル付けを支援する

人間の注釈を支援するためにMLを使用することには科学的な問題がありますか？ 3つのクラスのラベルなしデータセットがあり、500要素のうち1つだけが対象の2つのクラスに属しています。ラベルは、大多数のクラスのほとんどの要素は、しかしとして、非標識のデータのすべての要素の自明識別できるarn't あり、それは大多数のクラスのほとんどの要素うちのフィルタに使用することができ、簡単なNNで簡単にdectableまでの番号をもたらします100分の1になり、アノテーターの時間を50倍に増やします。ラベル付けされたデータセットは、分類子のトレーニング、テスト、および検証に使用されます。ただし、これが特に学術的な観点から問題を引き起こす可能性がある理由を予測できます。人間の注釈の前に使用されたMLのバイアスのために注釈付きデータが代表的でない場合、分類子は一般化するのに苦労する可能性があります人間が提供する正当なルールに基づいていないMLデータクリーナーを使用すると、データ分析プロセスの最初にブラックボックスが表示されます非常に普及しているクラスのごく一部に注釈を付けるだけで、データセットが非常に選択的になります。これは、このバイアスの誤用（つまり、望ましい仮説の操作）に対する批判を招くでしょう。すべての考えを感謝

7 classification unbalanced-classes data-cleaning active-learning

1

不均衡なクラスでFスコアを平均化する最良の方法

不均衡なクラスのデータセットがあります。3つのクラスがデータの約60％を占めます。また、不均衡を引き起こすさまざまなテスト分割があります。たとえば：トレインセット：label_1 ... label_n テストセット：label_1、label_3、label_9 これは、テストセットにラベルが3つしかない場合でも、nラベルの1つとして予測される可能性があることを意味します。したがって、sklearn.metrics.precision_recall_fscore_supportを使用すると、ゼロが多い行列が得られます。私の問題は、クラスごとの値ではなく、すべてのクラスにわたって平均Fスコアを取得する必要があることです。ただし、上記のsklearn関数から返された行列の平均を取るだけでは、非常に多くのゼロがあるため、常に非常に低い値になります。一方、潜在的な予測の総数はクラスの総数でなければならないため、ゼロ以外の値の平均を取ることも、私には意味がありません。この場合、平均を取る良い方法はありますか？ミクロ、マクロ、加重平均のオプションを使用してみましたが、どちらが正しいかわかりません。誰かこれを手伝ってくれませんか？

7 machine-learning scikit-learn average unbalanced-classes

タグ付けされた質問 「unbalanced-classes」

タグ付けされた質問「unbalanced-classes」