ノイズの多いラベルによる分類？

13

分類のためにニューラルネットワークをトレーニングしようとしていますが、持っているラベルはかなりうるさいです（ラベルの約30％が間違っています）。

クロスエントロピー損失は確かに機能しますが、この場合により効果的な代替策はあるのでしょうか。またはクロスエントロピー損失が最適ですか？

よくわかりませんが、クロスエントロピー損失をいくらか「クリッピング」して、1つのデータポイントの損失が上限を超えないようにすることを考えています。

ありがとう！

更新
Lucasの回答によれば、予測出力とソフトマックス関数入力の導関数は次のとおりです。だから私は本質的にそれは平滑化項を追加していると思います $y$ $z$ を導関数に。 $\frac{3}{7N}$

p_{i} = 0.3 / N + 0.7 y_{i}

$p_i=0.3/N+0.7y_i$

l = - \sum t_{i} \log (p_{i})

$l=-\sum t_i\log(p_i)$

\frac{\partial l}{\partial y_{i}} = - t_{i} \frac{\partial \log (p_{i})}{\partial p_{i}} \frac{\partial p_{i}}{\partial y_{i}} = - 0.7 \frac{t_{i}}{p_{i}} = - \frac{t_{i}}{\frac{3}{7 N} + y_{i}}

$\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i}$

：オリジナルクロスエントロピー損失の誘導体

\frac{\partial l}{\partial z_{i}} = 0.7 \sum_{j} \frac{t_{j}}{p_{j}} \frac{\partial y_{j}}{\partial z_{i}} = y_{i} \sum_{j} t_{j} \frac{y_{j}}{\frac{3}{7 N} + y_{j}} - t_{i} \frac{y_{i}}{\frac{3}{7 N} + y_{i}}

$\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i}$

\frac{\partial l}{\partial y_{i}} = - \frac{t_{i}}{y_{i}}

$\frac{\partial l}{\partial y_i}=-\frac{t_i}{y_i}$

私が間違っている場合は私に知らせてください。ありがとう！

\frac{\partial l}{\partial z_{i}} = y_{i} - t_{i}

$\frac{\partial l}{\partial z_i}=y_i-t_i$

更新ルーカスの回答と同じ式を適用するが、解釈が異なるGoogleの論文を偶然
読んだ。

セクション7では、ラベル平滑化によるモデルの正則化

$∂l/∂z_k$

しかし、予測に平滑化項を追加する代わりに、それをグラウンドトゥルースに追加しました。これは役立つことがわかりました。

$\epsilon$

— ドントル
ソース

3

このトピックには数多くの作品があります-github.com/subeeshvasu/Awesome-Learning-with-Label-Noise

— guest_anonym

10

ここで正しいことは、モデルを変更することであり、損失ではありません。目標は、可能な限り多くのデータポイントを正しく分類することです（損失を決定します）が、データに関する仮定は変更されています（統計モデル、この場合はニューラルネットワークでエンコードされています）。

$\mathbf{p}_t$ $\ell(y_t, \mathbf{p}_t)$ $y_t$

{\tilde{p}}_{t} = 0.3 / N + 0.7 p_{t}

$\mathbf{\tilde p}_t = 0.3/N + 0.7 \mathbf{p}_t$

代わりに、最適化

\sum_{t} ℓ (y_{t}, 0.3 / N + 0.7 p_{t}),

$\sum_t \ell(y_t, 0.3/N + 0.7 \mathbf{p}_t),$

$N$

— ルーカス
ソース

{\tilde{p}}_{t}

$\tilde{p}_t$

0.3 / N + 0.7 p_{t}

$0.3/N +0.7p_t$

{\tilde{p}}_{t}

$\tilde{p}_t$

P r o b (\tilde{y} = + 1 | t) = 0.7 P r o b (y = + 1 | t) + 0.3 P r o b (y = - 1 | t)

$Prob(\tilde{y} = +1|t) = 0.7Prob(y=+1|t) + 0.3Prob(y = -1|t)$

P r o b (\tilde{y} = - 1 | t) = 0.7 P r o b (y = - 1 | t) + 0.3 P r o b (y = + 1 | t)

$Prob(\tilde{y} = -1|t) = 0.7Prob(y=-1|t) + 0.3Prob(y = +1|t)$

1 / N

$1/N$

0

私はこれが統計フォーラムであり、期待は数学的な導出に焦点を当てていることを認識していますが、それが役に立ち、Pythonを使用している場合は、次のようなノイズの多いラベルが付けられた分類用のパッケージがありますcleanlab：https : //github.com/ cgnorthcutt / cleanlab /。

cleanlabPythonパッケージ、pip install cleanlab私は作者午前そのためには、ノイズの多いラベル付き学習/データセットとサポートの分類でラベルのエラーを検出します。scikit-learn、PyTorch、Tensorflow、FastTextなどで動作します。

ノイズの多いラベルでの学習に。

# Code taken from https://github.com/cgnorthcutt/cleanlab
from cleanlab.classification import LearningWithNoisyLabels
from sklearn.linear_model import LogisticRegression

# Learning with noisy labels in 3 lines of code.

# Wrap around any classifier. Works with sklearn/pyTorch/Tensorflow/FastText/etc.
lnl = LearningWithNoisyLabels(clf=LogisticRegression())
lnl.fit(X = X_train_data, s = train_noisy_labels)
# Estimate the predictions you would have gotten by training with *no* label errors.
predicted_test_labels = lnl.predict(X_test)

データセットのラベルエラーを見つけるため。

from cleanlab.latent_estimation import estimate_cv_predicted_probabilities

# Find the indices of label errors in 2 lines of code.

probabilities = estimate_cv_predicted_probabilities(
    X_train_data, 
    train_noisy_labels, 
    clf=LogisticRegression(),
)
label_error_indices = get_noise_indices(
    s = train_noisy_labels, 
    psx = probabilities, 
)

FastText（NLP）とPyTorch（MNIST AlexNet）のいくつかの例。

ドキュメント：https : //l7.curtisnorthcutt.com/cleanlab-python-package

— cgnorthcutt
ソース