バイナリ値でラベル付けされたトレーニングデータがあります。また、これらの各ラベルの信頼度を収集しました。つまり、0.8の信頼度は、人間のラベラーの80%がそのラベルに同意することを意味します。
この信頼性データを使用して分類子の精度を向上させることはできますか?
以下はうまくいくでしょうか?
1a)ラベルが0で、そのラベルの信頼度データが0.8の場合、トレーニングデータに0.2の新しいラベルを付けます。
1b)ラベルが1で、そのラベルの信頼性データが0.8の場合、トレーニングデータに0.8の新しいラベルを付けます。
2)トレーニングセットのすべてのエントリに対して、この方法を使用して新しいラベルを計算します
3)問題を回帰問題として扱います(ラベルの範囲は0〜1)。
4)新しいラベルが特定の値の上か下かに基づいて、ラベルのないデータを分類します。つまり、すべての予測ラベルにX未満の場合はクラス0を、Xを超える場合はクラス1を指定します。
現在、モデルにRBFカーネルを備えたSVMを使用しています。
前もって感謝します!