不確かなデータによる教師あり学習?


11

教師あり学習モデルを不確実なデータセットに適用するための既存の方法論はありますか?たとえば、クラスAおよびBのデータセットがあるとします。

+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
|        2 |        3 | A     | 50%       |
|        3 |        1 | B     | 80%       |
|        1 |        1 | A     | 100%      |
+----------+----------+-------+-----------+

これで機械学習モデルをどのようにトレーニングできますか?ありがとう。

回答:


11

あなたがあなたのデータに帰する数値的な質として、私はこの「確実性」が重みとして確かに使用されることができると思います。「確実性」スコアが高いほど、データが意思決定関数に与える重みが増します。これは理にかなっています。

多くの教師あり学習アルゴリズムは重みをサポートしているため、使用するものの重み付きバージョンを見つける必要があります。


2
(+1)そして、本質的に重みはポイントの「複製物」として機能する傾向があるため、おそらく任意のアルゴリズムをそのように重み付きバージョンにまとめることができます。たとえば、OPの例では、[5,8,10]のコピーを渡します。 [50,80,100]%の確実性を反映した3つのポイント。(これは、原則として実行できる場合と同様に、アルゴリズムの対応する加重バージョンが存在するため、本当に必要になることはありません。)
GeoMatt22

5

1A0B0.6AAB01

logp(A|x)p(B|x)=logp(A|x)1P(A|x)β0+β1Txp(A|x)Aβ0+β1Tx>0B


したがって、マルチクラス分類の問題が発生した場合、ターゲットをクラス数と同じ長さのベクトルとして設定できますか?
hyperdo 2017年

クラスの数-1、確信度の合計が100%と仮定。この例は、ロジスティック回帰に似ています。多くの分類子がスコアを生成します(たとえば、いくつかのモデルでのp(クラス|データ)の推定)。この答えが提案するのは、クラスを直接予測する代わりに、確実性をスコアとして表示し、代わりにそれらを予測することです。次に、スコアを使って何かを行います。
バットマン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.