人間の注釈を支援するためにMLを使用することには科学的な問題がありますか?
3つのクラスのラベルなしデータセットがあり、500要素のうち1つだけが対象の2つのクラスに属しています。
ラベルは、大多数のクラスのほとんどの要素は、しかしとして、非標識のデータのすべての要素の自明識別できるarn't あり、それは大多数のクラスのほとんどの要素うちのフィルタに使用することができ、簡単なNNで簡単にdectableまでの番号をもたらします100分の1になり、アノテーターの時間を50倍に増やします。ラベル付けされたデータセットは、分類子のトレーニング、テスト、および検証に使用されます。
ただし、これが特に学術的な観点から問題を引き起こす可能性がある理由を予測できます。
- 人間の注釈の前に使用されたMLのバイアスのために注釈付きデータが代表的でない場合、分類子は一般化するのに苦労する可能性があります
- 人間が提供する正当なルールに基づいていないMLデータクリーナーを使用すると、データ分析プロセスの最初にブラックボックスが表示されます
- 非常に普及しているクラスのごく一部に注釈を付けるだけで、データセットが非常に選択的になります。これは、このバイアスの誤用(つまり、望ましい仮説の操作)に対する批判を招くでしょう。
すべての考えを感謝