MLを使用して、非常に不均衡なクラスのデータセットで人間のラベル付けを支援する

7

人間の注釈を支援するためにMLを使用することには科学的な問題がありますか？

3つのクラスのラベルなしデータセットがあり、500要素のうち1つだけが対象の2つのクラスに属しています。

ラベルは、大多数のクラスのほとんどの要素は、しかしとして、非標識のデータのすべての要素の自明識別できるarn't あり、それは大多数のクラスのほとんどの要素うちのフィルタに使用することができ、簡単なNNで簡単にdectableまでの番号をもたらします100分の1になり、アノテーターの時間を50倍に増やします。ラベル付けされたデータセットは、分類子のトレーニング、テスト、および検証に使用されます。

ただし、これが特に学術的な観点から問題を引き起こす可能性がある理由を予測できます。

人間の注釈の前に使用されたMLのバイアスのために注釈付きデータが代表的でない場合、分類子は一般化するのに苦労する可能性があります
人間が提供する正当なルールに基づいていないMLデータクリーナーを使用すると、データ分析プロセスの最初にブラックボックスが表示されます
非常に普及しているクラスのごく一部に注釈を付けるだけで、データセットが非常に選択的になります。これは、このバイアスの誤用（つまり、望ましい仮説の操作）に対する批判を招くでしょう。

すべての考えを感謝

— エイダン・コネリー
ソース

1

重要なのは、あなたが本当に望んでいることを心に留めておくことだと思います。これはカグルコンペティションですか？その後、あなたのアプローチはうまく聞こえます。

これが学術論文、またはフィールドに置かれる医療研究のためであり、一般化してピアレビューを通過するものを望んでいるなら、これは良いアプローチではないと思います。いくつかのサンプルを無視することはできないからです。

アプローチの「有効性」または「正確さ」に加えて、それはあなたが考えるほど役に立たないかもしれません。問題の一部は、提案している事前分類子です。100％正確ですか？破棄するものが多すぎて実際に見通せない場合は、どうすればわかりますか。問題は、それが現在のアルゴリズムをだましているものであるため、それが100.0％正確でなければ、それらを破棄することによって最も貴重なトレーニング例を失うことになるということです。

この事前分類子を永続的に使用する場合は、このステップが有効であり、「ブラックボックス」全体の一部にすぎません。ただし、全体的な評価の一部として破棄する偽陰性（およびできれば全体的な損失関数を正しく最適化できるように）を正確に報告する必要があります。

— ジェフエレン
ソース

事前分類子によって選択された意味のないサンプルを検証する元のデータの代表的なサンプルは役立ちますか？約10Mのデータポイントが存在し、ランダムな10Kに注釈が付けられている場合、それらを使用して、事前分類子によって選択された10Kを検証し、人間が注釈を付けることができます

— Aidan Connelly

説明をたどることができません。「代表的なサンプル」と「ランダムな10k注釈付き」と言っていますが、これは正しい方向への一歩のように聞こえます。しかし、その後、事前分類子によって10kが選択されたと言います。繰り返しになりますが、簡単に見つけられる例のチャンクを見つけるのに役立ちますが、最初の10k（まれなクラスの約20）が、選択された10kを「検証」する方法はわかりません。

— ジェフエレン

0

データにラベルを付けることができるモデルがある場合、なぜそれをトレーニングするのですか？

別のモデルを使用してモデルのデータにラベルを付けるのは悪いことだと思います。まず、データセットにラベルを付けることができるより優れたモデルが存在する場合は、代わりにその優れたモデルを使用してください。第2に、クラスのバランスが非常に悪い場合は、正確なラベルが必要なため、モデルが最善の結果を得ることができます。そうでなければ、あなたはそれを単に混乱させています、なぜあなたはそれをしますか？

データのラベル付けは人間にとって困難ですが、そのため、ある時点でそれをやめることができるようにマシンを十分に優れたものにしようとしています。

より簡単な方法が必要な場合は、少数派クラスのみにラベルを付け、次に他のクラスと同じ数のラベルを付け、それを使用してトレーニングを行うことで、データセットが不均衡にならないようにします。たとえば、uが100個のサンプルを持っているとします。10、40、50は各クラスのサンプルの数です。したがって、まず10、40のサンプル10、次に50のラベルを付け、それらにもラベルを付けます。次に、公平な30サンプルのデータセットでモデルをトレーニングします。この方法には長所と短所がありますが、元の質問ではなかったので、ここでは説明しません。

— plumSemPy
ソース

ご回答ありがとうございます！しかし、質問にMLを使用して参照していないラベルのためにではなく、データを補助能動学習（経て、データをラベルにユーザーをen.m.wikipedia.org/wiki/Active_learning_(machine_learning））

— エイダン・コネリー

そうです、アクティブラーニングの場合でも、少数派と多数派の一部を自分でラベル付けし、残りの多数派はそのままにしておくことをお勧めします。ただし、目的に合ったしきい値を選択するようにしてください。つまり、90％未満の自信しか持たないかどうかを尋ねますが、それはユースケースに大きく依存します。また、アクティブな学習フレームワークを構築するコストと自分で500をラベル付けするコストを検討することもできます。それは学んだ時間と経験です。

— plumSemPy

能動学習では、ラベル付けが高価であるため、人間はアルゴリズムの一部です。それがここでの設定ですが、例を破棄し、最初の事前分類子によって2つの少数派クラスのうちいくつが削除されたかを考慮しないことは、アクティブな学習ではなくなったことを意味します。アクティブラーニングは、それらすべてを維持し、それらについて最終的な指標で報告することになります。

— ジェフエレン

0

通常、より多くのデータがより良い決定につながります。あなたの場合、あなたがやろうとしていることは、ラベル付けプロセスを加速することであり、あなたがそれを行うよう提案した方法は有効です。問題はどの例を手動でラベル付けする必要があるかであり、システムを使用して「興味のない」例を高い信頼度で破棄することには意味があります。例を無視することではなく、些細なことではない例を優先することです。

トレーニングデータの真の分布によく一般化する分類器を持つことも別のトピックです。これは、階層化された方法で分割されたホールドアウトセットの分類子を評価することで確認できます。クラスの1つからサンプルを取得する方が安価なので、データにラベルを付けた後、（オーバー/アンダーサンプリングによって）後のステップでトレーニングセットのバランスをとることができます。

— ゴンパリク
ソース

1

同意しません。中間目標ではなく、最終目標を念頭に置く必要があります。より多くのデータを取得し、それがより良い意思決定につながることを期待することが最終目標ですか？それとも、一般化された分類器を持つことが最終目標ですか？答えがよく一般化する分類子である場合、さらに注意を払う必要があります。

— ジェフエレン

2つのポイント：インラインの質問では、より良い決定は、一般化された分類子と同等です。また、質問は手動でラベル付けする必要がある例であり、システムを使用して「興味のない」例を高い信頼度で破棄することは理にかなっています。それは例を無視することではなく、どの例に手動で優先的にラベル付けする必要があるかについてです。

— geompalik