不確実なクラスラベルの分類子

11

クラスラベルが関連付けられた一連のインスタンスがあるとします。これらのインスタンスがどのようにラベル付けされたかは関係ありませんが、それらのクラスメンバーシップがどの程度確実であるかは関係ありません。各インスタンスは正確に1つのクラスに属します。各クラスメンバーシップの確実性を、1から3（それぞれ非常に確実から不確実）の公称属性で定量化できるとしましょう。

そのような確実性の尺度を考慮に入れるある種の分類子はあり、もしそうなら、それはWEKAツールキットで利用可能ですか？

この状況はかなり頻繁に発生すると思います。たとえば、インスタンスが常に完全に確実ではない人間によって分類されている場合です。私の場合、画像を分類する必要があり、画像が複数のクラスに属する場合があります。これが発生した場合、私はクラスに高い不確実性を与えますが、それでも1つのクラスのみでクラスを分類します。

または、特別な分類子なしで、この問題に対する他のアプローチはありますか？例えば、トレーニングのために「特定の」分類のみをとるのですか？この場合、「国境」のケースがカバーされないため、誤分類が増えるのではないかと心配です。

classification weka uncertainty

— wnstnsmth
ソース

1

各エントリは正確に1つのクラスに属していますか？または、一部のエントリが確実性1のクラス12と確実性2のクラス34に属している可能性はありますか？

— user31264 2013年

この場合、各エントリは1つのクラスに属しています。

— wnstnsmth 2013年

8

まず、@ Marc Claesenがすでに説明しているように、半教師付き分類は、クラスが本当に区別されていることがわかっていても、ケースが実際に属しているクラスがわからない場合に対処する手法の1つです。

ただし、関連する状況もあります。「現実」が明確ではなく、クラスがまったく異なるという前提が満たされていない場合です。ボルデリンケースは「物理的」現実である可能性があります（アプリケーションに関する論文については以下を参照）私たちがそのような条件を満たした場所）。

半教師付き分類子には、確実に満たす必要がある重要な前提が1つあります。それは、特徴空間では、クラスの境界がサンプル密度が低くなるという前提です。これは、クラスターの仮定と呼ばれます。
データの基礎となる現実に異なるクラスがある場合でも、データセットの境界ケースが不均衡になる可能性があります。たとえば、分類手法が難しいケースの分類を対象としているが、明確で簡単なケースは対象外であり、トレーニングデータにすでにこれが反映されている場合状況。

「特定の」分類のみをトレーニングに使用しますか？この場合、「国境」のケースがカバーされないため、誤分類が増えるのではないかと心配です。

ボーダーラインのケースを除外することはしばしば悪い考えであると私は完全に同意します。すべての困難なケースを削除することにより、人為的に簡単な問題に終わります。私見では、境界線のケースを除外しても通常モデルのトレーニングで停止しないことはさらに悪いことですが、境界線のケースもテストから除外されるため、簡単なケースでのみモデルをテストできます。これでは、モデルが境界線のケースでうまく機能しないことに気付くことさえありません。

ここでは、私たちのアプリケーションでは、現実にも「混合」クラスが存在する可能性があるという点で、あなたとは異なる問題について書いた2つの論文を示します（問題のより一般的なバージョン：参照ラベルの不確実性もカバーされています）。

適用：脳腫瘍の診断。ロジスティック回帰を使用しました。クラスの境界ではサンプル密度が低いと想定できないため、半教師ありモデリングは適切ではありませんでした。
C. Beleites、K。Geiger、M。Kirsch、SB Sobottka、G。SchackertおよびR. Salzer：星状細胞腫組織のラマン分光による格付け：ソフトリファレンス情報の使用、Anal。バイオアナル。Chem。、400（2011）、2801-2816。
境界ケースの分類子のパフォーマンスを測定するための一般的なフレームワークを導き出す理論論文。
C. Beleites、R。SalzerおよびV. Sergo：
部分的なクラスメンバーシップを使用したソフト分類モデルの検証：星
細胞腫組織の分類に適用される感度と共同の拡張コンセプト。Intell。ラボ Syst。、122（2013）、12-22。

リンクは、パフォーマンス計算を行うために開発したRパッケージのプロジェクトページに移動します。公式ウェブページと私の論文の両方へのリンクがあります。私はこれまでWekaを使用していませんが、Rへのインターフェースが利用可能であることを理解しています。

実用的な考慮事項：

copy-and-label-differentlyアプローチは単純ですが、実際にはすべての分類子と実装ではうまく機能しません。たとえば、AFAIKではlibSVM、各データポイントのすべてのコピーを同じ相互検証フォールドに保持する必要があることを相互検証によってチューニングに伝える方法はありません。したがって、libSVMチューニングを行うと、おそらく大規模なオーバーフィットモデルが生成されます。
また、ロジスティック回帰の場合、多くの実装では、必要な部分的なメンバーシップラベルが許可されていないことがわかりました。
上記の論文で使用した実装は、実際にはシグモイドリンク関数としてロジスティックを使用した隠れ層のないANNです（nnet::multinom）。

— cbeleitesはSXに不満
ソース

あなたの最初の実用的な考慮は、真実ではありますがlibsvm、特に当てはまりません。libsvm著者は、この問題を完全に回避、インスタンス加重分類が可能なすべてのリリースの代替バージョンを提供しています。Weka / scipy / ... csie.ntu.edu.tw/~cjlin/libsvmtools/#weights_for_data_instances

— Marc Claesen

@MarcClaesen：ありがとう-私はそれを見ていませんでした。しかし、同じケースの2つのインスタンスを1つは1/3クラスAで、もう1つは2/3クラスBで指定する必要があるのではないでしょうか。いずれにせよ、明確なケースのコピーを大量に提供する必要がないため、チューニングの問題が軽減されます（実際のケースの複数の測定値を持つ「階層的な」データ構造があるため、データの場合はとにかく外部でチューニング分割を行う必要があります））

— cbeleitesは2013

@cbeitelesインスタンスが複数のクラスに属している可能性がある場合、このインスタンスの重み付けを使用しても、実際に複数回提供する必要があります。私はその可能性を考えていませんでした。

— Marc Claesen、2013年

6

これは、半教師あり学習で取り組む分類の一般化の1つです。確実性の測定がある場合、トレーニングインスタンスの重み付けを可能にするアプローチを使用できます。確実性が高いほど、対応するインスタンスの重みが大きくなります。このようなアプローチの例には、インスタンス加重SVMとロジスティック回帰が含まれます。

wekaがこれらのアルゴリズムの実装を持っていると確信しています。他のすべてが失敗した場合は、確実性の高いインスタンスから複数のインスタンスをサンプリングします。このアプローチは、従来のSVMまたはLRに使用できます。

例：SVM

私が間違っていなければ、wekaはLIBSVMへのインターフェースを持っています。LIBSVMを使用すると、すべてのリリースでクラス加重SVMを解決し、各リリースの特別なバージョンでインスタンス加重SVMを解決できます。wekaが後者をサポートしていないと仮定します（これが必要です）。

クラス加重SVMは、次の目的関数を最小化します：と特徴空間における分離超平面、スラック変数（トレーニングの誤分類をモデル化）とおよびは、それぞれ正と負のクラスに属するサポートベクトルのセットです。重みとを使用すると、クラス間に異なる誤分類ペナルティを割り当てることができます。

min_{w, ξ} ‖ w ‖^{2} + C_{p o s} \sum_{i \in P} ξ_{i} + C_{n e g} \sum_{i \in N} ξ_{i},

$\min_{\mathbf{w},\xi} \|\mathbf{w}\|^2 + {\color{blue}C_{pos}} \sum_{i \in \mathcal{P}} \xi_i + {\color{blue}C_{neg}} \sum_{i \in \mathcal{N}} \xi_i,$

w

$\mathbf{w}$

ξ

$\xi$

P

$\mathcal{P}$

N

$\mathcal{N}$

C_{p o s}

$C_{pos}$

C_{n e g}

$C_{neg}$

あなたの質問に基づいて、理想的には6つの異なる重みを使用したいようです（2つのクラス確実に3つのレベル）。多くのアプローチでこれを実現するには、ポイントのサンプルを確実に複製します。 $\times$

たとえば、SVMの観点から、同じデータインスタンスを2回使用すると、関連する値を2倍にする同じソリューションが得られます。これは、特定のデータインスタンスに高い誤分類ペナルティを割り当てる非常に簡単な方法です。ロジスティック回帰についても同じアプローチを使用できます。 $C$

— マーク・クリーセン
ソース

（+1）これで終わりです！異なるラベルとインスタンスの重み（別名ラベルの確実性）を持つインスタンスを複製することで、ランダムフォレスト、ナイーブベイズなどのアルゴリズムを適用することもできます。インスタンスの重みは非常に一般的であり、それをサポートする学習者が必要です。Rapidminer（wekaのライバル）はそうします。確実性を1に設定することにより、「鮮明な」マルチラベル問題をモデル化することもできます。

— steffen 2013年

正解です。WEKAはLIBSVMをサポートしていますが、インスタンスの重み付けはサポートしていません。インスタンスを複製するという考えは非常に良いものだと思います。特に、すべての「伝統的な」学習者がそれに対処できるためです。

— wnstnsmth 2013年

2

問題の難しさは、不確実なラベルがどれほど誤っているかによって大きく異なります。不確実なラベルが正しい場合、たとえば、90％の時間であれば、ロジスティック回帰を使用するだけで問題は解決するでしょう。一方、ラベルがほぼ半分の時間で間違っている場合は、いくつかの特別なテクニックに頼る必要があるかもしれません。ここに私は非常によく似た問題で取った1つの刺しをね。（ラベルごとに複数の観測がありましたが、それ以外の設定は非常に似ています。）

— ステファン・ウェイガー
ソース

-5

私は画像認識と分類について簡単に触れました。

ランダムフォレストは使いやすいテクニックです。私はそれをRに実装しましたが、Wekaでも利用できるはずです。ただし、使いやすさは予測精度を上回ります。十分なトレーニングセットがある場合、複数のラベルを分類できます。

手書きの数字を正しく認識するのに役立ちましたが、画像がより複雑な場合は、それがうまくいくかどうかを判断するのは試行のみです。

— アルン・ホセ
ソース

4

それは不確実なクラスラベルとどう関係していますか？

— wnstnsmth 2013年