マルチラベルロジスティック回帰


8

ロジスティック回帰を使用してマルチラベルデータを分類する方法はありますか?マルチラベルとは、複数のカテゴリに同時に属することができるデータを意味します。

このアプローチを使用して、いくつかの生物学的データを分類したいと思います。


1
多項ロジスティック回帰を説明しているようです。このトピックについて説明しているスレッドはたくさんあります:stats.stackexchange.com/search?q
Macro

3
または、1つのデータムが複数のカテゴリに属する​​ことができるということですか?
2012

@onestop:はい、1つのデータポイントが同時に任意の数のカテゴリに属する​​ことができることを意味しました。
user721975

@macro:多項マルチラベルロジスティック回帰:-)
user721975

マクファーデンなどの計量経済学の文献を見てください。
フランクハレル2015

回答:


11

私は原則、そうです-しかし、これらの手法が依然としてロジスティック回帰と呼ばれるかどうかはわかりません。

実際、あなたの質問は、通常の分類子に対する2つの独立した拡張機能を参照できます。

  1. 各ケースのすべてのメンバーシップの合計を1にする必要があります(「クローズドワールド」=通常のケース)、
    またはこの制約をドロップすることができます(「1クラス分類子」と呼ばれることもあります)。
    これは、1クラスでも複数の独立したLRモデルによってトレーニングできます。問題は不適切な場合が多く(このクラスとあらゆる方向に存在する可能性のあるすべての種類の例外)、LRは特に適していません。

  2. 部分クラスメンバシップ:それぞれの場合は、会員と属しクラスごとに、ファジークラスタ分析におけるメンバシップと同様: 3つのクラスA、Bが存在すると仮定する、C.次にサンプリングすることができますこれは、メンバーシップベクトル[ A = 0 B = 1 C = 0 ]としても記述できます。この表記では、部分的なメンバーシップはたとえば[ A = 0.05 B =[01]classes
    [=0B=1C=0]など[=0.05B=0.95C=0]

    • 問題(ファジーメンバーシップまたは確率)に応じて、異なる解釈を適用できます。

      • fuzzy:ケースはクラスAとクラスCの半分に属します:[0.5、0、0.5]
      • 確率:参照(たとえば、専門家によるサンプルの分類)は、クラスAに属することが80%確実であるが、クラスBではないことを確認しながら、クラスCである確率は20%である(0%):[0.8、0 、0.2]。
      • 別の確率:専門家パネルの投票:5人の専門家のうち4人が「A」、1人が「C」と言う:再び[0.8、0、0.2]
    • 予測のために、例えば事後確率は可能であるだけでなく、実際にはかなり一般的です

    • これをトレーニングに使用することもできます
    • そして検証さえ

    • これの全体的な考え方は、境界線の場合には、それらを明確に1つのクラスに割り当てることができない場合があるということです。

    • ソフト予測(事後確率など)をそのクラスの100%メンバーシップに対応する「通常の」クラスラベルに「強化」するかどうか、およびその方法は、完全にあなた次第です。中間の事後確率については、「あいまい」な結果を返すこともできます。どちらが賢明かは、アプリケーションによって異なります。

nnet:::multinomMASSの一部であるR eg では、そのようなデータをトレーニングに受け入れます。ロジスティックシグモイドがあり、隠れ層がないANNが、舞台裏で使用されています。検証部分の
パッケージを開発しsoftclassvalました。

1クラスの分類子は、Richard G. Brereton:パターン認識のためのケモメトリックス、Wiley、2009でうまく説明されています。

このペーパーのメンバーシップの詳細については、 クローディアベーライト、カトリンガイガー、マティアスキルシュ、ステファンBソボトカ、ガブリエレシャッカート&ライナーサルツァー:星細胞腫組織のラマン分光グレーディング:ソフトリファレンス情報を使用しています。Anal Bioanal Chem、2011、Vol。400(9)、pp.2801-2816


詳しく説明できますか?
user721975 2012

@ user721975:まだこれを行っていました...
cbeleitesはSXに不満を持っ

ご回答有難うございます。私があなたを正しく理解している場合、オプション1は一連のバイナリ(1-vs-all)LR分類器を構築することを意味します。オプション2が表示されないようです。すべてのクラスにわたって確率分布を提供する単一のLRを構築するように求めていますか?問題は、どのクラスにデータを割り当てるかをどのように決定するかです。なんらかのしきい値設定?どっち?
user721975

@ user721975:パート1:はい。パート2:わかりやすくするために回答を編集します。
cbeleitesは

@ user721975:(2)「単一」のLRは少しあいまいです:少なくとも2つ以上のクラスがある場合、多項モデルを使用します。より詳細な回答を得るには、アプリケーションについて詳しく説明する必要があるかもしれません。
cbeleitesはSXに満足していない2012

1

マルチクラス分類子(多項ロジスティック回帰など)を使用してマルチラベル分類を行う簡単な方法の1つは、ラベルの可能な各割り当てを独自のクラスに割り当てることです。たとえば、バイナリマルチラベル分類を行っていて、3つのラベルがある場合、次のように割り当てることができます。

[0 0 0] = 0
[0 0 1] = 1
[0 1 0] = 2

2=8

2

これと他の人が提案したことを超えて、おそらく条件付きランダムフィールドなどの構造化予測アルゴリズムを確認する必要があります。


0

この問題は、サンプルのラベルの予測にコストがかかる可能性がある、コストに敏感な学習にも関連しています。マルチラベルサンプルの場合、これらのラベルのコストは低く、他のラベルのコストは高くなります。

あなたは見てとることができ、このチュートリアルあなたも対応するスライドを見つけることができるここに

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.