マルチクラスブースト分類器のキャリブレーション


19

Alexandru Niculescu-MizilとRich Caruanaの論文「ブースティングからキャリブレーションされた確率を取得する」とこのスレッドでの議論を読みました。ただし、ロジスティックまたはPlattのスケーリングを理解して実装して、マルチクラスブースティング分類器の出力を調整するのにまだ問題があります(意思決定の切り株による穏やかなブースト)。

私は一般化線形モデルにある程度精通しており、バイナリケースでロジスティックおよびプラットのキャリブレーションメソッドがどのように機能するかを理解していると思いますが、論文で説明されているメソッドをマルチクラスケースに拡張する方法がわかりません。

私が使用している分類子は次を出力します:

  • =得票数クラスのための分類器のキャストその jのサンプルのための分類されていますfijji
  • =推定クラスyi

この時点で、次の質問があります。

Q1:確率を推定するために多項ロジットを使用する必要がありますか?または、ロジスティック回帰を使用してこれを実行できますか(1対すべての方法など)。

Q2:マルチクラスの場合、中間ターゲット変数をどのように定義する必要がありますか(Plattのスケーリングなど)。

Q3:これは多くの質問があるかもしれないことを理解していますが、この問題の擬似コードをスケッチしてくれる人はいますか?(より実用的なレベルでは、Matlabのソリューションに興味があります)。


1
素晴らしい質問です。1を他のスキームと比較して使用する場合でも、キャリブレーションを構築する方法についても疑問に思いました。1対残りを使用してk個のモデルを作成する場合(k個のクラスがあります)、それらを合計して1になるように何らかの方法で正規化する必要がありますか?
B_Miner

回答:


9

これは私にとっても実用的な関心事であるため、少し調査しました。これらの問題の参照としてしばしばリストされる著者による2つの論文はここにあります。

  1. 分類子スコアを正確なマルチクラス確率推定に変換する
  2. 確率推定の結合によるマルチクラスからバイナリへの削減

ここで提唱する技術の要点は、マルチクラス問題をバイナリ問題(たとえば、1対残り、別名1対すべて)に減らし、Platt(テストセットを使用するのが望ましい)などの技術を使用してバイナリスコア/確率を明確にすることです。次に、論文で説明されているように、テクニックを使用してこれらを結合します(1つはHastieらの「結合」プロセスの拡張です)。最初のリンクでは、バイナリ確率を合計して1に単純化することで、最良の結果が見つかりました。

これらのテクニクのいずれかがRで実装されている場合、他のアドバイスを聞きたいです。


回答に記載されているリンクは古くなっています。最新のリンクは以下のとおりです。citeseerx.ist.psu.edu/viewdoc/...の citeseerx.ist.psu.edu/viewdoc/...
チャンドラ


この答えをエコーし​​ます。これは私をしばらく困惑させましたが、ZadroznyとElkanによる論文は有用であることがわかりました。
songololo
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.