コインをひっくり返して分類器を組み合わせる


15

私は機械学習コースを勉強しており、講義のスライドには推奨されている本と矛盾する情報が含まれています。

問題は次のとおりです。3つの分類子があります。

  • 低い範囲のしきい値でより良いパフォーマンスを提供する分類子A
  • より高い範囲のしきい値でより優れたパフォーマンスを提供する分類子B
  • 分類子C pコインを反転し、2つの分類子から選択することで得られるもの。

ROC曲線で見た分類器Cのパフォーマンスはどうなりますか?

講義のスライドでは、このコインを反転させるだけで、分類器AとBのROC曲線の魔法の「凸包」が得られると述べています。

私はこの点を理解していません。コインをひっくり返すだけで、どのようにして情報を得ることができますか?

講義スライド

講義スライド

本が言うこと

一方、推奨される本(Ian H. Witten、Eibe Frank、Mark A. HallによるData Mining ...)は次のように述べています。

これを確認するには、tAとfAのそれぞれ正と偽の正の割合を与えるメソッドAの特定の確率カットオフと、tBとfBを与えるメソッドBの別のカットオフを選択します。これら2つのスキームを確率pとq(p + q = 1)でランダムに使用すると、pの真と偽の陽性率が得られます。tA + q tBおよびp fA + q fB。これは、ポイント(tA、fA)と(tB、fB)を結ぶ直線上にあるポイントを表し、pとqを変えることにより、これら2つのポイント間のライン全体をトレースできます。

私の理解では、本が言うことは、実際に情報を得て凸包に到達するためには、単にpコインをひっくり返すよりも高度なことをする必要があるということです。

私の知る限り、正しい方法は(本で提案されているように)次のとおりです。

  1. 分類器Aの最適なしきい値Oaを見つける必要があります
  2. 分類器Bの最適なしきい値Obを見つける必要があります
  3. Cを次のように定義します。

    • t <Oaの場合、tで分類器Aを使用します
    • t> Obの場合、tで分類器Bを使用
    • Oa <t <Obの場合、OaとObの間の位置の線形結合としての確率により、Oaを持つ分類器AとObを持つBの間を選択します。

これは正しいです?はいの場合、スライドが示唆するものと比較していくつかの重要な違いがあります。

  1. それは単純なコインの反転ではなく、どの地域に属するかに基づいて手動で定義されたポイントとピックを必要とするより高度なアルゴリズムです。
  2. OaとObの間のしきい値で分類子AとBを使用することはありません。

私の理解が正しくなかった場合、この問題それを理解する正しい方法は何ですか?

スライドが示すように、単にpコインを反転させるだけで何が起こるでしょうか?AとBの間のROC曲線が得られると思いますが、特定のポイントでより良い曲線よりも「良い」曲線になることはありません。

私が見る限り、私はスライドがどのように正しいかを本当に理解していません。左側の確率的計算は私には意味がありません。

更新: 凸包法を発明した元の著者によって書かれた記事を見つけました:http : //www.bmva.org/bmvc/1998/pdf/p082.pdf


あなたが投稿したスライドと本の抜粋の両方を読んだところ、彼らはまったく同じことを説明しているようであり、スライドには誤りはありません。
枢機

また、スライドに記載されている事実を納得させるためにシミュレーションを作成することも難しくありません。あなたが持つかもしれない唯一の困難は、そのように見える2つのROC曲線を構築することですが、例えば、ガウス混合モデルを使用して観測といくつかの準最適な決定ルールを生成することで管理できます。
枢機

回答:


12

(編集済み)

講義のスライドは正しいです。

方法Aには、それぞれ(TPA、グラフのFPA)の真と偽の陽性率を与える「最適点」があります。この点は、しきい値、またはより一般的には[*] Aの最適な決定境界に対応します。Bについても同じことが言えます(ただし、しきい値と境界は関係ありません)。

分類器Aは、「偽陽性を最小限に抑える」設定(保守的な戦略)および分類器Bを「真の陽性を最大化する」(積極的な戦略)の下でうまく機能することがわかります。

最初の質問に対する答えは基本的にははいです。ただし、コインの確率は(ある意味では)任意です。最後のクラシフィエは次のようになります。

xxp

(修正済み:実際、講義は完全に正しい。いずれにしてもコインを裏返すことができる。図を参照)

p

[*]ここで一般的になります。単一のスカラーしきい値の観点から考えると、これはほとんど意味がありません。しきい値ベースの分類子を使用した1次元の特徴では、AとBの異なる分類子を使用するのに十分な自由度がありません。これは、自由パラメーター(決定境界=しきい値)が異なる場合に異なる曲線に沿って実行されます。つまり、AとBは、「分類子」ではなく「メソッド」または「システム」と呼ばれます。Aは分類器のファミリー全体であり、単なるスカラーではなく、決定境界を決定するパラメーター(スカラー)によってパラメーター化されているためです]

わかりやすくするために図を追加しました。

ここに画像の説明を入力してください

ttttA=2ttB=4

このシナリオでは、塗りつぶされたオレンジ色の線が「最適なA分類子」(そのファミリー内)であり、Bでも同じであると言えます。しかし、オレンジ色の線が青い線よりも優れているかどうかはわかりません偽陽性に高いコストを割り当てるとより良くなり、偽陰性にはるかにコストがかかる場合はより良くなります。

ここに画像の説明を入力してください

現在、これらの2つの分類器は私たちのニーズに対して極端すぎる場合があります。どちらのタイプのエラーも同様の重みを持つようにしたいと思います。分類子A(オレンジドット)またはB(青いドット)を使用する代わりに、それらの間にあるパフォーマンスを達成することをお勧めします。もちろん言うように、コインをひっくり返すだけでその結果を達成し、ランダムに分類子の1つを選択することができます。

コインを単にひっくり返すだけで、どのようにして情報を得ることができますか?

情報は得られません。新しいランダム化分類器は、AまたはBよりも単に「優れている」だけでなく、各タイプのエラーに割り当てられたコストに関して、パフォーマンスはAとBの平均のようなものです。それは、私たちの費用に応じて、私たちにとって有益な場合とそうでない場合があります。

私の知る限り、正しい方法は(本で提案されているように)次のとおりです...これは正しいですか?

p


@leonboy xはしきい値であり、x分類器Aの値が小さい場合に最もよく機能すると考えています。xの値が大きい場合、分類子Bが最適に機能します。最良の意味では、特定の偽陽性率に対して真の陽性率が最も高いことを意味します。Aが交差する単一ポイントまで最適に機能し、それを超えるすべてのしきい値でBが最もよく機能することがわかっている場合、FPaとFPbの間の領域でAに1未満の重みを与えるアルゴリズムは、TPがより高く実行できませんAだけでなく、そのようなアルゴリズムCはその領域でAを下回らなければなりません。
マイケルR.チャーニック

同様にFPaとFPbの間の領域で、TPがBの方が高い場合、pが0より大きいアルゴリズムはBより優れたパフォーマンスを発揮しません。およびTPb。それらの間に落ちなければなりません。しかし、この図は、FPaとFPbからの地域全体で、TPaとTPbよりも上のTPcを常に示しています。ここに、私たちが見逃しているものがありますか?私はあなたの答えにそれを見つけません。
マイケルR.チェルニック

1
さて、電球は消えました!Xは、スカラーしきい値ではなく、心の中のベクトルです。それは本当に何かを変えますか?FP補助はスカラー確率です。私の交点はAとBのFPの平等点です。それにつながる多くのベクトルXが存在する可能性があります。私は、FPaとFPbの間のFP軸に沿った任意のポイントで言っているだけです。TPc = p TPa +(1-p)TPb。プロットの線は、TP対FP平面にあります。OPが質問したとき、その線はAとBの両方の曲線の上の点をどのように通過できますか(適切だと思います)。
マイケルR.チャーニック

1
@Michael:AとBは、異なる境界決定を与える別個の方法だと思います。各パラメーターには調整可能なパラメーター(1Dではしきい値)があり、パラメーターは独立しており、(それぞれに対して)分類子のファミリーを提供します。わかりやすくするために、図をプロットして、しばらくお待ちください。
レオンブロ

1
私はレオンブロイにその美しい説明に対して賛成票を投じました。しかし、私は枢機inalの最終コメントが好きです。なぜなら、その議論は私には明らかであり、私の最新の考えに同意するからです。@leobloyダイアグラムから欠落しているのは、両方の個別のルールを破るランダム化されたルールのポイントのプロットです。新しいルールを2つのエラーに異なる重みを付けるものとして説明できると思いますが、それは必要ではなく、その引数を省略しても混乱は少ないと思います。
マイケルR.チャーニック

2

あなたの推論に同意します。ポイントAとBの間にコインフリッピングによる分類器を使用して1つを選択すると、曲線上のポイントは常により良い分類器の下で、より悪い分類器の上になり、おそらく両方の上にはありません!ダイアグラムに何か問題があるはずです。2つのROC曲線がランダム選択アルゴリズムと交差する時点で、2つのアルゴリズムと同じパフォーマンスが得られます。図が示すように、その上にはありません。


1
スライドは正しいと思います。2つの異なるしきい値を使用して2つの異なる決定手順を使用し、その後ランダム化された決定を行うと、2つの間にある点を与える凸の組み合わせが得られます。このポイント、同じ偽陽性率で両方の曲線()を超える場合あります。これは、各手順で使用されるしきい値がその時点で異なるためです。
枢機

1
したがって、凸の組み合わせのAとBは、その偽陽性率で個別に選択されるAとBとは異なります。AとBが分類子のファミリーから選択されたことを確認できなかったため、図が混乱していると思います。
マイケルR.チャーニック

1
AB

私はこの答えが正しいと信じており、枢機inalのコメントが追加されています!交差点エリアから抜け出すことは起こるかもしれませんが、それは方法ではありません。私はこの方法を発明した人からの元の論文を見つけました、そしてそれは非常によく説明します!bmva.org/bmvc/1998/pdf/p082.pdf
ハイパーノット

@zsero:この回答は、回答が投稿された時点でのダイアグラムの理解に基づいており、コメントやその他の回答が表示されてから彼の解釈が変更されたことをマイケルも認めると思います。図が示すように、結果の真陽性率が特定の偽陽性率の他の2つの曲線を支配している場合でも、最初の曲線上の点と2番目の曲線上の点の間の任意の線上の任意の点をランダム化によって達成できます。
枢機
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.