私は機械学習コースを勉強しており、講義のスライドには推奨されている本と矛盾する情報が含まれています。
問題は次のとおりです。3つの分類子があります。
- 低い範囲のしきい値でより良いパフォーマンスを提供する分類子A
- より高い範囲のしきい値でより優れたパフォーマンスを提供する分類子B
- 分類子C pコインを反転し、2つの分類子から選択することで得られるもの。
ROC曲線で見た分類器Cのパフォーマンスはどうなりますか?
講義のスライドでは、このコインを反転させるだけで、分類器AとBのROC曲線の魔法の「凸包」が得られると述べています。
私はこの点を理解していません。コインをひっくり返すだけで、どのようにして情報を得ることができますか?
講義スライド
本が言うこと
一方、推奨される本(Ian H. Witten、Eibe Frank、Mark A. HallによるData Mining ...)は次のように述べています。
これを確認するには、tAとfAのそれぞれ正と偽の正の割合を与えるメソッドAの特定の確率カットオフと、tBとfBを与えるメソッドBの別のカットオフを選択します。これら2つのスキームを確率pとq(p + q = 1)でランダムに使用すると、pの真と偽の陽性率が得られます。tA + q tBおよびp fA + q fB。これは、ポイント(tA、fA)と(tB、fB)を結ぶ直線上にあるポイントを表し、pとqを変えることにより、これら2つのポイント間のライン全体をトレースできます。
私の理解では、本が言うことは、実際に情報を得て凸包に到達するためには、単にpコインをひっくり返すよりも高度なことをする必要があるということです。
私の知る限り、正しい方法は(本で提案されているように)次のとおりです。
- 分類器Aの最適なしきい値Oaを見つける必要があります
- 分類器Bの最適なしきい値Obを見つける必要があります
Cを次のように定義します。
- t <Oaの場合、tで分類器Aを使用します
- t> Obの場合、tで分類器Bを使用
- Oa <t <Obの場合、OaとObの間の位置の線形結合としての確率により、Oaを持つ分類器AとObを持つBの間を選択します。
これは正しいです?はいの場合、スライドが示唆するものと比較していくつかの重要な違いがあります。
- それは単純なコインの反転ではなく、どの地域に属するかに基づいて手動で定義されたポイントとピックを必要とするより高度なアルゴリズムです。
- OaとObの間のしきい値で分類子AとBを使用することはありません。
私の理解が正しくなかった場合、この問題とそれを理解する正しい方法は何ですか?
スライドが示すように、単にpコインを反転させるだけで何が起こるでしょうか?AとBの間のROC曲線が得られると思いますが、特定のポイントでより良い曲線よりも「良い」曲線になることはありません。
私が見る限り、私はスライドがどのように正しいかを本当に理解していません。左側の確率的計算は私には意味がありません。
更新: 凸包法を発明した元の著者によって書かれた記事を見つけました:http : //www.bmva.org/bmvc/1998/pdf/p082.pdf