ハイパーラインからの距離に応じたSVM信頼度


9

確率的マルチクラス分類器の場合、各クラスへの新しい点メンバーシップの確率を取得できます。3つのクラスの場合、得られると仮定します。したがって、の最も可能性の高いクラスはです。今、私たちはの会員のスコアを取得することができ、マルチクラスSVMがあるとし(hyperlinesからの距離に応じて)各クラスにします。3クラスの場合には、我々が入手したとする、どのようにこの場合の最も可能性の高い2番目、3番目、最初のクラスである(これらを変換せずに確率から得点)?通常私は例えばのように正と負の値を取得しますy i P y a | x > P y b | x > P y c | x y a x S c o r e y a | x S c o r e y b | x S c o r e y cxyiP(ya|x)>P(yb|x)>P(yc|x)yaxX S C O R E 1 = - 8622 S 、C 、O 、R 、E 2 = 5233 S C O R E 3 = - 665Score(ya|x),Score(yb|x),Score(yc|x)xScore1=8622,Score2=5233,Score3=665

回答:


11

サポートベクターマシンから確率を取得することは実際に可能です。これは、任意の「スコア」値よりも有用で解釈しやすいかもしれません。これを行うためのいくつかのアプローチがあります。開始するための1つの合理的な場所は、Platt(1999)です。

ほとんどのSVMパッケージ/ライブラリはこのようなものを実装します(たとえば、-b 1オプションはLibSVMに確率を生成させます)。自分でロールする場合は、Lin、Lin、およびWeng(2007)によってこのノートに要約されているいくつかの潜在的な数値の問題があることに注意してください。また、いくつかの疑似コードも提供されます。これも役立つ場合があります。

コメントに応じて編集する:特に最小限の追加労力で確率を得ることができるので、確率よりもスコアを好む理由は少しわかりません。そうは言っても、ほとんどの確率計算は、点と超平面の間の距離から導出されているように見えます。プラット紙のセクション2を見ると、彼は動機を説明し、次のように述べています。

マージン間のクラス条件付き密度は、明らかに指数関数的です。2つの指数に関するベイズの規則は、シグモイドのパラメトリック形式の使用を示唆しています: このシグモイドモデルは、出力がSVMの確率は、正のトレーニング例の対数尤度に比例します。[MK:は他の場所で生のSVM出力として定義されました]。 f

P(y=1|f)=11+exp(Af+B)
f

メソッドセクションの残りの部分では、そのシグモイドのパラメーターとパラメーターを近似する方法について説明します。序論(セクション1.0および1.1)で、PlattはVapnik、Wahba、およびHasti&Tibshiraniによる他のいくつかのアプローチをレビューします。これらのメソッドは、超平面までの距離のようなものも使用し、さまざまな方法で操作されます。これらはすべて、超平面までの距離にいくつかの有用な情報が含まれていることを示唆しているようです。したがって、生の距離を信頼性の(非線形)尺度として使用できると思います。BAB


1
まあ、私はスコア(境界からの距離)を確率に変換する方法があることを知っていますが、質問で明確に述べられているように、より解釈しやすいかもしれません:これらのスコアを「これらのスコアを確率に変換せずに使用したい」 」だから私の質問は、これらすべてのスコアの絶対値を取り、スコアの絶対値が高いほどと言うのは理にかなっていますか 最も可能性の高いはクラスですか?または、絶対値なしでスコアを比較する必要がありますか?または...?x i|si|xi
2013

0

トレーニングデータセットが適度にバランスが取れており、標準化された機能がある場合、SVMスコアをそれぞれのクラスに属していることの信頼度の尺度として使用します。スコアをプラットスケーリングなどの確率のような量に変換する、いわゆるキャリブレーション方法は、通常、単調関数(ロジスティック関数など)を使用してスコアを確率にマッピングします。したがって、可能なクラスに属する特定のテストデータポイントで学習したSVMモデルの信頼レベルのみを比較したい場合は、モデルの学習元であるトレーニングデータセットが与えられている場合、スコア値(絶対値ではなく)を比較できますかなりバランスが取れており、異常な癖はありません。


この答えがわかりません。
Michael R. Chernick

ポイントを明確にするために編集しました。
Reza、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.