SVMアルゴリズムの背後にある統計モデルとは何ですか?


28

モデルベースのアプローチを使用してデータを扱う場合、最初のステップはデータモデルを統計モデルとしてモデル化することであることを学びました。次のステップは、この統計モデルに基づいた効率的/高速な推論/学習アルゴリズムの開発です。それでは、どの統計モデルがサポートベクターマシン(SVM)アルゴリズムの背後にあるのかを聞きたいのですが。

回答:


27

多くの場合、損失関数に対応するモデルを作成できます(ここでは、SVM分類ではなく、SVM回帰について説明します。特に簡単です)。

例えば、線形モデルでは、あなたの損失関数がある場合次に、最尤に対応することを最小限にF α EXP - Aig(εi)=ig(yixiβ)= exp afexp(ag(ε)) 。(ここに線形カーネルがあります)=exp(ag(yxβ))

正しく思い出すと、SVM回帰には次のような損失関数があります。

イプシロン無依存損失のプロット

これは、指数の尾を持つ中間部で均一な密度に対応します(負またはその負の倍数を累乗することでわかるように)。

対応する密度のプロット

これらの3つのパラメーターファミリがあります。コーナー位置(相対感度しきい値)に加えて、位置とスケールです。

興味深い密度です。私は数十年前に、その特定の分布を見てから正しくリコール場合、それのための場所のための良好な推定は、コーナー(例えばしている場所に対応する二つの対称的に配置された変位値の平均であるmidhingeは、特定のいずれかのMLEに良好な近似を与えますSVM損失の定数の選択); スケールパラメーターの同様の推定値はそれらの差に基づいていますが、3番目のパラメーターは基本的にコーナーのパーセンタイルの計算に対応します(これは、SVMの場合のように推定ではなく選択される場合があります)

したがって、少なくともSVM回帰の場合、少なくとも最尤法で推定量を取得することを選択している場合は、かなり簡単に思えます。

(あなたが尋ねようとしている場合...私はSVMへのこの特定の接続についての参照を持っていません:私は今それをうまくやったばかりです。しかし、それは非常に簡単ですそれに対する参照があります -私はまったく見たことがありません。)


2
(私は以前にこれに答えましたが、それを削除し、あなたがここで尋ねたのを見たときにここに移動しました。数学を書き、写真を含める能力はここではるかに優れています-検索機能も優れているので、見つけるのが簡単です数ヶ月)
Glen_b -Reinstate Monica

2
2

2
OPがSVMについて尋ねている場合、s / heはおそらく分類(SVMの最も一般的なアプリケーション)に関心があります。その場合、損失はわずかに異なるヒンジ損失です(増加する部分はありません)。このモデルに関して、学会で、確率論的なフレームワークを使用せずに分類を実行するためにSVMが導入されたと学者が聞いた。おそらくそれが参考文献を見つけることができない理由です。一方、経験的リスクの最小化としてヒンジ損失の最小化を再キャストすることができます。
つまり、...-DeltaIV

4
確率的なフレームワークを持っている必要がないという理由だけで...あなたがやっていることがそれに対応していないという意味ではありません。正規性を仮定せずに最小二乗を行うことができますが、それがうまくいっていることを理解することは有用です...そして、あなたが近くにいないとき、それははるかに良くないかもしれません。
Glen_b-モニカを

3
たぶんicml-2011.org/papers/386_icmlpaper.pdf はこのためのリファレンスですか?(私はそれをスキミングしただけです)
リンドンホワイト

8

誰かがあなたの文字通りの質問にすでに答えていると思いますが、混乱の可能性を解消させてください。

あなたの質問は次のようなものです。

f(x)=

言い換えれば、それは確か有効な答えを持っています(規則性の制約を課すならおそらくユニークな答えです)が、そもそもその関数を引き起こした微分方程式ではなかったので、尋ねるのはかなり奇妙な質問です。
(一方、微分方程式を考えると、その解を求めるの自然なことです。なぜなら、それが通常方程式を書く理由だからです!)

その理由は次のとおりです。データから結合確率と条件付き確率を推定することに基づいて、確率的/統計的モデル、具体的には生成モデルと判別モデルを考えていると思います。

SVMはどちらでもありません。それはまったく異なる種類のモデルです。それらをバイパスし、最終的な決定境界を直接モデル化しようとするもので、確率はとてつもないです。

決定境界の形状を見つけることであるため、その背後にある直感は、確率的または統計的ではなく、幾何学的(またはおそらく最適化ベースと言うべきです)です。

確率が途中で実際に考慮されていないことを考えると、対応する確率モデルが何であるかを尋ねることはかなり珍しいことです。特に、目標全体が確率を心配することを避けることであったためです。したがって、なぜあなたは彼らについて話している人々を見ないのですか。


6
あなたはあなたの手順の基礎となる統計モデルの価値を割り引いていると思います。便利な理由は、メソッドの背後にある仮定を教えてくれるからです。これらを知っていれば、どの状況で苦労し、いつ成功するかを理解できます。基礎となるモデルがある場合、原則的にsvmを一般化および拡張することもできます。
確率論的

3
@probabilityislogic:「あなたはあなたの手順の基礎となる統計モデルの価値を割り引いていると思います。」...私たちはお互いに過去を話し合っていると思います。私が言いたいのは、手順の背後に統計モデルがないということです。私はない、それはそれを事後に合う1を思い付くすることはできませんと言って、私はどのような方法でそれを「後ろ」それがなかったことを説明しようとしているのではなく、それを「適合」という事実の後に。また、そのようなことをするのは役に立たないと言っているわけでもありません。私はあなたにそれが途方もない価値で終わる可能性があることに同意します。これらの違いに留意してください。
-Mehrdad

1
@Mehrdad:私はそれを事後的に当てはめることはできないと言っているのではありません、私たちがsvmの「マシン」と呼ぶものが組み立てられた順序解決する)は、科学の観点から興味深いです。しかし、私たちが知っているすべてのために、Glen_bが探求した角度から問題を攻撃する200年前のsvmエンジンの記述を含むまだ未知の原稿がいくつかのライブラリにあるかもしれません。たぶんの概念事後事実の後は、科学にあまり頼りにしています。
user603

1
@ user603:ここで問題となっているのは履歴だけではありません。歴史的側面はその半分に過ぎません。残りの半分は、実際に実際にどのように導出されるかです。ジオメトリの問題として始まり、最適化の問題で終わります。導出の確率モデルで始まる人はいません。つまり、確率モデルは結果の「背後」にはありません。ラグランジュ力学が「背後」にあると主張するようなものです。F= ma。多分それはそれにつながる可能性があり、はい、それは有用です、しかし、いや、それはそれの基礎ではなく、決してありませんでした。実際、全体の目標は確率を避けることでした。
-Mehrdad
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.