サポートベクターマシンは、属性間の相関関係に敏感ですか?


11

20個の属性に基づいてケース(TRUE / FALSE)を分類するようにSVMをトレーニングしたいと思います。私はそれらの属性のいくつかが高度に相関していることを知っています。したがって、私の質問は、SVMは機能間の相関、つまり冗長性に敏感ですか?参照はありますか?


1つの変数に基づいて分離を生成すると、他の相関変数がそれ以上の分離に関して弱くなるため、私の推測はそうではありません。ただし、どの変数を選択するかについては、不安定になる可能性があります。
mandata

あなたは線形SVM、またはRBFカーネルについて話しているのですか、それとも...?
Dougal

うーん、わかりません...答えはそれに依存しますか?
user7064

そのとおり。必要に応じて、相関を明示的に処理するカーネルを設計できます。
Dougal

1
@Dougal:相関の影響を排除する方法がある場合、それは標準のSVMが相関に敏感であることを意味しませんか?
cfh

回答:


12

線形カーネル:ここでの効果は、線形回帰における多重共線性の効果に似ています。学習したモデルは、異なる重みベクトルでも同様の出力になるため、トレーニングセットの小さな変動に対して特に安定していない場合があります。ただし、トレーニングセットの予測はかなり安定しているため、同じ分布に由来する場合は予測をテストします。

RBFカーネル: RBFカーネルは、データポイント間の距離のみを調べます。したがって、実際には11の属性があり、そのうちの1つが10回繰り返されているとします(かなり極端な場合)。次に、その繰り返された属性は、他の属性の10倍の距離に寄与します。学習されたモデルは、おそらくその機能の影響をはるかに強く受けます。

d(x,y)=(xy)TS1(xy)SxCxCS1=CTCS1


これは非常に興味深い答えです。この種の問題を軽減する方法について、もっと読みたいと思います。参照を1つまたは2つ追加できますか?
Sycoraxは、モニカを2015

私はすぐに良いものを知りませんが、おそらく今夜、少し探してみます。
Dougal

驚くばかり!クールな記事を見つけたら、私を受信トレイに入れてください。私の(+1)が3kを超える可能性があることをうれしく思います。(-:
Sycorax氏は、2015

1
マハラノビス距離の共分散行列の逆数が重要です。確実に見積もることができれば、この影響を考慮することができます。
Vladislavs Dovgalecs
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.