SVMを使用する場合、カーネルを選択する必要があります。
カーネルを選択する方法を疑問に思います。カーネル選択の基準はありますか?
SVMを使用する場合、カーネルを選択する必要があります。
カーネルを選択する方法を疑問に思います。カーネル選択の基準はありますか?
回答:
カーネルは事実上類似性の尺度であるため、Robin(+1)が示唆する不変性の事前知識に従ってカーネルを選択するのは良い考えです。
専門知識がない場合は、放射基底関数カーネルが適切なデフォルトカーネルを作成します(非線形モデルを必要とする問題であることが判明したら)。
カーネルおよびカーネル/正規化パラメーターの選択は、相互検証ベースのモデル選択を最適化する(または半径マージンまたはスパン境界を使用する)ことで自動化できます。最も簡単なことは、Nelder-Meadシンプレックス法を使用して連続モデル選択基準を最小化することです。この方法は、勾配計算を必要とせず、適切な数のハイパーパラメーターに対して適切に機能します。調整するハイパーパラメーターがいくつかある場合、モデル選択基準の分散のために、自動化されたモデル選択により深刻な過剰適合が生じる可能性があります。勾配ベースの最適化を使用することは可能ですが、パフォーマンスを向上させることは通常、コーディングするだけの価値はありません)。
カーネルおよびカーネル/正規化パラメーターの自動選択は、モデル選択基準(通常は相互検証ベース)を非常に簡単にオーバーフィットするため、扱いにくい問題であり、当初よりも悪いモデルになる可能性があります。自動化されたモデル選択はパフォーマンス評価にバイアスをかけることもあるため、パフォーマンス評価でモデルの適合プロセス全体(トレーニングとモデル選択)を評価してください。詳細については、
GC CawleyおよびNLC Talbot、ハイパーパラメータのベイズ正則化によるモデル選択の過剰適合の防止、Journal of Machine Learning Research、第8巻、841〜861ページ、2007年4月。(pdf)
そして
GC CawleyとNLC Talbot、モデル選択の過剰適合とパフォーマンス評価におけるその後の選択バイアス、Journal of Machine Learning Research、vol。11、pp。2079-2107、2010年7月。(pdf)
最適なものがわからない場合は、自動選択技術(クロス検証など)を使用できます。この場合、異なるカーネルで取得した分類器の組み合わせ(問題が分類の場合)を使用することもできます。
ただし、カーネルを使用する「利点」は、通常の「ユークリッド」ジオメトリを変更して、自分の問題に合うようにすることです。また、あなたの問題に対するカーネルの興味、問題の幾何学に特有なものを本当に理解しようとするべきです。これには次のものが含まれます。
線形セパレーターが適切なものであることがわかっている場合は、アフィン関数を提供するカーネルを使用できます(つまり、)。滑らかなKNNの精神で滑らかな境界線の方が良いと思う場合は、ガウスカーネルを取ることができます...
SVMのハイパーパラメータ選択は、グリッド検索と組み合わせた相互検証によって行われると常に感じています。