回答:
線形データの場合、これはもちろん有用ではありませんが、非線形データの場合、これは常に有用であると思われます。線形分類器の使用は、トレーニング時間とスケーラビリティの点で非線形よりもはるかに簡単です。
@BartoszKPは、カーネルトリックが便利な理由をすでに説明しています。あなたの質問に完全に対処するために、私が指摘したいのは、非線形に分離可能なデータを扱う唯一の選択肢はカーネル化ではないということです。
モデルの非線形化には、少なくとも3つの優れた一般的な代替手段があります。
要約すると、カーネル化は優れた非直線化手法であり、問題が線形でない場合に使用できますが、これは盲目的な「もし」のアプローチではありません。これは、問題と要件に応じてさまざまな結果につながる可能性がある、少なくともいくつかの興味深い方法の1つにすぎません。特に、ELMはカーネル化されたSVMによって与えられるものと非常によく似たソリューションを見つける傾向がありますが、同時に行の大きさをより速くトレーニングできます(したがって、カーネル化されたSVM よりもはるかに優れたスケールアップが可能です)。
線形手法の場合、一般にカーネルトリックに支払う代償は、より一般化された範囲にあります。線形モデルの場合、VC次元は次元数の点でも線形です(たとえば、パーセプトロンのVC次元はd + 1
)。
さて、複雑な非線形変換を高次元空間に実行すると、仮説セットのVC次元は大幅に大きくなります。これは、新しい高次元空間の次元数に関して線形になったためです。それに伴い、一般化の限界が上がります。
サポートベクターマシンは、次の2つのことを行うことにより、最も効率的な方法でカーネルトリックを活用します。
ハードマージンSVMモデルの一般化限界はサポートベクトルの数に関連し、ソフトマージンの場合は重みベクトルのノルムに関連します。したがって、最初のケースでは無関係であり、2番目のケースではほとんど無関係です。 。カーネルのターゲットスペースがどれほど「大きく」ても、一般化に関しては何も/あまり失うことはありません(参照:(i)C. CortesおよびV. Vapnik。サポートベクターネットワーク。MachineLearning、20:273– 297、1995 ;(II)Shawe-Taylorの、J .; Cristianini、N.、 "ソフトマージンアルゴリズムの一般化で、"情報理論、vol.48、第10号、pp.2721,2735上のIEEEトランザクション、 2002年10月)。
SVMは、マージンを最大化する分離平面を見つけます。これにより、仮説セットがさらに単純化されます(マージンを最大化する分離平面だけを考慮するわけではありません)。単純な仮説セットは、より良い一般化境界にもつながります(これは最初の点に関連していますが、より直感的です)。
私はあなたの質問に非技術的な答えを提供しようとします。
実際、線形が優先されるべきであり、あなたが言及する理由、トレーニング時間、スケーラビリティに加えて、最終モデルの解釈の容易さ、プライマリまたはデュアルでの作業の選択、過剰適合に対するより大きな耐性などのために最初の選択肢でなければなりません
線形モデルで十分なパフォーマンスが得られない場合は、非線形ソリューションを試すことができます。考慮すべきいくつかのトレードオフは次のとおりです。