近年、畳み込みニューラルネットワーク(CNN)は、コンピュータービジョンにおけるオブジェクト認識の最先端技術になりました。通常、CNNは複数の畳み込み層で構成され、その後に2つの完全に接続された層が続きます。この背後にある直感は、畳み込み層が入力データのより良い表現を学習し、完全に接続された層がラベルのセットに基づいてこの表現を分類することを学習することです。
ただし、CNNが支配を開始する前は、サポートベクターマシン(SVM)が最先端でした。そのため、SVMは2層の完全に接続されたニューラルネットワークよりも依然として強力な分類器であると言えます。したがって、なぜ最新のCNNがSVMではなく完全に接続されたレイヤーを分類に使用する傾向があるのか疑問に思っていますか?このように、強力な特徴表現ではなく、強力な特徴表現と弱い分類子のみの両方の長所があります。
何か案は?