テキスト分類の問題は非常に高次元(多くの特徴)になる傾向があり、高次元の問題は線形分離可能になる可能性が高い(ポイントの方法に関係なく、線形分類子を使用してd次元空間のd + 1ポイントを分離できるため)ラベルが付いています)。したがって、リッジ回帰または線形カーネルを使用したSVMのいずれであっても、線形分類器はうまく機能する可能性があります。どちらの場合も、SVMのリッジパラメーターまたはC(tdcが+1に言及しているように)は分類器の複雑さを制御し、各クラスのパターンを大きなマージンで分離することにより過剰適合を回避します2つのポイントコレクション間のギャップの中央)。ただし、良好なパフォーマンスを得るには、リッジ/正規化パラメーターを適切に調整する必要があります(安価なので、leave-one-outクロス検証を使用します)。
ただし、リッジ回帰がうまく機能する理由は、非線形手法が強力すぎるため、過剰適合を回避するのが難しいためです。最適な線形モデルよりも優れた一般化パフォーマンスを提供する非線形分類器が存在する場合がありますが、トレーニングデータの有限サンプルを使用してこれらのパラメーターを推定することは非常に困難です。実際には、モデルが単純であればあるほど、パラメーターを推定する際の問題が少なくなるため、過剰適合の傾向が少なくなるため、実際にはより良い結果が得られます。
別の問題は特徴選択であり、リッジ回帰は重みを小さく保つために重みを正規化することで過剰適合を回避し、単一の回帰パラメータの値を選択するだけでモデルの選択は簡単です。最適なフィーチャセットを選択して過剰適合を回避しようとすると、各フィーチャに自由度(並べ替え)があるため、モデル選択が困難になります。これにより、フィーチャ選択基準を過剰適合させることができます。この特定のデータサンプルに最適な機能のセットになりますが、一般化のパフォーマンスは低下します。そのため、機能の選択を行わず、正則化を使用すると、予測パフォーマンスが向上することがよくあります。
私はよく、バギング(トレーニングセットのブートストラップサンプルでトレーニングされたモデルの委員会を形成)をリッジ回帰モデルと共に使用します。 、したがって、動作中にパフォーマンスに影響はありません。