リッジ回帰分類器がテキスト分類で非常にうまく機能するのはなぜですか?


17

テキスト分類の実験中に、SVM、NB、kNNなどのテキストマイニングタスクに一般的に言及され、適用されている分類子の中で常にテストを上回る結果を生成するリッジ分類子を発見しました。パラメータに関するいくつかの簡単な調整を除き、この特定のテキスト分類タスクで各分類子を最適化する。

そのような結果はディクラン・マースピアルにも言及されました

統計の背景から来ていない、オンラインでいくつかの資料を読んだ後、私はまだこれの主な理由を理解することはできません。誰でもそのような結果についての洞察を提供できますか?

回答:


16

テキスト分類の問題は非常に高次元(多くの特徴)になる傾向があり、高次元の問題は線形分離可能になる可能性が高い(ポイントの方法に関係なく、線形分類子を使用してd次元空間のd + 1ポイントを分離できるため)ラベルが付いています)。したがって、リッジ回帰または線形カーネルを使用したSVMのいずれであっても、線形分類器はうまく機能する可能性があります。どちらの場合も、SVMのリッジパラメーターまたはC(tdcが+1に言及しているように)は分類器の複雑さを制御し、各クラスのパターンを大きなマージンで分離することにより過剰適合を回避します2つのポイントコレクション間のギャップの中央)。ただし、良好なパフォーマンスを得るには、リッジ/正規化パラメーターを適切に調整する必要があります(安価なので、leave-one-outクロス検証を使用します)。

ただし、リッジ回帰がうまく機能する理由は、非線形手法が強力すぎるため、過剰適合を回避するのが難しいためです。最適な線形モデルよりも優れた一般化パフォーマンスを提供する非線形分類器が存在する場合がありますが、トレーニングデータの有限サンプルを使用してこれらのパラメーターを推定することは非常に困難です。実際には、モデルが単純であればあるほど、パラメーターを推定する際の問題が少なくなるため、過剰適合の傾向が少なくなるため、実際にはより良い結果が得られます。

別の問題は特徴選択であり、リッジ回帰は重みを小さく保つために重みを正規化することで過剰適合を回避し、単一の回帰パラメータの値を選択するだけでモデルの選択は簡単です。最適なフィーチャセットを選択して過剰適合を回避しようとすると、各フィーチャに自由度(並べ替え)があるため、モデル選択が困難になります。これにより、フィーチャ選択基準を過剰適合させることができます。この特定のデータサンプルに最適な機能のセットになりますが、一般化のパフォーマンスは低下します。そのため、機能の選択を行わず、正則化を使用すると、予測パフォーマンスが向上することがよくあります。

私はよく、バギング(トレーニングセットのブートストラップサンプルでトレーニングされたモデルの委員会を形成)をリッジ回帰モデルと共に使用します。 、したがって、動作中にパフォーマンスに影響はありません。


次元空間の点を意味しますか?たとえば、2次元空間に3つのポイントがあり、2つがクラス1で、1つがすべてライン上にあり、クラス2のポイントが他の2つの間にある場合、これらを2つに分けることはできません線(1次元超平面)d1d
tdc

通常、ポイントは「一般的な位置」にあると想定されるため、(たとえば)直線上にあることはありません。その場合、2次元空間では、3つのポイントを分離できます。すべてのポイントが直線上にある場合、実際には、それらは2次元空間に埋め込まれた1次元部分空間に存在します。
ディクランMarsupial

ウィキペディア私は確信して、なぜこれが真実であるべきではないんですが、文があり、「法の平均値、いくつかの予測因子ので、線形モデルの改善に有用ではありませんか」?
tdc

なぜそうなのかわかりません。バギングされた線形モデルは単一の線形モデルで正確に表現できるという問題があると思いますが、問題は単一のモデルのパラメーターの推定であり、モデルの形式ではありません。バギングは一般化を改善することがわかりましたが、観測よりも多くの特徴がない限り、一般にゲインは小さいです(モデルの推定が不安定で、データの小さな変化がモデルに大きな変化をもたらすように)。
ディクランMarsupial

ウィキペディアのページを更新する必要があるかもしれません!あなたは...問題に精通して音
TDC

6

名前が示すように、リッジ回帰は分類ではなく回帰の方法です。おそらく、しきい値を使用して、それを分類器に変えています。いずれにせよ、あなたは単純に超平面によって定義される線形分類器を学習しています。動作している理由は、手元のタスクが本質的に線形に分離可能であるためです。つまり、クラスを分離するために必要なのは単純な超平面だけです。「リッジ」パラメータを使用すると、完全に線形に分離できない場合やランクが不十分な問題(この場合、最適化が低下する)で機能します。

この場合、正しく実装されていると仮定して、他の分類器もうまく機能しない理由はありません。たとえば、SVMは「最適な分離超平面」(つまり、クラス間のマージンまたはギャップを最大化する超平面)を見つけます。CSVM のパラメーターは、リッジパラメーターに類似した容量制御パラメーターであり、いくつかの誤分類(外れ値)を許容します。パラメータ選択プロセスが熱心に実行されたと仮定すると、2つの方法がそのようなデータセットでほぼ正確に同じ結果を生成することが期待されます。


2
LS-SVMのバイナリ分類は-1,1ラベルのリッジ回帰と同等であり、それらの定式化は同じであることが示されていることを読んだことを覚えています。
Firebug

あなたはその1つに正しいかもしれないと思う
-tdc
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.