サポートベクターマシンと超平面の直観


14

私のプロジェクトでは、バイナリ分類(1または0)を予測するためのロジスティック回帰モデルを作成します。

15個の変数があり、そのうち2個はカテゴリ変数で、残りは連続変数と離散変数の混合です。

ロジスティック回帰モデルに適合するために、SVM、パーセプトロンまたは線形プログラミングのいずれかを使用して線形分離可能性をチェックすることをお勧めします。これは、線形分離性のテストに関するここでの提案と関連しています。

機械学習の初心者として、私は上記のアルゴリズムに関する基本的な概念を理解していますが、概念的には非常に多くの次元(この場合は15)を持つデータを分離する方法を視覚化するのに苦労しています。

オンライン資料のすべての例は、通常、2つの数値変数(高さ、重量)の2Dプロットを示しています。これは、カテゴリ間の明確なギャップを示し、理解しやすくしますが、実際のデータは通常、はるかに高い次元です。Irisデータセットに引き戻され続け、3つの種に超平面を当てはめようとしています。2つの種の間でそうすることが不可能ではないにしても、特に難しい方法です。

さらに高次元の場合どのようにこれを達成しますか?この分離可能性を達成するためにカーネルを使用して高次元空間にマッピングする特定の数の特徴を超えると仮定されますか?

また、線形分離可能性をテストするために、使用されるメトリックは何ですか?SVMモデルの精度、つまり混同マトリックスに基づく精度ですか?

このトピックをよりよく理解するための助けをいただければ幸いです。また、以下はデータセット内の2つの変数のプロットのサンプルであり、これらの2つの変数だけが重なり合っていることを示しています。

ここに画像の説明を入力してください


1
投稿にいくつかの明確な質問が散在しているようです。それらをすべてリストにまとめるか、重要ではない質問を削除します。これにより、より多くの人々がより多くの回答を得ることができ、より良い回答が得られます
-Aksakal

2
一般的に、直感は2Dから高次元の状況に移行するときに想像力から多くの助けを必要とします。多くの場合、直感は完全に壊れます。考える、まったく違う世界のものの仕事differentltyに属しているように見える低次元の問題の多くの高次元のバージョンがあるフェルマーの定理
Aksakal

回答:


14

次元を追加すると線形分類器が2つのクラスをより適切に分離するのに役立つ理由を理解できるようにしようと思います。

2つの連続予測子およびとがあり、バイナリ分類を実行しているとします。つまり、データは次のようになります。バツ1バツ2n=3

n = 3

ここで、ポイントの一部をクラス1に、一部をクラス2に割り当てることを想像してください。クラスをどのようにポイントに割り当てても、2つのクラスを完全に分離する線を常に描画できることに注意してください。

しかし、新しいポイントを追加するとしましょう。

n = 4

現在、これらのポイントは2つのクラスに割り当てられているため、線で完全に分離することはできません。そのような割り当ての1つは、図の色分けによって与えられます(これはXORパターンの例であり、分類子を評価するときに覚えておく必要がある非常に便利なパターンです)。したがって、これは、変数を使用して線形分類器を使用して任意の3つの(非共線)ポイントを完全に分類できるが、一般に4つの非共線ポイントを完全に分類できないことを示しています。p=2

しかし、別の予測子追加するとどうなりますか?バツ3

p = 3、n = 4

ここでは、明るい影付きのポイントが原点に近くなります。少しわかりにくいかもしれませんが、とを使用すると、これらのポイントへのクラスラベルの割り当てを完全に分類できます。p=3n=4

一般的な結果:予測子では、線形モデルは2つのクラスの割り当てをポイントに完全に分類できます。pp+1

このすべてのポイントは、固定してを増やすと、ラベルの割り当てを完全に分類できるポイントに達するまで、分離できるパターンの数を増やすということです。カーネルSVMを使用すると、高次元空間に線形分類器を暗黙的に適合させるため、分離の存在を心配する必要はほとんどありません。np

可能な分類器のセットがためにのサンプルのためならば、の点で機能が存在する完全にこれらのラベルのいずれかの割り当てを分類することができポイントは、我々はと言うでき粉々 n点。場合は内のすべての線形分類器のセットである変数が、その後まで粉砕することができポイント。がすべての測定可能な関数の空間である場合FnFnFFpFn=p+1Fp変数を使用すると、任意の数のポイントを粉砕できます。この粉砕の概念は、可能な分類子のセットの複雑さを示しており、統計学習理論に基づいており、分類子のセットが実行できる過剰適合の量に関するステートメントを作成するために使用できます。興味がある場合は、LuxburgとSchölkopfの「統計学習理論:モデル、概念、結果」(2008)を強くお勧めします。


詳細な対応に感謝します。多次元機能の概念と直感的にそれらを分離する方法を理解するのに本当に役立ちました。
-TheGoat

7

低次元の空間に関する直感を利用して、高次元の空間に適用すると、間違いを犯しやすくなります。この場合、あなたの直感はまったく逆です。低い空間よりも高い次元の空間で分離超平面を見つける方がはるかに簡単であることがわかりました。

2組の変数を見たとき、赤と青の分布は重複していますが、15個すべての変数を一度に見ると、まったく重複していない可能性があります。


2

15個の変数がありますが、それらのすべてが従属変数の識別に同等に重要であるとは限りません(それらの一部は、ほとんど無関係でさえあるかもしれません)。

主成分分析(PCA)は、これらの15個の変数の線形基底を再計算し、最初の数個の成分がほとんどの分散を説明するような方法でそれらを順序付けます。したがって、これにより、15次元の問題を(たとえば)2,3,4、または5次元の問題に減らすことができます。したがって、プロットがより直感的になります。通常、数値(または高カーディナリティの序数)変数に2つまたは3つの軸を使用してから、3つの追加ディメンションにマーカーの色、形状、およびサイズを使用できます(低カーディナリティの序数を組み合わせることができる場合はそれ以上)。したがって、最も重要な6台のPCでプロットすると、意思決定面をより明確に視覚化できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.