36

ガウスカーネルを備えたSVMには無限の次元の特徴空間があるという事実の背後にある直観は何ですか？

svm feature-selection kernel-trick

— user36162
ソース

1

私は質問を本当に理解していません。対応する特徴空間が無限次元である理由の説明や、結果の超平面の意味についての解釈が必要ですか？

— マーククレセン

1

両方聞いても構いません！

— user36162

5

これは興味深い質問だと思う（+1）

39

この回答は次のことを説明しています。

明確なポイントとガウスカーネル（帯域幅が十分に小さい）で常に完全な分離が可能な理由
この分離を線形として解釈する方法、ただしデータが存在する空間とは異なる抽象的な機能空間でのみ
データ空間から機能空間へのマッピングがどのように「見つけられる」か。ネタバレ：SVMでは検出されず、選択したカーネルによって暗黙的に定義されます。
特徴空間が無限次元である理由。

1.完全な分離を達成する

ガウスカーネルを使用すると、カーネルのローカリティプロパティが任意に柔軟な決定境界につながるため、ガウスカーネルでは常に完全な分離が可能です（異なるクラスの2つのポイントがまったく同じでない場合）。カーネルの帯域幅が十分に小さい場合、正と負の例を区別する必要があるときはいつでも、決定境界はポイントの周りに小さな円を描いたように見えます。

（クレジット：Andrew Ngのオンライン機械学習コース）。

では、なぜこれが数学的な観点から起こるのでしょうか？

標準の設定を考えてみましょう：あなたは、ガウスカーネル持っとトレーニングデータ $K(\mathbf{x},\mathbf{z}) = \exp(-||\mathbf{x}-\mathbf{z}||^2 / \sigma^2)$ ここで、値はです。分類関数を学びたい $(\mathbf{x}^{(1)},y^{(1)}), (\mathbf{x}^{(2)},y^{(2)}), \ldots, (\mathbf{x}^{(n)},y^{(n)})$ $y^{(i)}$ $\pm 1$

\hat{y} (x) = \sum_{i} w_{i} y^{(i)} K (x^{(i)}, x)

$\hat{y}(\mathbf{x}) = \sum_i w_i y^{(i)} K(\mathbf{x}^{(i)},\mathbf{x})$

重みをどのように割り当てるのでしょうか？無限次元空間と二次計画アルゴリズムが必要ですか？いいえ、ポイントを完全に分離できることを示したいだけです。そこで、最小の間隔よりも10億倍小さくします任意の2つのトレーニング例の間で、設定します。これは、カーネルに関する限り、すべてのトレーニングポイントが10億シグマ離れていることを意味し、各ポイントはその近傍の符号を完全に制御します。正式には、 $w_i$ $\sigma$ $||\mathbf{x}^{(i)} - \mathbf{x}^{(j)}||$ $w_i = 1$ $\hat{y}$

\hat{y} (x^{(k)}) = \sum_{i = 1}^{n} y^{(k)} K (x^{(i)}, x^{(k)}) = y^{(k)} K (x^{(k)}, x^{(k)}) + \sum_{i \neq k} y^{(i)} K (x^{(i)}, x^{(k)}) = y^{(k)} + ϵ

$\hat{y}(\mathbf{x}^{(k)}) = \sum_{i=1}^n y^{(k)} K(\mathbf{x}^{(i)},\mathbf{x}^{(k)}) = y^{(k)} K(\mathbf{x}^{(k)},\mathbf{x}^{(k)}) + \sum_{i \neq k} y^{(i)} K(\mathbf{x}^{(i)},\mathbf{x}^{(k)}) = y^{(k)} + \epsilon$

ここで、は任意の小さな値です。は他のポイントから10億シグマ離れているため、は小さいことがわかっています。したがって、すべてのについて、 $\epsilon$ $\epsilon$ $\mathbf{x}^{(k)}$ $i \neq k$

K (x^{(i)}, x^{(k)}) = \exp (- | | x^{(i)} - x^{(k)} | |^{2} / σ^{2}) \approx 0.

$K(\mathbf{x}^{(i)},\mathbf{x}^{(k)}) = \exp(-||\mathbf{x}^{(i)} - \mathbf{x}^{(k)}||^2 / \sigma^2) \approx 0.$

以来小さいので、、間違いなく同じ符号有するし、分類器は、訓練データに完璧な精度を達成します。 $\epsilon$ $\hat{y}(\mathbf{x}^{(k)})$ $y^{(k)}$

2.線形分離としてのカーネルSVM学習

これが「無限次元の特徴空間での完全な線形分離」として解釈できるという事実は、カーネルの秘fromに由来します。

K (x^{(i)}, x^{(j)}) = ⟨ Φ (x^{(i)}), Φ (x^{(j)}) ⟩

$K(\mathbf{x}^{(i)},\mathbf{x}^{(j)}) = \langle\Phi(\mathbf{x}^{(i)}),\Phi(\mathbf{x}^{(j)})\rangle$

ここで、はデータ空間から機能空間へのマッピングです。すぐに、は特徴空間の線形関数として機能します。 $\Phi(\mathbf{x})$ $\hat{y}(\mathbf{x})$

\hat{y} (x) = \sum_{i} w_{i} y^{(i)} ⟨ Φ (x^{(i)}), Φ (x) ⟩ = L (Φ (x))

$\hat{y}(\mathbf{x}) = \sum_i w_i y^{(i)} \langle\Phi(\mathbf{x}^{(i)}),\Phi(\mathbf{x})\rangle = L(\Phi(\mathbf{x}))$

ここで、線形関数は、特徴空間ベクトルように定義されます $L(\mathbf{v})$ $\mathbf{v}$

L (v) = \sum_{i} w_{i} y^{(i)} ⟨ Φ (x^{(i)}), v ⟩

$L(\mathbf{v}) = \sum_i w_i y^{(i)} \langle\Phi(\mathbf{x}^{(i)}),\mathbf{v}\rangle$

この関数は、では線形です。これは、内積と固定ベクトルの線形結合にすぎないためです。特徴空間では、決定境界は単なるであり、線形関数のレベルセットです。これは、機能空間における超平面のまさに定義です。 $\mathbf{v}$ $\hat{y}(\mathbf{x}) = 0$ $L(\mathbf{v}) = 0$

3.マッピングと機能空間を理解する

注：このセクションでは、表記はトレーニングデータではなく、ポイントの任意のセットを指します。これは純粋な数学です。トレーニングデータはこのセクションにはまったく含まれていません。 $\mathbf{x}^{(i)}$ $n$

カーネルメソッドは、実際に機能空間またはマッピング明示的に「検索」または「計算」することはありません。SVMなどのカーネル学習方法では、それらを機能させる必要はありません。カーネル関数のみが必要です。 $\Phi$ $K$

、式を書き留めることは可能です。マップする機能空間は一種の抽象的（および潜在的に無限次元）ですが、本質的には、マッピングはカーネルを使用して単純な機能エンジニアリングを行うだけです。最終結果に関して、カーネルを使用して学習するモデルは、回帰式に入力する前に正の予測変数のログを取得するなど、線形回帰およびGLMモデリングで一般的に適用される従来の機能エンジニアリングと違いはありません。ほとんどの場合、SVMアルゴリズムでカーネルが適切に動作することを確認するために数学が使用されます。SVMアルゴリズムには、スパース性と大きなデータセットへのスケーリングという優れた利点があります。 $\Phi$ $\Phi$

まだ興味がある場合は、次のように機能します。本質的に、我々は、我々が保持するIDを取る、および定義により保持されるように、空間と内積を構築します。これを行うには、抽象ベクトル空間を定義します。各ベクトルは、データが存在する空間から実数までの関数です。ベクトルで：カーネルスライスの有限の線形結合から形成された関数であるよりコンパクトに書くと便利です $\langle \Phi(\mathbf{x}), \Phi(\mathbf{y}) \rangle = K(\mathbf{x},\mathbf{y})$ $V$ $\mathcal{X}$ $\mathbb{R}$ $f$ $V$

f (x) = \sum_{i = 1}^{n} α_{i} K (x^{(i)}, x)

$f(\mathbf{x}) = \sum_{i=1}^n \alpha_i K(\mathbf{x}^{(i)},\mathbf{x})$

f

$f$

f = \sum_{i = 1}^{n} α_{i} K_{x^{(i)}}

$f = \sum_{i=1}^n \alpha_i K_{\mathbf{x}^{(i)}}$ ここで、はカーネルの「スライス」を与える関数です。

K_{x} (y) = K (x, y)

$K_\mathbf{x}(\mathbf{y}) = K(\mathbf{x},\mathbf{y})$

x

$\mathbf{x}$

空間上の内積は通常のドット積ではなく、カーネルに基づく抽象的な内積です。

⟨ \sum_{i = 1}^{n} α_{i} K_{x^{(i)}}, \sum_{j = 1}^{n} β_{j} K_{x^{(j)}} ⟩ = \sum_{i, j} α_{i} β_{j} K (x^{(i)}, x^{(j)})

$\langle \sum_{i=1}^n \alpha_i K_{\mathbf{x}^{(i)}}, \sum_{j=1}^n \beta_j K_{\mathbf{x}^{(j)}} \rangle = \sum_{i,j} \alpha_i \beta_j K(\mathbf{x}^{(i)},\mathbf{x}^{(j)})$

このように定義された特徴空間では、はマッピングであり、各点をその点の「カーネルスライス」に取り込みます。 $\Phi$ $\mathcal{X} \rightarrow V$ $\mathbf{x}$

Φ (x) = K_{x}, where K_{x} (y) = K (x, y) .

$\Phi(\mathbf{x}) = K_\mathbf{x}, \quad \text{where} \quad K_\mathbf{x}(\mathbf{y}) = K(\mathbf{x},\mathbf{y}).$

が正定カーネルの場合、が内積空間であることを証明できます。詳細については、このペーパーを参照してください。（これを指摘してくれたf coppensに称賛を！） $V$ $K$

4.特徴空間が無限次元であるのはなぜですか？

この答えは、線形代数の良い説明を与えますが、ここでは、直感と証明の両方を備えた幾何学的な視点を示します。

直感

固定小数点場合、カーネルスライス関数ます。のグラフは、を中心とする単なるです。ここで、特徴空間が有限次元のみである場合、固定されたポイントのセットで有限のバンプセットを取得し、他の場所でガウスバンプを形成できることを意味します。しかし、明らかにこれを行う方法はありません。古いバンプから新しいバンプを作成することはできません。新しいバンプが古いバンプから実際に遠く離れている可能性があるためです。したがって、いくつの特徴ベクトル（バンプ）を使用しても、常に新しいバンプを追加できます。特徴空間では、これらは新しい独立したベクトルになります。したがって、特徴空間は有限次元にはできません。無限でなければなりません。 $\mathbf{z}$ $K_\mathbf{z}(\mathbf{x}) = K(\mathbf{z},\mathbf{x})$ $K_\mathbf{z}$ $\mathbf{z}$

証明

誘導を使用します。任意の点のセットがあり、ベクトルがは、特徴空間で線形に独立しています。ここで、これらのポイントとは異なるポイント見つけます。実際には、それらすべてから10億シグマ離れています。は最初の特徴ベクトルから線形に独立していると主張します。 $\mathbf{x}^{(1)}, \mathbf{x}^{(2)}, \ldots, \mathbf{x}^{(n)}$ $\Phi(\mathbf{x}^{(i)})$ $\mathbf{x}^{(n+1)}$ $n$ $\Phi(\mathbf{x}^{(n+1)})$ $n$ $\Phi(\mathbf{x}^{(i)})$

矛盾による証明。それとは反対に、

Φ (x^{(n + 1)}) = \sum_{i = 1}^{n} α_{i} Φ (x^{(i)})

$\Phi(\mathbf{x}^{(n+1)}) = \sum_{i=1}^n \alpha_i \Phi(\mathbf{x}^{(i)})$

ここで、任意の両側の内積を取得します。アイデンティティにより、 $\mathbf{x}$ $\langle \Phi(\mathbf{z}), \Phi(\mathbf{x}) \rangle = K(\mathbf{z},\mathbf{x})$

K (x^{(n + 1)}, x) = \sum_{i = 1}^{n} α_{i} K (x^{(i)}, x)

$K(\mathbf{x}^{(n+1)},\mathbf{x}) = \sum_{i=1}^n \alpha_i K(\mathbf{x}^{(i)},\mathbf{x})$

ここで、は自由変数なので、この方程式は2つの関数が同じであることを示す恒等式です。特に、を中心とするガウス分布は、他の点におけるガウス分布の線形結合として表現できると述べています。特に他のすべてのガウスバンプが10億シグマ離れている場合、他のポイントを中心とするガウスバンプの有限の組み合わせから、あるポイントを中心とするガウスバンプを作成できないことは幾何学的に明らかです。そのため、線形依存の仮定は矛盾を引き起こしました。 $\mathbf{x}$ $\mathbf{x}^{(n+1)}$ $\mathbf{x}^{(i)}$

— ポール
ソース

6

完全な分離は不可能です。反例：（0,0、ClasssA）、（0,0、ClassB）。このデータセットを分離するのは幸運です！

— アノニムース

4

それは...技術的に正しい、最高の種類の正しい！賛成票を持っている。投稿にメモを追加します。

— ポール

3

（異なるクラスのサンプル間の最小距離が必要な場合、あなたのポイントは理にかなっていると思います。このシナリオでは、SVMが最近傍の分類器になることを指摘する価値があるかもしれません）

— Anony-Mousse

1

有限のトレーニングセットの場合にのみ対処しているため、異なるポイントのトレーニングセットが与えられると、ポイント間の距離は常に最小になります。

n

$n$

— ポール

@Paulセクション2について質問があります。ましょうトレーニングポイントについて当社RKHSでrepresenterことと任意の新しいポイントのそのよう関数のでいくつかについて。私にとって、これは線形回帰のためにの列空間にあるの関数空間バージョンに似ており、線形性が実際に由来する場所です。この説明は正確に見えますか？私はまだこのRKHSのものを非常に学んでいます。

k_{i}

$k_i$

x^{(i)}

$x^{(i)}$

k_{x}

$k_x$

x

$x$

\hat{y} (x) = \sum_{i} w_{i} y^{(i)} ⟨ k_{i}, k_{x} ⟩ = \sum_{i} w_{i} y^{(i)} k_{i} (x)

$\hat y(x) = \sum_i w_i y^{(i)} \langle k_i, k_x \rangle = \sum_i w_i y^{(i)} k_i(x)$

\hat{y} = \sum_{i} z_{i} k_{i}

$\hat y = \sum_i z_i k_i$

z_{i} \in R

$z_i \in \mathbb R$

\hat{y}

$\hat y$

X

$X$

— jld

12

ガウスカーネルのカーネル行列は、異なるに対して常にフルランクを持ちます。これは、新しい例を追加するたびに、ランクがずつ増加することを意味します。非常に小さく設定した場合、これを確認する最も簡単な方法です。その場合、カーネル行列はほぼ対角線になります。 $\mathbf x_1,...,\mathbf x_m$ $1$ $\sigma$

ランクが常に1ずつ増加するという事実は、特徴空間内のすべての投影が線形独立（直交ではなく独立）であることを意味します。したがって、各例は、投影のスパン新しい次元を追加します。数え切れないほど多くの例を追加できるため、特徴空間の次元は無限でなければなりません。興味深いことに、、入力空間の特徴空間への投影はすべて球上にあります。。それにもかかわらず、球体の形状は平らです。あなたはそれについての詳細を読むことができます $\Phi(\mathbf x)$ $\Phi(\mathbf x_1),...,\Phi(\mathbf x_m)$ $||\Phi(\mathbf x)||_{\mathcal H}^²=k(\mathbf x,\mathbf x)=1$

バージ、CJC（1999）。カーネルベースのメソッドのジオメトリと不変性。B.Schölkopf、CJC Burges、およびAJ Smola（編）では、カーネルメソッドの進歩がベクトル学習をサポートしています（pp。89–116）。MIT Press。

— ファビー
ソース

私はまだ理解していませんが、とにかく

— 賛成票

つまり、ジオメトリが平坦である理由または無限の次元である理由が理解できないのですか？賛辞をありがとう。

— fabee

100個の例がある場合、私の特徴空間は100次元ですか、それともすでに無限次元ですか？「無数の」無限に多くの例を追加できるのはなぜですか？それは可算の無限ではありませんか？ここでなぜ可算/不可算が重要なのですか？私はまだ「平らな球体」について考えようとしませんでした：Dあなたの説明をありがとう！

— stmax 14

5

すべての新しい例が以前のすべての例から線形に独立していることを信じてください（同じを除く）。ではを超えたすべてのポイント：あなたはそれを行うことはできません他人に直線的に依存する必要があります。Gaussian RKHSの場合、100の異なる例がある場合、それらは無限次元空間の100次元の部分空間に広がります。そのため、スパンは有限次元ですが、彼らが住んでいる地物空間は無限次元です。新しい点はすべて新しい次元であり、には数え切れないほど多くの点があるため、無限大は数えられません。

x

$x$

R^{n}

$\mathbb R^n$

n

$n$

R^{n}

$\mathbb R^n$

R^{n}

$\mathbb R^n$

— fabee

@fabee：私は別の方法で試しましたが、あなたはそれについて多くを知っているようです、多かれ少なかれ「正しかった」かどうか私の答えを見ていただけますか？

5

背景と表記については、サポートベクターから決定境界を計算する方法の答えを参照してください。。

したがって、「元の」空間の特徴はベクトル、バイナリの結果、ラグランジュ乗数はです。 $x_i$ $y_i \in \{-1, +1\}$ $\alpha_i$

カーネルは（ ' 'は内積を表します）と書くことができることが知られています。ここでは（暗黙的で不明です）新しい機能空間への変換。 $K(x,y)=\Phi(x) \cdot \Phi(y)$ $\cdot$ $\Phi$

私はこのがどのように見えるかについて「直感的な」説明をしようとするので、この答えは正式な証拠ではなく、これがどのように機能するかについての気持ちを伝えたいだけです。私が間違っている場合は私を修正することをheしないでください。私の説明の基礎は、このpdfのセクション2.2.1です。 $\Phi$

フィーチャスペース（つまり、私の）を、線形分離が解決される「新しい」フィーチャスペースに「変換」する必要があります。 $x_i$

各観測に対して、関数を定義するため、トレーニングサンプルの各要素に対して関数があります。これらの関数はベクトル空間にます。またがるベクトル空間、に注意してください。（はトレーニングサンプルのサイズです）。 $x_i$ $\phi_i(x)=K(x_i,x)$ $\phi_i$ $\phi_i$ $\phi_i$ $V=span(\phi_{i, i=1,2,\dots N})$ $N$

このベクトル空間は、線形分離が可能なベクトル空間であると主張しようとします。 $V$ スパンの定義により、ベクトル空間各ベクトルは、線形結合、つまりとしてます。ここで、は実数です。したがって、実際には、 $V$ $\phi_i$ $\sum_{i=1}^N \gamma_i \phi_i$ $\gamma_i$ $V=\{v=\sum_{i=1}^N \gamma_i \phi_i|(\gamma_1,\gamma_2,\dots\gamma_N) \in \mathbb{R}^N \}$

はベクトル空間ベクトルの座標であることに注意してください。 $(\gamma_1,\gamma_2,\dots\gamma_N)$ $v$ $V$

$N$ 学習サンプルのサイズであるため、ベクトル空間の次元まで行くことができるかどうかに応じて、線形独立しています。（前出を参照のこと、私たちは定義されたこのようにし）、というこの手段の大きさ使用したカーネルに依存し、学習サンプルのサイズまで行くことができます。 $V$ $N$ $\phi_i$ $\phi_i(x)=K(x_i,x)$ $\phi$ $V$

カーネルが「複雑十分」である場合は、すべての独立となり、その後の大きさなり、学習サンプルのサイズ。 $\phi_i(x)=K(x_i, x)$ $V$ $N$

元の特徴空間をマッピングする変換は、次のように定義されます。 $V$

$\Phi: x_i \to \phi_i(x)=K(x_i, x)$ 。

このマップは、元の特徴空間を、トレーニングサンプルのサイズに達する次元を持つことができるベクトル空間にマップします。 $\Phi$ だから、ベクトルが機能しているベクトル空間に私のトレーニングサンプル内の各観測をマッピングします。私の訓練サンプルからのベクトルは、のベクトル、つまり座標がすべてゼロのベクトル「マッピング」されます。ただし、番目の座標は1です。 $\Phi$ $x_i$ $V$ $\phi_i$ $i$

明らかに、この変換は（a）カーネルに依存し、（b）トレーニングサンプルの値に依存し、（c）カーネルに応じて、トレーニングサンプルのサイズに達する次元を持ち、（ D）のベクトルようなルック、ここで実数です。 $x_i$ $V$ $\sum_{i=1}^N \gamma_i \phi_i$ $\gamma_i$

サポートベクトルから決定境界を計算する方法の関数を見てください。それことがわかる。SVMによって検出された決定境界はです。 $f(x)$ $f(x)=\sum_i y_i \alpha_i \phi_i(x)+b$ $f(x)=0$

言い換えれば、は線形結合であり、は空間の線形分離超平面です。これは、特定の選択、つまり！ $f(x)$ $\phi_i$ $f(x)=0$ $V$ $\gamma_i$ $\gamma_i=\alpha_i y_i$

私たちの観測から知られている、 SVMが見つかったことをラグランジュ乗数です。言い換えれば、SVMは、カーネルを使用し、2次計画問題を解くことにより、 -spaveの線形分離を見つけます。 $y_i$ $\alpha_i$ $V$

これは、「カーネルトリック」によって元の機能空間を異なる次元の新しい機能空間に「暗黙的に」変換する方法についての私の直感的な理解です。この次元は、使用するカーネルに依存し、RBFカーネルの場合、この次元はトレーニングサンプルのサイズに達する可能性があります。トレーニングサンプルのサイズは任意であるため、これは「無限」に達する可能性があります。明らかに、非常に高次元の空間では、過剰適合のリスクが増加します。 $V$

カーネルは、SVMが機能空間を変換することを可能にする手法です。また、ガウスカーネルがPCAにとって魔法のようになっているのはなぜですか。

— コミュニティ
ソース

+1これは堅実です。この資料を自分の説明スタイルに翻訳し、回答に追加しました。

— ポール

5

残念ながら、fcopの説明はまったく間違っています。まず第一に、「カーネルは...で記述できることが知られています。ここで...は、新しい機能空間への（暗黙的かつ未知の）変換です。」不明ではありません。これは、実際には、フィーチャがマップされる空間であり、これは、RBFの場合のように無限次元になる可能性のある空間です。カーネルは、その変換された特徴ベクトルとトレーニング例の変換された特徴ベクトルの内積を取り、その結果に何らかの関数を適用します。したがって、この高次元の特徴ベクトルを暗黙的に表します。たとえば、x ^ 2 + 2xy + y ^ 2の代わりに（x + y）^ 2と書くことを考えてください。ここで、指数関数によって暗黙的に表される無限シリーズを考えてみてください...無限の特徴空間があります。

SVMについて考える正しい方法は、トレーニングセットのサイズと同じ大きさの別の有限次元「カーネル」機能空間で暗黙的に表現される可能性のある無限次元の機能空間に機能をマッピングすることです。

— サルバドール
ソース

SVMは、線形分離が常に可能な無限の特徴空間をどのように「見つける」ことができますか？

1.完全な分離を達成する

2.線形分離としてのカーネルSVM学習

3.マッピングと機能空間を理解する

4.特徴空間が無限次元であるのはなぜですか？

直感

証明