GaussianカーネルがPCAにとって魔法のようになっているのはなぜですか？

67

私は、カーネルPCA（約読んでいた1、2、3）ガウスと多項式カーネルを持ちます。

ガウスカーネルは、どのような種類の非線形データも例外的にどのように分離するのですか？直感的な分析と、可能であれば数学的に複雑な分析を提供してください。
他のカーネルにはないガウスカーネル（理想的な $\sigma$ ）のプロパティとは何ですか？ニューラルネットワーク、SVM、およびRBFネットワークが思い浮かびます。
たとえば、Cauchy PDFを基準にして、同じ結果を期待してみませんか？

— サイモン・クアン
ソース

1

+1。[pca]タグがなかったため、見落としがちなすばらしい質問です。今すぐ編集。

— アメーバは、モニカを復活させる

4

良い質問。私は答えがあるかもしれない場合は、「そうそう、他の多くのカーネルがあまりにも正常に動作しますが、ガウス/ウェル簡単に知られている」思ったんだけど

— 太いジョー・ピート

@StumpyJoePeteそれはそんなに些細な答えだとは思わない。他の分布の位置パラメータとはどういう意味ですか？他の分布の尺度パラメータはその分散でもありますか？他にどのようなディストリビューションが非常に普遍的に直感的ですか？確かにコーシー分布ではありません-それは平均すらありません！

— シャドウトーカー

3

@ssdecontrol間違っていることが証明されてうれしいです。私は質問と答えの両方を支持しました-私は、退屈な、ほんとうに、デフレの答えは、本当の答えが反証すべきであるという良いデフォルトになると思います。

— スタンピージョーピート

私はこれが役立つかもしれないと思う：stats.stackexchange.com/questions/168051/...は

54

魔法の鍵は滑らかさだと思います。以下の私の長い答えは、単にこの滑らかさについて説明することです。それはあなたが期待する答えかもしれませんし、そうでないかもしれません。

簡潔な答え：

正定カーネル与えられた場合、対応する関数空間が存在します。関数のプロパティはカーネルによって決定されます。これは、場合ことが判明しガウスカーネルで、関数非常に滑らかです。そのため、学習した関数（たとえば、回帰関数、カーネルPCAのようにRKHSの主成分）は非常に滑らかです。通常、対処したいほとんどのデータセットでは、平滑性の仮定が賢明です。これは、ガウスカーネルが魔法の理由です。 $k$ $\mathcal{H}$ $k$ $\mathcal{H}$

ガウスカーネルが滑らかな関数を提供する理由に対する長い答え：

正定値カーネルを定義（暗黙的に）内積特徴ベクトルのためのあなたの入力から構築さ、及びはヒルベルト空間です。表記 $k(x,y)$ $k(x,y)=\left\langle \phi(x),\phi(y)\right\rangle _{\mathcal{H}}$ $\phi(x)$ $x$ $\mathcal{H}$ $\left\langle \phi(x),\phi(y)\right\rangle$ 間の内積を意味と。私たちの目的のために、は通常のユークリッド空間であるが、おそらく無限の次元数を持つと想像できます。ような無限に長い通常のベクトルを想像してください。カーネルメソッドでは、 $\phi(x)$ $\phi(y)$ $\mathcal{H}$ $\phi(x)=\left(\phi_{1}(x),\phi_{2}(x),\ldots\right)$ $\mathcal{H}$ カーネルヒルベルト空間（RKHS）の再生と呼ばれる関数の空間です。このスペースは、ある``再現プロパティ''と呼ばれる特殊な性質がある。これは、評価することを言い（無限に長い述べたように）のための最初のあなたは特徴ベクトルを構築し、。次に、（無限長）で示される特徴ベクトルを作成します。の評価 $f(x)=\left\langle f,\phi(x)\right\rangle$ $f(x)$ $f$ $x$ $\phi(x)$ $f(x)$ 2つの内積を取ることによって与えられます。明らかに、実際には、無限に長いベクトルを構築する人はいません。内積のみを考慮しているため、カーネル直接評価します。明示的な特徴の計算をバイパスし、その内積を直接計算することを「カーネルトリック」と呼びます。 $k$

機能は何ですか？

私は機能を言い続け、彼らが何であるかを指定せず。カーネル与えられた場合、機能は一意ではありません。しかし一意に決定されます。関数の滑らかさを説明するために、フーリエ特性について考えてみましょう。意味する変換不変カーネル仮定します $\phi_{1}(x),\phi_{2}(x),\ldots$ $k$ $\left\langle \phi(x),\phi(y)\right\rangle$ $k$ つまり、カーネルは2つの引数の差にのみ依存します。ガウスカーネルにはこのプロパティがあります。してみましょうフーリエ変換の変換を表す。 $k(x,y)=k(x-y)$ $\hat{k}$ $k$

このフーリエ観点では、の特徴により与えられる $f$ 。これは、関数特徴表現が、そのフーリエ変換をカーネルフォーラー変換で割ったものであると言っています。特徴の表現であり、である $f:=\left(\cdots,\hat{f}_{l}/\sqrt{\hat{k}_{l}},\cdots\right)$ $f$ $k$ $x$ $\phi(x)$ ここで $\left(\cdots,\sqrt{\hat{k}_{l}}\exp\left(-ilx\right),\cdots\right)$ 。再生特性が保持されていることを示すことができます（読者への演習）。 $i=\sqrt{-1}$

ヒルベルト空間の場合と同様に、空間に属するすべての要素には有限のノルムが必要です。私たちはの二乗規範について考えてみましょう： $f\in\mathcal{H}$

$\|f\|_{\mathcal{H}}^{2}=\left\langle f,f\right\rangle _{\mathcal{H}}=\sum_{l=-\infty}^{\infty}\frac{\hat{f}_{l}^{2}}{\hat{k}_{l}}.$

それで、このノルムが有限であるとき、すなわちは空間に属しますか？それは場合れるよりも速く低下和が収束するように。ここで、ガウスカーネルのフーリエ変換 $f$ $\hat{f}_{l}^{2}$ $\hat{k}_{l}$ $k(x,y)=\exp\left(-\frac{\|x-y\|^{2}}{\sigma^{2}}\right)$

別のガウスここれる用いて高速指数関数的に減少する。したがって、がこの空間にある場合、そのフーリエ変換はフーリエ変換よりもさらに速く低下する必要があります。これは、関数が実質的に重みの大きい低周波成分をわずかしか持たないことを意味します。低周波成分のみの信号は、あまり「揺れません」。これは、ガウスカーネルが滑らかな関数を提供する理由を説明しています。 $\hat{k}_{l}$ $l$ $f$ $k$

Extra：Laplaceカーネルはどうですか？

ラプラスカーネル、そのフーリエ変換は指数関数よりもはるかに遅く低下するコーシー分布です。ガウスカーネルのフーリエ変換における関数。これは、関数高周波成分が増えることを意味します。その結果、ラプラスカーネルによって与えられる関数は、ガウスカーネルによって与えられる関数よりも ``粗い ''です。 $k(x,y)=\exp\left(-\frac{\|x-y\|}{\sigma}\right)$ $f$

他のカーネルにはないガウスカーネルのプロパティとは何ですか？

ガウス幅に関係なく、1つの特性は、ガウスカーネルが「ユニバーサル」であることです。直感的に、これは、有界連続関数（任意）が与えられると、とが（の意味で）近くなるような関数が存在することを意味します必要な任意の精度まで。基本的に、これはガウスカーネルが「いい」（有界、連続）関数を任意にうまく近似できる関数を与えることを意味します。ガウスとラプラスのカーネルは普遍的です。たとえば、多項式カーネルはそうではありません。 $g$ $f\in\mathcal{H}$ $f$ $g$ $\|\cdot\|_{\infty})$

たとえば、Cauchy PDFを基準にして、同じ結果を期待してみませんか？

一般に、結果のが正定である限り、好きなことを行うことができます。正定性は、として定義され全てのため、、すべて（自然数の集合）。が正定値でない場合、内積空間に対応しません。前述のように、関数スペースさえないため、すべての分析が中断します。それにもかかわらず、経験的に機能する可能性があります。たとえば、双曲線正接カーネル（このページの番号7を参照） $k$ $\sum_{i=1}^{N}\sum_{j=1}^{N}k(x_{i},x_{j})\alpha_{i}\alpha_{j}>0$ $\alpha_{i}\in\mathbb{R}$ $\{x_{i}\}_{i=1}^{N}$ $N\in\mathbb{N}$ $k$ $\mathcal{H}$

$k(x,y) = tanh(\alpha x^\top y + c)$

これは、ニューラルネットワークのシグモイド活性化ユニットを模倣することを目的としており、および一部の設定に対してのみ正定です。それでも、実際に機能すると報告されました。 $\alpha$ $c$

他の種類の機能はどうですか？

機能はユニークではないと言いました。ガウスカーネルの場合、別の機能セットがMercer拡張によって提供されます。有名なガウスのプロセスブックのセクション4.3.1を参照してください。この場合、特徴は評価されるエルミート多項式です。 $\phi(x)$ $x$

— ワイジ
ソース

2

私はまだ賞に約恵みないんだけど、それは非常に疑問を対象とし、他のカーネルへの明示的な比較を行っていますので、私はそれが、この回答に賞を誘惑しています

— shadowtalker

最後に、この質問には1つの素晴らしい答えがありました！（+1）ここで使用した表記法と次の段落で簡単に混乱しました。より明示的な表記は、元の空間とベクトルに作用する関数分離することにより、より明確になりませんか、ここでは機能的ですか？ところで、どの機能が「再現特性」によって「再現」されることが保証されていますか？すべて？連続？なめらか？

f (x) = ⟨ f, ϕ (x) ⟩

$f(x)=\left\langle f,\phi(x)\right\rangle$

f (x) = ⟨ Ψ (f), ϕ (x) ⟩

$f(x)=\left\langle \Psi(f),\phi(x)\right\rangle$

f (\cdot)

$f(\cdot)$

Ψ (f) \in H

$\Psi(f) \in \mathcal H$

Ψ (\cdot)

$\Psi(\cdot)$

— アメーバは、モニカーを復活させる

@amoeba文献では、人々は表現と関数自体を区別しません。必要に応じて、時には彼らは、使用表現とするために機能のために。スペース内のすべての関数には、再生成プロパティがあります。スムーズかどうか、それはカーネルによって指定されます。:)

f

$f$

f

$f$

f (\cdot)

$f(\cdot)$

H

$\mathcal{H}$

— wij

投稿を更新しました。tanhカーネルにもう少し追加。

— wij

うーん、私はここで混乱していると思います。データ空間が存在するベクトル空間から始めます。その後、我々は正定値カーネルの選択。そして、定理1が成り立つと主張します：は、ヒルベルト空間上のドット積として実現できるため、、ここで。はい。そして今、あなたは作用する関数はその表現スカラー積として実現できると言います

X

$\mathcal X$

x

$x$

k (\cdot, \cdot) : X \times X \to R

$k(\cdot, \cdot): \mathcal X \times \mathcal X \to \mathbb R$

k

$k$

H

$\mathcal H$

k (x, y) = ⟨ ϕ (x), ϕ (y) ⟩

$k(x,y) = \langle \phi(x), \phi(y)\rangle$

ϕ : X \to H

$\phi:\mathcal X \to \mathcal H$

f (x)

$f(x)$

X

$\mathcal X$

f \in H

$f\in \mathcal H$ ？これは正しいですか？

ϕ (x)

$\phi(x)$

— アメーバは、モニカを復活させる

18

私はこの質問に答えるために最善を尽くしますが、私はトピックの専門家だからではなく、フィールドとトピックに興味があり、良い教育経験になる可能性があるという考えと組み合わせて。とにかく、このテーマについての私の簡単なアマチュア研究の結果がここにあります。

TL; DR：この質問に対する簡単な答えとして、研究論文「正則化演算子とサポートベクターカーネル間の接続」からの次の文章を検討します。

ガウスカーネルは、一般的な平滑性の仮定の下で良好なパフォーマンスをもたらす傾向があり、特にデータの追加の知識が利用できない場合は考慮されるべきです。

さて、詳細な答え（私の理解する限り、数学の詳細については、参考文献を使用してください）。

私たちが知っているように、主成分分析（PCA）は、単独で、そしてデータのその後の分類のために、次元削減への非常に一般的なアプローチです：http : //www.visiondummy.com/2014/05/feature-extraction-using-pca ただし、状況によっては、データが非線形の依存関係を保持している場合（つまり、線形に分離不可能な場合）、従来のPCAは適用されません（うまく機能しません）。これらの場合、他のアプローチを使用することができ、非線形PCAもその1つです。

PCAがカーネル関数の使用に基づいているアプローチは、通常、「カーネルPCA」（kPCA）という包括的な用語を使用して参照されます。使用ガウスラジアル基底関数（RBF）カーネルは、おそらく最も人気のバリエーションです。このアプローチは複数のソースで詳細に説明されていますが、このブログ投稿でセバスチャン・ラシュカによる素晴らしい説明がとても気に入っています。ただし、Gaussian RBF以外のカーネル関数を使用する可能性については言及していますが、この記事では人気のために後者に焦点を当てています。この素敵なブログの記事は、導入カーネルの近似値とカーネルトリックを、PCAに対するガウスカーネル人気のもう一つの可能な理由を述べて：無限の次元を。

追加の洞察は、Quoraのいくつかの回答にあります。特に、この優れた議論を読むと、次のようにガウスカーネルの人気の潜在的な理由に関するいくつかのポイントが明らかになります。

ガウスカーネルは普遍的です：

ガウスカーネルはユニバーサルカーネルです。つまり、適切な正則化を使用すると、分類器の推定誤差と近似誤差の両方を最小化するグローバルに最適な予測子が保証されます。

ガウスカーネルは円形です（上記の無限次元につながりますか？）
ガウスカーネルは「高度に変化する地形」を表すことができます
上記の主な結論を裏付ける次の点は、著者を引用することでより適切に提供されます。

Gaussian RBFカーネルは非常に人気があり、特に多項式カーネルと線形カーネルも同様に包むため、データとドメインに関する専門知識がなくても、良好なデフォルトカーネルになります。線形カーネルと多項式カーネルは、ガウスRBFカーネルの特殊なケースです。ガウスRBFカーネルはノンパラメトリックモデルであり、本質的には、分析関数の数が無限であるため、モデルの複雑さが潜在的に無限であることを意味します。

ガウスカーネルが最適です（滑らかさについては、こちらをご覧ください -同じ著者）。

ガウスカーネルは単なるバンドパスフィルターです。最も滑らかなソリューションを選択します。[...]ガウスカーネルは、高次導関数の無限和が最速で収束するときに最適に動作します。これは最も滑らかな解で発生します。

最後に、このいい答えからの追加のポイント：

ガウスカーネルは無限に複雑なモデルをサポートします
ガウスカーネルはより柔軟です

ノート：

ガウスカーネルが最適な選択であるという上記のポイントは、特にデータに関する予備知識がない場合、このCV回答からの次の文でサポートされています。

専門知識がない場合は、放射基底関数カーネルが適切なデフォルトカーネルを作成します（非線形モデルを必要とする問題であることが判明したら）。

ガウスRBFカーネルと標準ガウスカーネル間の非本質的な違いについて好奇心が強い方のために、この回答は参考になります。https://stats.stackexchange.com/a/79193/31372。

喜びやビジネスのためにkPCAを実装することに興味がある人にとって、この素敵なブログ投稿は役に立つかもしれません。Accord.NETの作成者（作成者？）の1人によって作成されました。統計分析、機械学習、信号処理など、非常に興味深い.NETオープンソースフレームワークです。

— アレクサンドル・ブレフ
ソース

5

私はこの答えを構成する努力に感謝し、称賛しますが、同時に、あまり権威的ではなく、正しいかもしれないこの種の一般的な手波の説明のみを提供する多くのソースから引用していると言わなければなりませんまた、完全に偽である。したがって、RBFカーネルは、無限次元の再現ヒルベルト空間を持つ等方性定常カーネルです。良い！これらのプロパティを持つ他のカーネルはありますか？もしそうなら、なぜRBFはそれらすべてよりも優れているのでしょうか？実際、RBFがそのような競合他社よりも優れているという主張に対する実証的なサポートはありますか？

— アメーバは、モニカを復活させる

@amoeba：優しい言葉をありがとう。私が使用したソースに関しては、あなたは部分的に正しいです-それはミックスであり、いくつかのソースは単なる意見です。ただし、一部の情報源（ブログの投稿など）自体は、堅実な論文を引用しています。この時点で、私はその厳密さよりも説明の質にもっと惹かれました。あなたの質問に関する限り、後でそれらに対処する準備をしています。もう少し理論を読む必要があります。私はすでに経験的なサポートでソースをコンパイルしましたが、それらの体系化（そしていくらかの睡眠、:)にもっと時間が必要です。

— アレクサンドルブレフ

1

私は、ガウスは実対称分布のうち、最大エントロピーは、一般的な仮定の下で良好なパフォーマンスについてのあなたの最初のポイントでの役割を果たしているという事実を感じている

— shadowtalker

2

@AleksandrBlekhも素晴らしいコンピレーションです。人々はQuoraを

— 怒らせ

@ssdecontrol：親切な言葉をありがとう。トピックに関する同じページにいることを嬉しく思います。アメーバのコメントに対処するための追加情報がありますので、興味のある方はこのスペースをご覧ください。

— アレクサンドルブレフ

8

2セントを入れてください。

ガウスカーネルについて私が考える方法は、ある意味では最近傍の分類器です。ガウスカーネルの機能は、データセット内の他のすべてのポイントまでの距離で各ポイントを表すことです。ここで、線形境界または多項式境界を持つ分類器について考えてみましょう。境界は特定の形状に制限されています。ただし、最近傍を見ると、境界は事実上任意の形状をとることができます。それが、ガウスカーネルをノンパラメトリック、つまりデータに応じて境界を調整することと考える理由です。それを考える別の方法は、ガウスカーネルが領域内の局所形状に適応することです。これは、最近傍が局所領域内の他の点までの距離を見て境界を局所的に調節する方法と同様です。

これには数学的な議論はありませんが、ガウスカーネルが実際に無限次元空間にマッピングされるという事実は、その成功と関係があると思います。線形カーネルと多項式カーネルの場合、ドット積は有限次元空間で取得されます。したがって、より大きなスペースで物事を行う方がより強力なようです。誰かがこれらのことをよりよく把握してくれることを願っています。それはまた、無限の次元空間を持つ他のカーネルを見つけることができれば、それらも非常に強力であることを意味します。残念ながら、私はそのようなカーネルに精通していません。

最後の点については、他の点までの距離を何らかの方法で測定するCauchy pdfやその他のpdfも同様に機能するはずです。繰り返しますが、私はそれについての数学的な議論はありませんが、最も近い隣人とのつながりがこのことをもっともらしいものにします。

編集：

ガウスカーネルを最近傍の分類器として使用する分類器を考える方法について、いくつかのアイデアを示します。最初に、最近傍の分類器が何をするかを考えてみましょう。基本的に、最近傍分類子は、入力間のポイント間の距離を使用する標準分類子です。より正式には、他のすべてのポイントまでの距離を計算することにより、データセット内の各ポイント特徴表現を作成することを想像してください。上記、は距離関数です。次に、最近傍分類子は、この特徴表現とデータのクラスラベルに基づいて、ポイントのクラスラベルを予測します。ここで $\phi_i$ $x_i$

ϕ_{i} = (d (x_{i}, x_{1}), d (x_{i}, x_{2}), \dots, d (x_{i}, x_{n}))

$\phi_i = (d(x_i,x_1), d(x_i, x_2), \ldots, d(x_i, x_n))$

d

$d$

p_{i} = f (ϕ_{i}, y)

$p_i = f(\phi_i, y)$

p_{i}

$p_i$ はデータポイント予測で、はのクラスラベルのベクトルです。

x_{i}

$x_i$

y

$y$

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \ldots, x_n$

カーネルについて私が考える方法は、カーネルが同様のことをするということです。データセット内の他のポイントとのカーネル値を使用して、各ポイントのフィーチャ表現を作成します。最近隣の場合と同様に、より正式には、これはます。カーネル関数が最近傍分類器で使用する距離測定に関連する何らかの測定値である場合、カーネルベースの分類器は最近傍モデルに似たものになります。

ϕ_{i} = (k (x_{i}, x_{1}), k (x_{i}, x_{2}), \dots, k (x_{i}, x_{n}))

$\phi_i = (k(x_i, x_1), k(x_i, x_2), \ldots, k(x_i, x_n))$

注：カーネルを使用してトレーニングする分類子は、これらの表現で直接動作しませんが、暗黙的に行うのはそれだと思います。 $\phi_i$

— ゴーカー
ソース

最近傍の解釈は興味深いです。少し拡張できると思いますか？私はそれを得ると思うが、私はそうするかどうかわからない。

— シャドウトーカー

@ssdecontrolコメントを追加しました。彼らが役に立てば幸いです。

— ゴーカー

6

理由は、ガウスカーネルのVC次元が無限であるため、パラメーターの正しい値（シグマ）が与えられると、任意の多数のサンプルを正しく分類できるからです。

RBFは、行列がフルランクであることを保証するため、うまく機能します。その考えは、であり、非対は値を減らすことで任意に小さくできるということです。カーネルは、機能空間の内積に対応していることに注意してください。この特徴空間では、次元は無限です（指数の級数展開を考慮することにより）。したがって、これらのポイントを異なる次元で投影して、それらを分離できると考えることができます。 $K(x_{i},x_{j})$ $K(x_{i},x_{i}) > 0$ $\sigma$

対照的に、平面上の4つの点のみを粉砕できる線形カーネルの場合を考えます。

非常に技術的ですが、このペーパーをご覧ください。SVMに関する標準的な本の1つは、この概念をより利用しやすくするものです。

— jpmuc
ソース

1

「RBFは行列が完全なランクであることを保証するため、うまく機能します」：これはすべての有効な（Mercer）カーネル関数（線形関数を含む）に当てはまるので、申し立てられたものをどのように説明するかわかりません-RBFのパフォーマンス。

K (x_{i}, x_{j})

$K(x_i,x_j)$

— user603

2

@ user603が書いたばかりでなく、無限のVC次元（ターゲット空間の次元）を持つ他の一般的なカーネルはありますか？もしそうなら、彼らはRBFと同じくらい良いですか？

— アメーバは、モニカを復活させる

2

VCディメンションは、カーネルのプロパティではなく、一連の分類子のプロパティではありませんか？

— -wij

2

@ user603：これは正しくありません。マーサーカーネルでは、カーネルマトリックスが半正定であることが必要です。それらは単数形です。たとえば、がポイントのセットにある場合、実際には線形カーネルは特異なカーネル行列を与えます。（もちろん、ほとんどのカーネルは厳密に正定であるため、これはガウスRBFの特に特徴的な特性ではありません。）

x_{i} = 0

$x_i = 0$

— Dougal