私は、カーネルPCA(約読んでいた1、2、3)ガウスと多項式カーネルを持ちます。
ガウスカーネルは、どのような種類の非線形データも例外的にどのように分離するのですか?直感的な分析と、可能であれば数学的に複雑な分析を提供してください。
他のカーネルにはないガウスカーネル(理想的な)のプロパティとは何ですか?ニューラルネットワーク、SVM、およびRBFネットワークが思い浮かびます。
- たとえば、Cauchy PDFを基準にして、同じ結果を期待してみませんか?
私は、カーネルPCA(約読んでいた1、2、3)ガウスと多項式カーネルを持ちます。
ガウスカーネルは、どのような種類の非線形データも例外的にどのように分離するのですか?直感的な分析と、可能であれば数学的に複雑な分析を提供してください。
他のカーネルにはないガウスカーネル(理想的な)のプロパティとは何ですか?ニューラルネットワーク、SVM、およびRBFネットワークが思い浮かびます。
回答:
魔法の鍵は滑らかさだと思います。以下の私の長い答えは、単にこの滑らかさについて説明することです。それはあなたが期待する答えかもしれませんし、そうでないかもしれません。
簡潔な答え:
正定カーネル与えられた場合、対応する関数Hの空間が存在します。関数のプロパティはカーネルによって決定されます。これは、場合ことが判明し、kはガウスカーネルで、関数Hは非常に滑らかです。そのため、学習した関数(たとえば、回帰関数、カーネルPCAのようにRKHSの主成分)は非常に滑らかです。通常、対処したいほとんどのデータセットでは、平滑性の仮定が賢明です。これは、ガウスカーネルが魔法の理由です。
ガウスカーネルが滑らかな関数を提供する理由に対する長い答え:
正定値カーネルを定義(暗黙的に)内積K (X 、Y )= ⟨ φ (X )、φ (Y )⟩ H 特徴ベクトルのためのφ (X )あなたの入力から構築さX、及び Hはヒルベルト空間です。表記⟨ φ (X )、φ (Y )⟩ 間の内積を意味とφ (yは)。私たちの目的のために、Hは通常のユークリッド空間であるが、おそらく無限の次元数を持つと想像できます。ϕ (x )= (ϕ 1(x )、ϕ 2(x )、… )のような無限に長い通常のベクトルを想像してください。カーネルメソッドでは、Hカーネルヒルベルト空間(RKHS)の再生と呼ばれる関数の空間です。このスペースは、ある``再現プロパティ''と呼ばれる特殊な性質がある。これは、評価することを言い、F (xと)(無限に長い述べたように)のための最初のあなたは特徴ベクトルを構築し、F。次に、ϕ (x )(無限長)で示されるxの特徴ベクトルを作成します。f (x )の評価2つの内積を取ることによって与えられます。明らかに、実際には、無限に長いベクトルを構築する人はいません。内積のみを考慮しているため、カーネル直接評価します。明示的な特徴の計算をバイパスし、その内積を直接計算することを「カーネルトリック」と呼びます。
機能は何ですか?
私は機能を言い続け、彼らが何であるかを指定せず。カーネルkが与えられた場合、機能は一意ではありません。しかし ⟨ φは、(X )、φ (yは)⟩一意に決定されます。関数の滑らかさを説明するために、フーリエ特性について考えてみましょう。k (x 、y )= k (x − yを意味する変換不変カーネルkを仮定します つまり、カーネルは2つの引数の差にのみ依存します。ガウスカーネルにはこのプロパティがあります。してみましょう kはフーリエ変換の変換を表す K。
このフーリエ観点では、の特徴 により与えられるF := ( ⋯ 、Fの L / √。これは、関数fの特徴表現が、 そのフーリエ変換をカーネルkのフォーラー変換で割ったものであると言っています。特徴の表現Xであり、φ(xは) である(⋯、√ ここで、I=√。再生特性が保持されていることを示すことができます(読者への演習)。
ヒルベルト空間の場合と同様に、空間に属するすべての要素には有限のノルムが必要です。私たちはの二乗規範について考えてみましょう:
それで、このノルムが有限であるとき、すなわちは空間に属しますか?それは場合れるよりも速く低下和が収束するように。ここで、ガウスカーネルのフーリエ変換
別のガウスここれる用いて高速指数関数的に減少する。したがって、がこの空間にある場合、そのフーリエ変換はフーリエ変換よりもさらに速く低下する必要があります。これは、関数が実質的に重みの大きい低周波成分をわずかしか持たないことを意味します。低周波成分のみの信号は、あまり「揺れません」。これは、ガウスカーネルが滑らかな関数を提供する理由を説明しています。
Extra:Laplaceカーネルはどうですか?
ラプラスカーネル、 そのフーリエ変換は指数関数よりもはるかに遅く低下するコーシー分布です。ガウスカーネルのフーリエ変換における関数。これは、関数高周波成分が増えることを意味します。その結果、ラプラスカーネルによって与えられる関数は、ガウスカーネルによって与えられる関数よりも ``粗い ''です。
他のカーネルにはないガウスカーネルのプロパティとは何ですか?
ガウス幅に関係なく、1つの特性は、ガウスカーネルが「ユニバーサル」であることです。直感的に、これは、有界連続関数(任意)が与えられると、と が(の意味で)近くなるような関数が存在することを意味します必要な任意の精度まで。基本的に、これはガウスカーネルが「いい」(有界、連続)関数を任意にうまく近似できる関数を与えることを意味します。ガウスとラプラスのカーネルは普遍的です。たとえば、多項式カーネルはそうではありません。
たとえば、Cauchy PDFを基準にして、同じ結果を期待してみませんか?
一般に、結果のが正定である限り、好きなことを行うことができます 。正定性は、として定義され 全てのため、、すべて (自然数の集合) 。が正定値でない場合、内積空間に対応しません。前述のように、関数スペースさえないため、すべての分析が中断します 。それにもかかわらず、経験的に機能する可能性があります。たとえば、双曲線正接カーネル(このページの番号7を参照)
これは、ニューラルネットワークのシグモイド活性化ユニットを模倣することを目的としており、および一部の設定に対してのみ正定です。それでも、実際に機能すると報告されました。
他の種類の機能はどうですか?
機能はユニークではないと言いました。ガウスカーネルの場合、別の機能セットがMercer拡張によって提供されます。有名なガウスのプロセスブックのセクション4.3.1を参照してください。この場合、特徴は評価されるエルミート多項式です。
私はこの質問に答えるために最善を尽くしますが、私はトピックの専門家だからではなく、フィールドとトピックに興味があり、良い教育経験になる可能性があるという考えと組み合わせて。とにかく、このテーマについての私の簡単なアマチュア研究の結果がここにあります。
TL; DR:この質問に対する簡単な答えとして、研究論文「正則化演算子とサポートベクターカーネル間の接続」からの次の文章を検討します。
ガウスカーネルは、一般的な平滑性の仮定の下で良好なパフォーマンスをもたらす傾向があり、特にデータの追加の知識が利用できない場合は考慮されるべきです。
さて、詳細な答え(私の理解する限り、数学の詳細については、参考文献を使用してください)。
私たちが知っているように、主成分分析(PCA)は、単独で、そしてデータのその後の分類のために、次元削減への非常に一般的なアプローチです:http : //www.visiondummy.com/2014/05/feature-extraction-using-pca ただし、状況によっては、データが非線形の依存関係を保持している場合(つまり、線形に分離不可能な場合)、従来のPCAは適用されません(うまく機能しません)。これらの場合、他のアプローチを使用することができ、非線形PCAもその1つです。
PCAがカーネル関数の使用に基づいているアプローチは、通常、「カーネルPCA」(kPCA)という包括的な用語を使用して参照されます。使用ガウスラジアル基底関数(RBF)カーネルは、おそらく最も人気のバリエーションです。このアプローチは複数のソースで詳細に説明されていますが、このブログ投稿でセバスチャン・ラシュカによる素晴らしい説明がとても気に入っています。ただし、Gaussian RBF以外のカーネル関数を使用する可能性については言及していますが、この記事では人気のために後者に焦点を当てています。この素敵なブログの記事は、導入カーネルの近似値とカーネルトリックを、PCAに対するガウスカーネル人気のもう一つの可能な理由を述べて:無限の次元を。
追加の洞察は、Quoraのいくつかの回答にあります。特に、この優れた議論を読むと、次のようにガウスカーネルの人気の潜在的な理由に関するいくつかのポイントが明らかになります。
ガウスカーネルはユニバーサルカーネルです。つまり、適切な正則化を使用すると、分類器の推定誤差と近似誤差の両方を最小化するグローバルに最適な予測子が保証されます。
Gaussian RBFカーネルは非常に人気があり、特に多項式カーネルと線形カーネルも同様に包むため、データとドメインに関する専門知識がなくても、良好なデフォルトカーネルになります。線形カーネルと多項式カーネルは、ガウスRBFカーネルの特殊なケースです。ガウスRBFカーネルはノンパラメトリックモデルであり、本質的には、分析関数の数が無限であるため、モデルの複雑さが潜在的に無限であることを意味します。
ガウスカーネルは単なるバンドパスフィルターです。最も滑らかなソリューションを選択します。[...]ガウスカーネルは、高次導関数の無限和が最速で収束するときに最適に動作します。これは最も滑らかな解で発生します。
最後に、このいい答えからの追加のポイント:
ノート:
ガウスカーネルが最適な選択であるという上記のポイントは、特にデータに関する予備知識がない場合、このCV回答からの次の文でサポートされています。
専門知識がない場合は、放射基底関数カーネルが適切なデフォルトカーネルを作成します(非線形モデルを必要とする問題であることが判明したら)。
ガウスRBFカーネルと標準ガウスカーネル間の非本質的な違いについて好奇心が強い方のために、この回答は参考になります。https://stats.stackexchange.com/a/79193/31372。
喜びやビジネスのためにkPCAを実装することに興味がある人にとって、この素敵なブログ投稿は役に立つかもしれません。Accord.NETの作成者(作成者?)の1人によって作成されました。統計分析、機械学習、信号処理など、非常に興味深い.NETオープンソースフレームワークです。
2セントを入れてください。
ガウスカーネルについて私が考える方法は、ある意味では最近傍の分類器です。ガウスカーネルの機能は、データセット内の他のすべてのポイントまでの距離で各ポイントを表すことです。ここで、線形境界または多項式境界を持つ分類器について考えてみましょう。境界は特定の形状に制限されています。ただし、最近傍を見ると、境界は事実上任意の形状をとることができます。それが、ガウスカーネルをノンパラメトリック、つまりデータに応じて境界を調整することと考える理由です。それを考える別の方法は、ガウスカーネルが領域内の局所形状に適応することです。これは、最近傍が局所領域内の他の点までの距離を見て境界を局所的に調節する方法と同様です。
これには数学的な議論はありませんが、ガウスカーネルが実際に無限次元空間にマッピングされるという事実は、その成功と関係があると思います。線形カーネルと多項式カーネルの場合、ドット積は有限次元空間で取得されます。したがって、より大きなスペースで物事を行う方がより強力なようです。誰かがこれらのことをよりよく把握してくれることを願っています。それはまた、無限の次元空間を持つ他のカーネルを見つけることができれば、それらも非常に強力であることを意味します。残念ながら、私はそのようなカーネルに精通していません。
最後の点については、他の点までの距離を何らかの方法で測定するCauchy pdfやその他のpdfも同様に機能するはずです。繰り返しますが、私はそれについての数学的な議論はありませんが、最も近い隣人とのつながりがこのことをもっともらしいものにします。
編集:
ガウスカーネルを最近傍の分類器として使用する分類器を考える方法について、いくつかのアイデアを示します。最初に、最近傍の分類器が何をするかを考えてみましょう。基本的に、最近傍分類子は、入力間のポイント間の距離を使用する標準分類子です。より正式には、他のすべてのポイントまでの距離を計算することにより、データセット内の各ポイント特徴表現を作成することを想像してください。 上記、は距離関数です。次に、最近傍分類子は、この特徴表現とデータのクラスラベルに基づいて、ポイントのクラスラベルを予測します。 ここで
カーネルについて私が考える方法は、カーネルが同様のことをするということです。データセット内の他のポイントとのカーネル値を使用して、各ポイントのフィーチャ表現を作成します。最近隣の場合と同様に、より正式には、これは ます。カーネル関数が最近傍分類器で使用する距離測定に関連する何らかの測定値である場合、カーネルベースの分類器は最近傍モデルに似たものになります。
注:カーネルを使用してトレーニングする分類子は、これらの表現で直接動作しませんが、暗黙的に行うのはそれだと思います。
理由は、ガウスカーネルのVC次元が無限であるため、パラメーターの正しい値(シグマ)が与えられると、任意の多数のサンプルを正しく分類できるからです。
RBFは、行列がフルランクであることを保証するため、うまく機能します。その考えは、であり、非対は値を減らすことで任意に小さくできるということです。カーネルは、機能空間の内積に対応していることに注意してください。この特徴空間では、次元は無限です(指数の級数展開を考慮することにより)。したがって、これらのポイントを異なる次元で投影して、それらを分離できると考えることができます。
対照的に、平面上の4つの点のみを粉砕できる線形カーネルの場合を考えます。
非常に技術的ですが、このペーパーをご覧ください。SVMに関する標準的な本の1つは、この概念をより利用しやすくするものです。