タグ付けされた質問 「kernel-trick」

カーネル手法は、機械学習で使用され、非線形技術、特にSVM、PCA、およびGPに対して線形手法を一般化します。カーネル密度推定(KDE)とカーネル回帰については、[kernel-smoothing]と混同しないでください。

1
SVM =テンプレートマッチングとは
私はSVMについて読み、それらが最適化問題を解決していて、最大マージンのアイデアが非常に合理的であることを学びました。 現在、カーネルを使用することで、非線形の分離境界でさえも見つけることができました。 これまでのところ、SVM(特別なカーネルマシン)とカーネルマシンがニューラルネットワークとどのように関連しているか、私にはまったくわかりません。 Yann Lecunのコメントを検討してください=> ここ: kernel methods were a form of glorified template matching そしてここも: たとえば、一部の人々は、それに伴うかわいい数学のために、カーネルメソッドに夢中です。しかし、以前に言ったように、結局のところ、カーネルマシンは「見栄えの良いテンプレートマッチング」を実行する浅いネットワークです。これには何の問題もありませんが(SVMは優れた方法です)、私たち全員が知っておくべき悲惨な制限があります。 だから私の質問は: SVMはニューラルネットワークとどのように関連していますか?浅いネットワークはどうですか? SVMは明確に定義された目的関数で最適化問題を解決しますが、テンプレートマッチングはどのように行われますか?ここで入力が照合されるテンプレートは何ですか? これらのコメントには、高次元空間、ニューラルネット、カーネルマシンの完全な理解が必要だと思いますが、これまでのところ、私は試みており、その背後にあるロジックを把握できませんでした。しかし、2つの非常に異なるmlテクニック間の関係に注目するのは確かに興味深いことです。 編集:ニューラルの観点からSVMを理解することは素晴らしいことだと思います。線形SVMとカーネルトリックを備えたSVMの両方の場合の、SVMとニューラルネット間のリンクを本当に理解するために、上記の2つの質問に対する完全な数学支援の答えを探しています。

2
バイナリ分類問題に使用するSVMカーネルはどれですか?
ベクターマシンのサポートについては、初心者です。特定の問題に最適なカーネル(線形、多項式など)を示すガイドラインはありますか?私の場合、特定の情報が含まれているかどうかに応じてWebページを分類する必要があります。つまり、バイナリ分類の問題があります。 一般的に、どのカーネルがこのタスクに最も適していると言えますか?または、特定のデータセットでそれらのいくつかを試して、最適なデータセットを見つける必要がありますか?ちなみに、私はlibSVMライブラリを利用するPythonライブラリscikit-learnを使用しています。

2
サポートベクターマシンでのガンマパラメーターの使用
を使用するlibsvm場合、パラメーターはカーネル関数のパラメーターです。デフォルト値はγ = 1に設定されていますγγ\gammaγ=1number of features.γ=1number of features.\gamma = \frac{1}{\text{number of features.}} グリッド検索などの既存の方法以外に、このパラメーターを設定するための理論的なガイダンスはありますか?

2
機能の選択にカーネルPCAを使用することは可能ですか?
PCAが使用されるのと同じ方法で、潜在的セマンティックインデックス(LSI)にカーネル主成分分析(kPCA)を使用することは可能ですか? prcompPCA関数を使用してRでLSIを実行し、最初のコンポーネントから最も負荷の高い機能を抽出します。これにより、コンポーネントを最もよく表す機能が得られます。kkk kpca(kernlibパッケージから)関数を使用しようとしましたが、主成分の機能の重みにアクセスする方法がわかりません。カーネルメソッドを使用する場合、これは全体的に可能ですか?

1
ガウス過程の共分散
ガウシアンプロセスで共分散を計算するための式について少し混乱しています(分散が追加されていると、常に明示的に示されるとは限らないため、常に混乱します)。混乱の起源は、式はで与えられているということである司教によってパターン認識と機械学習とラスムッセンによる機械学習のためのガウス過程異なっています。 GPの平均は次の関係で与えられます: μ = K(X∗、X)[ K(X、X)+ σ2私]− 1yμ=K(X∗,X)[K(X,X)+σ2I]−1y\mu = K(X_*, X)[K(X,X)+\sigma^2\mathrm{I}]^{-1}y Bishopによる分散(ページ番号:308)は次のとおりです: Σ = [ K(X∗、X∗)+ σ2] − K(X∗、X)[ K(X、X)+ σ2私]− 1K(X、X∗)Σ=[K(X∗,X∗)+σ2]−K(X∗,X)[K(X,X)+σ2I]−1K(X,X∗)\Sigma = [K(X_*, X_*)+\sigma^2] - K(X_*, X)[K(X,X)+\sigma^2\mathrm{I}]^{-1}K(X, X_*) Rasmussenによる分散(ページ番号:16)は次のとおりです: Σ = K(X∗、X∗)− K(X∗、X)[ K(X、X)+ σ2私]− 1K(X、X∗)Σ=K(X∗,X∗)−K(X∗,X)[K(X,X)+σ2I]−1K(X,X∗)\Sigma = K(X_*, X_*) - K(X_*, X)[K(X,X)+\sigma^2\mathrm{I}]^{-1}K(X, X_*) 私の疑問は、共分散行列 RHSの最初の項に分散があるかどうかです。または私は物事を台無しにしていますか?ΣΣ\Sigma さらに情報が必要な場合はお知らせください。

1
複数カーネル学習(MKL)メソッドの利点は何ですか?
複数のカーネル学習メソッドは、カーネルが固定ベースカーネルの線形結合であるカーネルモデルの構築を目的としています。カーネルの学習は、単一のカーネルのカーネルパラメータを最適化するのではなく、各基本カーネルの重み付け係数を学習することで構成されます。 複数のカーネル学習の欠点は、解釈が難しく、計算コストが高いことです(モデルの出力を評価するには、すべての基本カーネルを評価する必要があります)。では、単一のカーネルを最適化するだけで同様のパフォーマンスを達成できるとしたら、MKLの利点は何でしょうか。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
RBFカーネルを使用した非線形SVM分類
私は、RBFカーネルで非線形SVM分類器を実装しています。通常のSVMとの唯一の違いは、ドット積をカーネル関数に置き換えるだけでよいということです: 通常の線形SVMのしくみを知っています。つまり、2次最適化問題(デュアルタスク)を解決した後、最適な分割超平面をとして計算します。 および超平面のオフセット ここで、はトレーニングベクトルのリスト、はそれぞれのラベル()、K(xi,xj)=exp(−||xi−xj||22σ2)K(xi,xj)=exp⁡(−||xi−xj||22σ2) K(x_i,x_j)=\exp\left(-\frac{||x_i-x_j||^2}{2\sigma^2}\right) w∗=∑i∈SVhiyixiw∗=∑i∈SVhiyixi w^*=\sum_{i \in SV} h_i y_i x_i b∗=1|SV|∑i∈SV(yi−∑j=1N(hjyjxTjxi))b∗=1|SV|∑i∈SV(yi−∑j=1N(hjyjxjTxi)) b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j x_j^T x_i\right)\right) xxxyyyyi∈{−1,1}yi∈{−1,1}y_i \in \{-1,1\}hhhはラグランジュ係数で、はサポートベクトルのセットです。その後、と単独で使用して簡単に分類できます:。SVSVSVw∗w∗w^*b∗b∗b^*cx=sign(wTx+b)cx=sign(wTx+b)c_x=\text{sign}(w^Tx+b) しかし、RBFカーネルではそのようなことはできないと思います。示唆するいくつかの資料を見つけました。それなら簡単でしょう。それにもかかわらず、私はこのカーネルにそのような分解が存在するとは考えておらず、どこにも言及されていません。分類にはすべてのサポートベクターが必要な状況ですか?もしそうなら、その場合どのように分類しますか?K(x,y)=ϕ(x)ϕ(y)K(x,y)=ϕ(x)ϕ(y)K(x,y)=\phi(x)\phi(y)

1
「カーネルメソッド」と「カーネルヒルベルト空間の再現」は関連していますか?
「カーネルメソッド」と「カーネルヒルベルト空間の再現」は関連していますか? 具体的には、「カーネルメソッド」という用語で使用されている「カーネル」は、「カーネルヒルベルト空間の再現」という用語で使用されている「カーネル」と同じ(タイプ)ですか? すでに2つのトピックについてWikipediaのページを確認しましたが、「カーネルヒルベルト空間を再現する」ためのページに「カーネルメソッド」についての言及はありませんでした。 カーネルヒルベルト空間の再現に関するテキスト(ここを参照)を見つけたいと思います。「カーネルメソッド」は機械学習のテキストで頻繁に取り上げられるトピックのようなので、2つの概念が本質的に同じであればこれははるかに簡単です。 。 一方、それらが異なる場合は、混乱を避けるために、2つの違いを理解できるように努力する必要があります。

1
アルゴリズムをカーネル化するとき、切片項を考慮する必要がありますか?
学習アルゴリズム(分類、回帰、クラスタリング、次元削減など)がデータポイント間のドット積のみを使用する場合カーネルトリックを介して、より高い次元のマッピングを暗黙的に使用できます。ドット積は、カーネルによって生じるすべてのインスタンス交換。xxTxxT\mathbf {x x^T}ϕ(x)ϕ(x)\phi(\mathbf x)K=ϕ(x)ϕ(x)TK=ϕ(x)ϕ(x)T\mathbf K = \phi(\mathbf x) \phi(\mathbf x) ^ \mathbf T SVMなどの線形モデルでは、データポイントに定数列を追加する切片を考慮することができます。線形カーネルを使用する場合、その列を一定に保つことは私にとって非常に理にかなっています。カーネル係数からまでの 列係数取得できます。と解は、カーネルを使用するかどうかにかかわらず、同一でなければなりません。K=xxTK=xxT\mathbf K = \mathbf {x x^T}ww\mathbf wuu\mathbf uw=xTuw=xTu\mathbf{w=x^T u} しかし、カーネルが線形でない場合、列係数がで表すことができないように無限次元でマッピングする場合はどうなりますか?インターセプト用語?w=ϕ(x)Tuw=ϕ(x)Tu\mathbf{w=\phi(\mathbf x)^T u}

1
カーネルを研究するための機能分析の学習
私はカーネルマシンの理論についてさらに学習しようとしていますが、多くのバックグラウンド計算を学ぶ必要があることを発見しました。そのため、このための優れたリソースを探しています。特に、SchölkopfとSmolaのLearning with Kernelsブックがあり、フーリエ変換、Greenの関数、演算子(たとえば、疑似微分演算子について聞いたことがありません)などについて説明しています。私はこれを使った経験はありませんが、本当に理解したいと思っています。私は確かに個々の例をググることはできますが、もっと包括的な扱いをしたいと思います。 これが曖昧または具体的である場合は申し訳ありませんが、私はカーネルとRKHS理論で快適に作業できるように、背景の数学を体系的に取得し始める方法を見つけるのに本当に苦労しています。どうもありがとう。 更新:私はこれが私に固有のものになるのではないかと心配していたので、私は自分のバックグラウンドを除外しましたが、それが尋ねられたためです:私は、標準の線形代数だけでなく、実際の分析と現代代数の1つのコースを受講しましたそして、多変量計算コース。私は微分方程式を研究していません。私はまた、数学的統計学のいくつかのコースを受講しました(メジャー理論を正式に研究したことはありませんが、メジャー理論のコースをいくつか含みます)。私はこれまでに調べた狭い範囲の統計(LLN、CLT、指数ファミリー、GLM、混合モデル、完全で十分な統計など)に満足していますが、純粋な数学はあまりありません私が感じる背景は私を傷つけ始めています。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.