タグ付けされた質問 「kernel-trick」

カーネル手法は、機械学習で使用され、非線形技術、特にSVM、PCA、およびGPに対して線形手法を一般化します。カーネル密度推定(KDE)とカーネル回帰については、[kernel-smoothing]と混同しないでください。

4
カーネルとは何ですか?
多くの機械学習分類子(サポートベクターマシンなど)では、カーネルを指定できます。カーネルとは何かを説明する直観的な方法は何でしょうか? 私が考えていた1つの側面は、線形カーネルと非線形カーネルの違いです。簡単に言えば、「線形決定関数」と「非線形決定関数」について言えます。しかし、カーネルに「決定関数」を呼び出すことが良いアイデアかどうかはわかりません。 提案?


3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


4
GaussianカーネルがPCAにとって魔法のようになっているのはなぜですか?
私は、カーネルPCA(約読んでいた1、2、3)ガウスと多項式カーネルを持ちます。 ガウスカーネルは、どのような種類の非線形データも例外的にどのように分離するのですか?直感的な分析と、可能であれば数学的に複雑な分析を提供してください。 他のカーネルにはないガウスカーネル(理想的なσσ\sigma)のプロパティとは何ですか?ニューラルネットワーク、SVM、およびRBFネットワークが思い浮かびます。 たとえば、Cauchy PDFを基準にして、同じ結果を期待してみませんか?

2
サポートベクターマシン用の線形カーネルと非線形カーネル?
サポートベクターマシンを使用する場合、RBFのような線形カーネルと非線形カーネルの選択に関するガイドラインはありますか?特徴の数が多くなると、非線形カーネルはうまく機能しない傾向があると聞いたことがあります。この問題に関する参照はありますか?


3
動径基底関数がカーネルであることを証明する方法は?
動径基底関数がカーネルであることを証明する方法は?私の知る限り、これを証明するためには、次のいずれかを証明する必要があります。k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) ベクトルのセットマトリックス =は半正定です。x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} =ようなマッピングを提示できます。ΦΦ\Phik(x,y)k(x,y)k(x, y)⟨Φ(x),Φ(y)⟩⟨Φ(x),Φ(y)⟩\langle\Phi(x), \Phi(y)\rangle 何か助け?
35 svm  kernel-trick 

3
(深い)ニューラルネットワークが他の方法より明らかに優れていなかった、教師あり学習の問題はありますか?
私は人々がSVMとカーネルに多くの努力を注いでいるのを見てきましたが、彼らは機械学習のスターターとしてかなり面白そうです。しかし、ほぼ常に(深い)ニューラルネットワークの点で優れたソリューションを見つけることができると期待する場合、この時代に他の方法を試すことの意味は何ですか? このトピックに関する私の制約は次のとおりです。 教師あり学習のみを考えます。回帰および分類。 結果の可読性はカウントされません。教師あり学習問題の精度のみが重要です。 計算コストは​​考慮されていません。 他の方法が役に立たないと言っているわけではありません。

2
SVMの最適なCおよびガンマパラメータを決定するための検索範囲は?
分類にSVMを使用しており、線形カーネルとRBFカーネルの最適なパラメーターを決定しようとしています。線形カーネルの場合、交差検証されたパラメーター選択を使用してCを決定し、RBFカーネルの場合、グリッド検索を使用してCおよびガンマを決定します。 私は20(数値)機能と70のトレーニング例を7つのクラスに分類する必要があります。 Cおよびガンマパラメータの最適値を決定するために、どの検索範囲を使用する必要がありますか?

3
SVMとパーセプトロンの違い
SVMとパーセプトロンの違いに少し混乱しています。ここで私の理解を要約してみましょう。私が間違っている箇所を修正し、見落としたことを記入してください。 パーセプトロンは、分離の「距離」を最適化しようとしません。2つのセットを分離する超平面を見つける限り、それは良いことです。一方、SVMは「サポートベクトル」、つまり、最も近い2つの最も近いサンプルポイント間の距離を最大化しようとします。 SVMは通常、「カーネル関数」を使用してサンプルポイントを高次元空間に射影し、線形分離可能にしますが、パーセプトロンはサンプルポイントを線形分離可能と想定します。

4
SVMのカーネルの違いは?
誰かがSVMのカーネルの違いを教えてください: リニア 多項式 ガウス(RBF) シグモイド なぜなら、カーネルは入力空間を高次元の特徴空間にマッピングするために使用されることがわかっているからです。そして、その特徴空間で、線形に分離可能な境界を見つけます。 それらはいつ(どのような条件下で)使用されますか、そしてなぜですか?

3
ガウスカーネルの機能マップ
SVMでは、ガウスカーネルは次のように定義されます: ここで、X、Y \で\ mathbb {R ^ N} 。\ phiの明示的な方程式はわかりません。知りたいです。X、Y∈RnはK(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi 私はまたかどうか知りたい ∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)どこci∈Rci∈Rc_i\in \mathbb R。今、私はそれが等しくないと思います。なぜなら、カーネルを使用すると、線形分類が機能しない状況を処理するからです。ϕϕ\phi xを無限の空間に投影することを知っています。そのため、次元がいくつあっても線形のままである場合、svmは依然として適切な分類を行うことができません。

3
カーネル化されたSVMでGradient Descentは可能ですか(可能であれば、なぜ人々は2次プログラミングを使用するのですか)
カーネル化されたSVMを扱うときに、なぜ人々は2次計画法(SMOなど)を使用するのですか?Gradient Descentの何が問題になっていますか?カーネルで使用することは不可能ですか、それとも遅すぎますか(およびその理由)。 ここにもう少しコンテキストがあります:SVMをもう少しよく理解しようとして、私は次のコスト関数を使用して線形SVM分類器を訓練するために勾配降下を使用しました: J(w、b )= C∑i = 1mM X ( 0 、1 - Y(i )(wt⋅ X(i )+ b ))+12wt⋅ ワットJ(w、b)=C∑私=1mmaバツ(0、1−y(私)(wt⋅バツ(私)+b))+12wt⋅wJ(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w} 私は次の表記法を使用しています: ww\mathbf{w}はモデルの特徴の重みであり、はそのバイアスパラメーターです。bbb バツ(i )バツ(私)\mathbf{x}^{(i)}は、トレーニングインスタンスの特徴ベクトルです。私番目私番目i^\text{th} y(i )y(私)y^{(i)}は、インスタンスのターゲットクラス(-1または1)です。私番目私番目i^\text{th} mmmはトレーニングインスタンスの数です。 CCCは正則化ハイパーパラメーターです。 この方程式から(およびに関して)(サブ)勾配ベクトルを導き出しましたが、勾配降下はうまく機能しました。ww\mathbf{w}bbb …

1
カーネルになる可能性のある機能は何ですか?
機械学習とパターン認識のコンテキストには、Kernel Trickと呼ばれる概念があります。関数がカーネル関数であるかどうかを判断するように求められている問題に直面して、正確に何をすべきですか?最初に、多項式、RBF、ガウスなどの3つまたは4つのカーネル関数の形式であるかどうかを確認する必要がありますか?それから私は何をすることになっていますか?正定であることを示す必要がありますか?誰かがそのような問題の段階的な解決策を示すために例を解決できますか?例えば同じように、あるカーネル関数f(x)=extx′f(x)=extx′f(x)=e^{x^tx'}(我々はそれがガウス核であるか分からないと仮定)?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.