タグ付けされた質問 「kernel-trick」

カーネル手法は、機械学習で使用され、非線形技術、特にSVM、PCA、およびGPに対して線形手法を一般化します。カーネル密度推定(KDE)とカーネル回帰については、[kernel-smoothing]と混同しないでください。


1
カーネルPCAのカーネルを選択するには?
カーネルPCA(主成分分析)による最終的なデータ出力で適切なデータ分離をもたらすカーネルを選択する方法と、カーネルのパラメーターを最適化する方法は何ですか? できればレイマンの用語を大いに歓迎し、そのような方法を説明する論文へのリンクもいいでしょう。

1
カーネル化k最近傍
私はカーネルに不慣れで、kNNをカーネル化しようとしているときに障害に遭遇しました。 予選 私は多項式カーネルを使用しています: K(X、Y)= (1 + ⟨ X、Y ⟩ )dK(x,y)=(1+⟨x,y⟩)dK(\mathbf{x},\mathbf{y}) = (1 + \langle \mathbf{x},\mathbf{y} \rangle)^d 典型的なユークリッドkNNは次の距離計量を使用します: d(x、y)= | | x − y | |d(x,y)=||x−y||d(\mathbf{x}, \mathbf{y}) = \vert\vert \mathbf{x} - \mathbf{y} \vert\vert ましょうマップいくつかの高次元特徴空間に。次に、ヒルベルト空間における上記の距離計量の2乗は、内積で表すことができます x d 2(f (x )、f (y ))= K (x、x)− 2 K (x、y)+ K (y、y)f(x)f(x)f(\mathbf{x})バツx\mathbf{x}d2(f(x )、f(y))= K(x、x)− 2 …

5
numpyでガウスカーネルを効果的に計算する方法[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 3年前休業。 私はm列とn行の派手な配列を持っています。列は次元で、行はデータポイントです。 次に、データポイントの組み合わせごとにカーネル値を計算する必要があります。 線形カーネルのための私は単純に行うことができますK(xi,xj)=⟨xi,xj⟩K(xi,xj)=⟨xi,xj⟩K(\mathbf{x}_i,\mathbf{x}_j) = \langle \mathbf{x}_i,\mathbf{x}_j \rangledot(X,X.T) 私は効果的にガウスカーネルのすべての値を計算することができますどのように与えられたsを持つ s 2?K(xi,xj)=exp−∥xi−xj∥22s2K(xi,xj)=exp⁡−‖xi−xj‖22s2K(\mathbf{x}_i,\mathbf{x}_j) = \exp{-\frac{\|\mathbf{x}_i-\mathbf{x}_j\|_2^2}{s^2}}

1
カーネル近似のNystroemメソッド
低ランクのカーネル近似のためのNyströmメソッドについて読んでいます。この方法は、データサンプルをカーネル機能マッピングの低ランクの近似に投影する方法として、scikit-learn [1]に実装されています。 私の知る限り、トレーニングセットとカーネル関数を指定すると、WとCに SVDを適用することにより、n × nカーネル行列Kの低ランクの近似が生成されます。{ x私}んi = 1{xi}i=1n\{x_i\}_{i=1}^nn × nn×nn \times nKKKWWWCCC C = [ W K 21 ]、 W ∈ R L × LK= [ WK21KT21K22]K=[WK21TK21K22]K = \left [ \begin{array}{cc} W & K_{21}^T \\ K_{21} & K_{22} \end{array} \right ] C= [ WK21]C=[WK21]C = \left [\begin{array}{cc} W \\ …


2
マーサーの定理は逆に機能しますか?
同僚には関数あり、私たちの目的ではそれはブラックボックスです。この関数は、2つのオブジェクトの類似度を測定します。ssss(a,b)s(a,b)s(a,b) は次のプロパティがあることは確かです。sss 類似性スコアは、0から1までの実数です。 自己同一のオブジェクトのみのスコアが1です。したがって、意味しその逆も同様です。s(a,b)=1s(a,b)=1s(a,b)=1a=ba=ba=b ことが保証されています。s(a,b)=s(b,a)s(a,b)=s(b,a)s(a,b) = s(b,a) ここで彼は、入力として距離を必要とし、距離の公理を満たす入力に依存するアルゴリズムを使用したいと考えています。 私の考えは(それがユークリッドノルムまたは他の距離かもしれない)、私達はちょうど代数で並べ替えることができ、すなわち、彼らはいくつかの距離とRBFカーネルの結果であるかのように、我々は類似性スコアを扱うことができることだったと仮定類似度スコアは、を参照していることいくつかの(不明な)座標系のポイントのペアのRBFカーネル。 s(xi,xj)−rlogs(xi,xj)−−−−−−−−−−−−√=exp(−d(mi,mj)2r)=d(mi,mj)s(xi,xj)=exp⁡(−d(mi,mj)2r)−rlog⁡s(xi,xj)=d(mi,mj) \begin{align} s(x_i,x_j) &= \exp\left(-\frac{d( m_i, m_j)^2}{r}\right) \\ \sqrt{-r \log s(x_i,x_j) } &= d(m_i,m_j) \\ \end{align} ここで、は不明なベクトルで、は対象のオブジェクトで、は距離です。mα∈Rnmα∈Rnm_\alpha \in \mathbb{R}^nxαxαx_\alphaddd 距離公理を尊重するという点で、明白な特性がうまくいきます。結果は負でない必要があり、距離は同一のオブジェクトに対してのみ0です。しかし、このかなり一般的な一連の状況が、三角形の不平等が尊重されることを暗示するのに十分であることは明らかではありません。 一方、これはちょっとクレイジーに聞こえます。 「そこに存在しないされて、私の質問は、だから、、その結果用上のこれらのプロパティ与えられたいくつかの距離メトリック、その何である?」ffff(s(a,b))=d(a,b)f(s(a,b))=d(a,b)f(s(a,b))=d(a,b)dddsssfff 場合上のこれらの一般的な状況では存在しない、そのための要件の追加セットがあり存在しますか?fffsssfff

1
単純なパーセプトロンをカーネル化する方法は?
非線形境界の分類問題は、単純なパーセプトロンでは解決できません。次のRコードは説明のためのものであり、Python でのこの例に基づいています)。 nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <- matrix(c(-3,1, -2,1, -1,1, 0,1, 1,1, 2,1, 3,1), ncol=2, byrow=T) y <- c(0,0,1,1,1,0,0) syn0 <- runif(2,-1,1) for (iter in 1:100000) { l1 <- nonlin(X %*% syn0) l1_error <- y - l1 l1_delta <- l1_error …

1
グラフカーネルSVMハイパーパラメーターを調整する方法は何ですか?
グラフ存在するデータがあります。頂点はの2つのクラスのいずれかに属しており、2つのクラスを区別するようにSVMをトレーニングすることに興味があります。このための一つの適切なカーネルは、拡散カーネル、あるラプラシアンの及びチューニングパラメータです。G = (V、E)G=(V、E)G=(V,E)y私∈ { - 1 、1 }y私∈{−1、1}y_i\in\{-1,1\}K= exp(- βL )、K=exp⁡(−βL)、K=\exp(-\beta L),LLLGGGββ\beta SVMを調整するにはハイパーパラメーターを選択する必要があるため、を調整する必要があり通常、この問題には交差検証を使用しますが、から頂点を省略するとグラフ全体が変更され、場合によっては接続されているコンポーネントの数も増えるため、これは適切ではないようです。接続されているコンポーネントの数が変化すると、一部の頂点が他の頂点から到達できなくなり、当初とは非常に異なるデータセットに直面します。つまり、削除された頂点が欠落しているだけでなく、その頂点に隣接していたグラフ内の他のすべての頂点に関する情報も欠落しています。θ = (β、C)。θ=(β、C)。\theta=(\beta, C).私私iGGG私私ijjj 交差検証の基本的な概念は、新しいデータが表示されたときのモデルのパフォーマンスを概算したいというものです。標準的な問題では、テスト用のデータの一部を省略しても、残りのトレーニングデータの値は変わりません。ただし、グラフデータの場合、モデルがCV設定で「新しい」データを表示することの意味が明確ではありません。頂点またはエッジを省略すると、データが完全に変更される可能性があります。たとえば、スターグラフであるグラフを想像してください。1つの頂点には頂点から個の頂点があり、他のすべての頂点には1個のエッジがあります。中央の頂点を省略してトレーニングデータS= (VS、ES)S=(VS、ES)S=(V_S,E_S)kkkkkkkkkS∗S∗S^*グラフが完全に切断され、カーネル行列は対角になります!しかし、もちろん、提供されるこのトレーニングデータでモデルをトレーニングすることは可能です。あまり明確でないのは、結果のモデルのサンプル外のパフォーマンスをテストすることの意味です。のカーネルマトリックスを再計算し、それを予測のために提供しますか?S∗S∗S^*SSS または、代わりに、のカーネルマトリックス全体を計算し、必要に応じて行と列を省略してSVMの推定に使用されるカーネルマトリックスを生成することから始めますか?中央ノードを含めることは、すべての頂点が他のすべての頂点から到達可能であり、カーネルマトリックスが密であることを意味するため、これには独自の概念上の問題があります。この包含は、フォールド全体に情報漏えいがあり、交差検証出力にバイアスをかけることを意味しますか?一方で、省略された中央ノードはグラフを接続するため、省略された中央ノードに関するデータはまだ存在しています。一方、ラベルについては何も知りません。SSSSSS yyy このようにCVを実行することで、サンプルからの推定値がかなり偏りのないものになっていることを確認できます。 このタイプの問題のハイパーパラメータをどのように選択しますか?CVは不完全ですが許容できますか、それとも特別な方法が必要ですか?私のコンテキストではハイパーパラメータの調整はまったく可能ですか?

1
フィッシャーカーネルを超えて
しばらくの間、確率モデルからカーネルを構築する方法のように思われたため、Fisher Kernelが人気になるように思われました。ただし、実際に使用されることはめったにありません。また、十分に機能しない傾向があるというのは、十分な権限があるためです。彼らはフィッシャー情報の計算に依存しています-ウィキペディアの引用: フィッシャー情報は、fの自然対数のθに関する2次導関数の期待値の否定です。情報は、θの最尤推定値(MLE)に近いサポート曲線の「曲率」の尺度であると見なすことができます。 私が知る限り、これは2点間のカーネル関数がこの曲面に沿った距離であることを意味します-私は正しいですか? ただし、これは、カーネルメソッドでの使用に問題がある可能性があります。 MLEは、特定のモデルの非常に悪い推定値である可能性があります MLEの周囲のサポートカーブの曲率は、インスタンスを区別するために使用できない可能性があります。 これはモデルに関する多くの情報を捨てるようです これが事実である場合、確率論的方法からカーネルを構築するより現代的な方法はありますか?たとえば、ホールドアウトセットを使用して、MAP推定値を同じ方法で使用できますか?(有効な)カーネル関数を構築するために、確率論的手法からの距離または類似性のその他の概念はどのように機能しますか?

2
どのカーネルメソッドが最も確率の高い出力を提供しますか?
最近、SVM出力のPlattのスケーリングを使用して、デフォルトイベントの確率を推定しました。より直接的な代替手段は、「カーネルロジスティック回帰(KLR)」および関連する「インポートベクトルマシン」のようです。 確率出力を提供するどのカーネルメソッドが現在最先端であるか、誰かが知ることができますか?KLRのR実装は存在しますか? ご助力ありがとうございます!

1
カーネルメソッドの制限とカーネルメソッドをいつ使用するか。
カーネルメソッドは、多くの教師付き分類タスクで非常に効果的です。では、カーネルメソッドにはどのような制限があり、カーネルメソッドをいつ使用するのでしょうか。特に大規模データ時代において、カーネル手法の進歩は何ですか?カーネルメソッドと複数インスタンス学習の違いは何ですか?データが500x10000、500サンプル数、および10000各特徴の次元である場合、この状況でカーネルメソッドを使用できますか?

1
カーネルリッジ回帰の効率
リッジ回帰はとして表すことができますここで、は予測ラベルです、、行列を識別我々はのためのラベルを見つけようとしているオブジェクト、そしての行列オブジェクトように:y^=(X′X+aId)−1Xxy^=(X′X+aId)−1Xx\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}xy^y^\hat{y}IdId\mathbf{I}_dd×dd×dd \times dxx\mathbf{x}XX\mathbf{X}n×dn×dn \times dnnnxi=(xi,1,...,xi,d)∈Rdxi=(xi,1,...,xi,d)∈Rd\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d X=⎛⎝⎜⎜⎜⎜⎜x1,1x2,1⋮xn,1x1,2x2,2⋮x1,2……⋱…x1,dx2,d⋮xn,d⎞⎠⎟⎟⎟⎟⎟X=(x1,1x1,2…x1,dx2,1x2,2…x2,d⋮⋮⋱⋮xn,1x1,2…xn,d) \mathbf{X} = \begin{pmatrix} x_{1,1} & x_{1,2} & \ldots & x_{1,d}\\ x_{2,1} & x_{2,2} & \ldots & x_{2,d}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n,1} & x_{1,2} &\ldots & x_{n,d} \end{pmatrix} これを次のようにカーネル化できます:y^=(K+aId)−1ky^=(K+aId)−1k\hat{y} = (\mathbf{\mathcal{K}} + …

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
正則化線形対RKHS回帰
私はRKHS回帰と線形回帰の正則化の違いを研究していますが、両者の決定的な違いを理解するのに苦労しています。 入力-出力ペア所与の、Iは、関数推定するFを(⋅ )次のように F (X )≈ U (X )= M Σ iは= 1 α I K (Xは、xは私は)、 ここで、K (⋅ 、⋅ )はカーネル関数です。係数α mは解くことによってのいずれかで見つけることができる 分(x私、y私)(xi,yi)(x_i,y_i)f(⋅ )f(⋅)f(\cdot)f(X )≈ U (X )= Σi = 1メートルα私K(x 、x私)、f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}K(⋅ 、⋅ )K(⋅,⋅)K(\cdot,\cdot)αmαm\alpha_m ここで、表記の一部乱用、とI、J「カーネル行列の番目のエントリKであるK(XI、XのJ)。これは、得られる α*=(K+λNI)-1Yを。 または、問題を通常のリッジ回帰/線形回帰の問題として扱うこともできます。 minα∈Rn1n∥Y−Kα∥2Rn+λαTKα,minα∈Rn1n‖Y−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}i,ji,ji,jKKKK(xi,xj)K(xi,xj){\displaystyle K(x_{i},x_{j})} α∗=(K+λnI)−1Y.α∗=(K+λnI)−1Y.\begin{equation} \alpha^*=(K+\lambda …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.