タグ付けされた質問 「svm」

サポートベクターマシンは、「分類と回帰分析に使用される、データを分析してパターンを認識する一連の関連する教師あり学習方法」を指します。

1
スパーストレーニングセットはSVMに悪影響を及ぼしますか?
SVMを使用してメッセージをさまざまなカテゴリに分類しようとしています。トレーニングセットの望ましい単語/記号のリストをまとめました。 メッセージを表す各ベクトルについて1、単語が存在する場合に対応する行を設定します。 「コーパス」は次のとおりです。[メアリー、リトル、ラム、星、きらめき] 最初のメッセージ:「メアリーには小さな子羊がいた」-> [1 1 1 0 0] 2番目のメッセージ:「小さな星をきらめき」-> [0 1 0 1 1] これはSVMでかなり一般的な設定だと思いますが、私の質問は、セットに数千の単語がある場合、実際に表示されるメッセージごとに1-2単語しかない場合はどうでしょうか?トレーニングベクトルのセットの線形依存性は、アルゴリズムの収束能力に悪影響を及ぼしますか?

2
SVM、変数相互作用およびトレーニングデータの適合
2つの一般的/より理論的な質問があります。 1)予測モデルを構築するときに、SVMが変数の相互作用をどのように処理するか興味があります。たとえば、f1とf2の2つの機能があり、ターゲットがf1、f2に依存し、f1 * f2(または何らかの関数h(f1、f2))に依存する場合、SVMは適合します(OOSだけでなくトレーニングデータにも)フィーチャにf1、f2、h(f1、f2)を含めると、f1とf2を含めるだけで改善されますか?SVMアルゴリズムは機能の相互作用を処理しますか?SVMがより高次元の空間で超平面を作成しようとする方法と同じように思えますが、質問したいとは思いません。 2)トレーニングデータにSVMをフィッティングするとき、十分な機能と最適なパラメーター(ブルートフォース検索など)を見つけると、SVMは常にトレーニングデータに簡単に適合しますか?正しいことを言ったかどうかはわかりませんが、基本的に、フィーチャに十分な分散/ノイズがある場合、SVMは常にトレーニングデータに100%適合しますか?逆に、SVMがトレーニングデータに100%適合しない場合、データにキャプチャされていないターゲット変数に影響する情報(または他の機能)があることを意味しますか? ありがとう 小さな説明。カーネルSVMを具体的に参照しています

2
トレーニングデータのグループサイズが等しくないSVM
1つのグループが他のグループよりも多く表示されるトレーニングデータからSVMを構築しようとしています。ただし、グループは最終的なテストデータで等しく表されます。そのため、Rパッケージインターフェイスのclass.weightsパラメーターを使用して、トレーニングデータの2つのグループの影響のバランスを取りたいと思います。e1071libsvm これらの重みの指定方法が正確にわからないため、少しテストを設定しました。 いくつかのヌルデータを生成します(ランダムな特徴、グループラベル間の2:1の比率) class.weightsパラメータを設定してsvmを適合させます。 多数の新しいヌルデータセットを予測し、クラスの割合を調べます。 異なるヌルトレーニングセットに対してプロセス全体を何度も複製します。 私が使用しているRコードは次のとおりです。 nullSVM <- function(n.var, n.obs) { # Simulate null training data vars = matrix(rnorm(n.var*n.obs), nrow=n.obs) labels = rep(c('a', 'a', 'b'), length.out=n.obs) data = data.frame(group=labels, vars) # Fit SVM fit = svm(group ~ ., data=data, class.weights=c(a=0.5, b=1)) # Calculate the average fraction of 'a' we …

3
SVM回帰の理解:目的関数と「平坦性」
分類用のSVMは直感的に理解できます。最小化すると最大マージンが得られることは理解しています。しかし、回帰の文脈でその目的を理解していません。さまざまなテキスト(こことここ)で、これを「平坦性」を最大化するものとして説明しています。なぜそうするのでしょうか?回帰分析で「マージン」の概念に相当するものは何ですか?||θ||2||θ||2||\theta||^2 ここにいくつかの試みられた答えがありますが、私の理解を本当に助けたものはありません。
12 regression  svm 

2
ピアソンの相関係数を機械学習の最適化目標として使用する
機械学習(回帰問題の場合)では、最小化する誤差関数(および正則化項)として平均二乗誤差(MSE)または平均絶対誤差(MAE)が使用されることがよくあります。相関係数を使用する方が適切な状況があるのでしょうか。そのような状況が存在する場合: MSE / MAEと比較して、どのような状況で相関係数が優れたメトリックになりますか? これらの状況で、MSE / MAEはまだ使用するのに適したプロキシコスト関数ですか? 相関係数の最大化は直接可能ですか?これは使用する安定した目的関数ですか? 相関係数が直接最適化の目的関数として使用されるケースは見つかりませんでした。このエリアの情報を教えていただければ幸いです。

2
パネルデータの機械学習アルゴリズム
この質問では- 構造化/階層的/マルチレベル予測子を考慮に入れる決定木を構築する方法はありますか?-彼らは木のパネルデータメソッドに言及しています。 ベクターマシンとニューラルネットワークをサポートするための特定のパネルデータメソッドはありますか?もしそうなら、アルゴリズムとそれを実装するRパッケージ(利用可能な場合)のいくつかの論文を引用できますか?

1
SVMグリッド検索は、精度が低く高精度の領域を示す必要がありますか?
私は12のポジティブトレーニングセットを持っています(12の異なる作用機序のそれぞれを備えた薬物で処理された癌細胞)。これらのポジティブトレーニングセットのそれぞれについて、サポートベクターマシンをトレーニングして、実験からサンプリングされた同じサイズのネガティブセットと区別します。各セットには10​​00〜6000のセルがあり、各セルには476の特徴(画像の特徴)があり、それぞれ[0、1]に線形にスケーリングされます。 LIBSVMとGaussian RGBカーネルを使用しています。5分割の相互検証を使用して、log₂C∈[-5、15]およびlog₂ɣ∈[-15、3]のグリッド検索を実行しました。結果は次のとおりです。 12の分類問題すべてに高い精度を与える単一のパラメータセットがないことにがっかりしました。また、グリッドは一般に、低い精度で囲まれた高精度の領域を示していないことにも驚きました。これは、検索パラメータースペースを拡張する必要があるということだけですか、それともグリッド検索は何か他の問題があることを示しているのですか?
12 svm 

2
二次計画法によるサポートベクターマシンの最適化
線形サポートベクターマシンのトレーニングプロセスを理解しようとしています。SMVのプロパティを使用すると、2次プログラミングソルバーを使用するよりもはるかに速く最適化できることを理解していますが、学習目的でこれがどのように機能するかを確認したいと思います。 トレーニングデータ set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5))) df X1 X2 Y 1 -1.5454484 0.50127 1 2 -0.5283932 -0.80316 1 3 -1.0867588 0.63644 1 4 -0.0001115 1.14290 1 5 0.3889538 0.06119 1 6 5.5326313 3.68034 -1 7 3.1624283 2.71982 -1 8 5.6505985 3.18633 -1 9 4.3757546 …
12 r  svm  optimization 

2
CNNがFCレイヤーで終了するのはなぜですか?
私の理解では、CNNは2つの部分で構成されています。最初の部分(conv / poolレイヤー)は特徴抽出を行い、2番目の部分(fcレイヤー)は特徴から分類を行います。 完全に接続されたニューラルネットは最良の分類子ではないため(つまり、ほとんどの場合、SVMとRFによってパフォーマンスが向上します)、SVMやRFではなく、なぜCNNがFCレイヤーで終了するのですか?

1
SVMの汎化限界
サポートベクターマシンの一般化能力の理論的な結果、たとえば分類エラーの確率やこれらのマシンのVapnik-Chervonenkis(VC)次元の限界に興味があります。しかし、文献を読んでいると、同じような定期的な結果の一部は著者間で、特に特定の拘束力を維持するために必要な技術的条件に関して、わずかに異なる傾向があるという印象を受けました。 以下では、私は私が反復的に何らかの形で発見したことを主な汎化結果のSVMの問題と状態3の構造を思い出すだろう私は博覧会を通して、主に3つの参照を与えます。−−- 問題の設定: 独立して同一に分布した(iid)ペアデータサンプルがあるとしますここで、すべての、と。、および定義される分離超平面間の最小マージンを最大化するサポートベクターマシン(SVM)を構築します、および間の最も近い点。これにより、および定義された2つのクラスが分離されます。SVMに、スラック変数を導入することにより、ソフトマージンを介していくつかのエラーを許可させます。(xi,yi)1≤i≤n(xi,yi)1≤i≤n(x_i,y_i)_{1\leq i\leq n}iiixi∈Rpxi∈Rpx_i \in \mathbb{R}^pyi∈{−1,1}yi∈{−1,1}y_i \in \{-1,1\}m∗m∗m^*{x:w⋅x+b=0}{x:w⋅x+b=0}\{x : w \cdot x + b = 0\}w∈Rpw∈Rpw \in \mathbb{R}^pb∈Rb∈Rb \in \mathbb{R}x1,⋯,xnx1,⋯,xnx_1,\cdots,x_ny=−1y=−1y = -1y=1y=1y = 1ξ1,⋯,ξnξ1,⋯,ξn\xi_1,\cdots,\xi_n −−-しかし、説明の便宜のために、我々はカーネルの可能性を無視します。解のパラメーターとは、次の凸2次最適化プログラムを解くことによって得られます。w∗w∗w^*b∗b∗b^* minw,b,ξ1,⋯,ξns.t.:12∥w∥2+C∑i=1nξiyi(w⋅xi+b)≥1−ξiξi≥0,∀i∈{1,⋯,n},∀i∈{1,⋯,n}minw,b,ξ1,⋯,ξn12‖w‖2+C∑i=1nξis.t.:yi(w⋅xi+b)≥1−ξi,∀i∈{1,⋯,n}ξi≥0,∀i∈{1,⋯,n}\begin{align} \min_{w, \, b, \, \xi_1, \, \cdots, \, \xi_n} \; & \; \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n\xi_i \\ \text{s.t.} \; : \; & \; …

1
SVMと比較してサポートベクター回帰はどのように異なりますか?
私はSVMとSVRの基本を知っていますが、マージンを最大にする超平面を見つける問題がSVRにどのように当てはまるのかわかりません。 次に、SVRの許容範囲として使用されるについて読みました。どういう意味ですか?ϵϵ\epsilon 3番目に、SVMとSVRで使用される決定関数パラメーターに違いはありますか?

3
特徴ベクトルの余分な次元ではなく、SVMのバイアス項が個別に推定されるのはなぜですか?
SVMの最適な超平面は次のように定義されます。 w⋅x+b=0,w⋅x+b=0,\mathbf w \cdot \mathbf x+b=0, ここで、はしきい値を表します。我々はいくつかのマッピングがある場合はφいくつかのスペースに入力スペースをマップZを、私たちは宇宙にSVMを定義することができZ最適hiperplaneはなります:bbbϕϕ\mathbf \phiZZZZZZ w⋅ϕ(x)+b=0.w⋅ϕ(x)+b=0.\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0. しかし、我々は常にマッピング定義することができるように、φ 0(X)= 1、∀ X、その後最適hiperplaneのように定義される W ⋅ φ(X)= 0。ϕϕ\phiϕ0(x)=1ϕ0(x)=1\phi_0(\mathbf x)=1∀x∀x\forall \mathbf xw⋅ϕ(x)=0.w⋅ϕ(x)=0.\mathbf w \cdot \mathbf \phi(\mathbf x)=0. 質問: なぜ、多くの論文を使用、彼らはすでにマッピングしていたときにφと推定パラメータワットとtheshold B separatellyを?w⋅ϕ(x)+b=0w⋅ϕ(x)+b=0\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0ϕϕ\phiww\mathbf wbbb SVMを定義するためのいくつかの問題がある 秒。t 。Y N W ⋅ φ(X N)≥ 1 、∀ …
11 svm  threshold 

2
分類のためのSVMでのAdaboostの使用
Adaboostが一連の​​弱い分類子の線形結合を使用して強い分類子を生成しようとしていることを知っています。 ただし、特定の状況や状況で AdaboostとSVMが協調して機能することを示唆するいくつかの論文を読んだことがあります(SVMは強力な分類子ですが)。 アーキテクチャとプログラミングの観点から、それらがどのように組み合わさって機能するかを理解することはできません。私は多くの論文(たぶん間違ったもの)を読みましたが、それらがどのように連携するかを明確に説明していませんでした。 誰かが効果的な分類のために組み合わせてどのように機能するかについていくつかの光を投げることができますか?いくつかの論文/記事/ジャーナルへのポインタもいただければ幸いです。

1
SVMを分類確率として解釈することが間違っているのはなぜですか?
私のSVMの理解は、それがロジスティック回帰(LR)に非常に似ていることです。つまり、特徴の重み付けされた合計がクラスに属する確率を得るためにシグモイド関数に渡されますが、クロスエントロピー(ロジスティック)損失ではありません。関数、ヒンジ損失を使用してトレーニングが実行されます。ヒンジ損失を使用する利点は、カーネル化をより効率的にするために、さまざまな数値トリックを実行できることです。ただし、欠点は、結果のモデルの情報が、対応するLRモデルの情報よりも少ないことです。そのため、例えば、(線形カーネルを使用して)kernelisationずにSVMの決定境界はまだLRう出力0.5の確率と同じ場所になり、しかし 1は、クラスに属する確率が離れてからの減衰どのように迅速に伝えることはできません決定境界。 私の2つの質問は次のとおりです。 上記の私の解釈は正しいですか? ヒンジ損失を使用すると、SVMの結果を確率として解釈することが無効になりますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.