タグ付けされた質問 「svm」

サポートベクターマシンは、「分類と回帰分析に使用される、データを分析してパターンを認識する一連の関連する教師あり学習方法」を指します。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


4
SVMのカーネルの違いは?
誰かがSVMのカーネルの違いを教えてください: リニア 多項式 ガウス(RBF) シグモイド なぜなら、カーネルは入力空間を高次元の特徴空間にマッピングするために使用されることがわかっているからです。そして、その特徴空間で、線形に分離可能な境界を見つけます。 それらはいつ(どのような条件下で)使用されますか、そしてなぜですか?

1
svmでOne-vs-AllおよびOne-vs-One?
one-vs-allとone-vs-one SVM分類器の違いは何ですか? one-vs-allは新しい画像のすべてのタイプ/カテゴリを分類する1つの分類子を意味し、one-vs-oneは新しい画像の各タイプ/カテゴリを異なる分類子で分類することを意味しますか(各カテゴリは特別な分類子によって処理されます)? たとえば、新しい画像が円、長方形、三角形などに分類される場合

2
サポートベクターマシンと回帰
サポートベクターマシンが分類を処理する方法についてはすでに優れた議論がありましたが、サポートベクターマシンが回帰に一般化する方法については非常に混乱しています。 私を啓発したい人はいますか?

10
なぜニューラルネットワークとディープラーニングをダンプしないのですか?[閉まっている]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 2年前に閉店。 一般的なディープラーニングとニューラルネットワークの基本的な問題。 トレーニングデータに適合するソリューションは無限です。単一の方程式だけで満たされ、最も一般化できると言える正確な数学方程式はありません。単純に言えば、どれが最も一般化するのかわかりません。 重みの最適化は凸面の問題ではないため、グローバルミニマムまたはローカルミニマムになることは決してありません。 それでは、なぜニューラルネットワークをダンプして、代わりにより良いMLモデルを検索しないのですか?私たちが理解していること、そして一連の数学的な方程式と一致する何か?線形およびSVMにはこの数学的な欠点はなく、一連の数学方程式と完全に一致しています。同じラインで考えて(線形である必要はありません)、線形およびSVMおよびニューラルネットワークとディープラーニングよりも優れた新しいMLモデルを考え出すのはなぜですか?


3
ガウスカーネルの機能マップ
SVMでは、ガウスカーネルは次のように定義されます: ここで、X、Y \で\ mathbb {R ^ N} 。\ phiの明示的な方程式はわかりません。知りたいです。X、Y∈RnはK(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi 私はまたかどうか知りたい ∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)どこci∈Rci∈Rc_i\in \mathbb R。今、私はそれが等しくないと思います。なぜなら、カーネルを使用すると、線形分類が機能しない状況を処理するからです。ϕϕ\phi xを無限の空間に投影することを知っています。そのため、次元がいくつあっても線形のままである場合、svmは依然として適切な分類を行うことができません。

4
最適化アルゴリズムが他の最適化問題に関して定義されているのはなぜですか?
機械学習の最適化手法に関するいくつかの研究を行っていますが、他の最適化問題に関して多数の最適化アルゴリズムが定義されていることに驚いています。以下にいくつかの例を示します。 たとえば、https://arxiv.org/pdf/1511.05133v1.pdf すべてが素晴らしくて良いように見えが、更新にはこのがあります。...を解決するアルゴリズムは何ですか?私たちは知りません、そしてそれは言いません。魔法のように、内積が最小になるように最小化ベクトルを見つけるという別の最適化問題を解決します。これはどのように行うことができますか?z k + 1 argminargminバツargminx\text{argmin}_xzk + 1zk+1z^{k+1}argminargmin\text{argmin} 別の例をご覧ください:https : //arxiv.org/pdf/1609.05713v1.pdf アルゴリズムの途中でその近位の演算子をヒットするまで、すべてが素晴らしくて見栄えがよく、その演算子の定義は何ですか? ブーム: さて、近位オペレーターでこのをどのように解決したらよいでしょうか。それは言いません。いずれにせよ、その最適化問題はが何であるかに応じて困難に見えます(NP HARD)。 fargminバツargminx\text{argmin}_xfff 誰かが私に啓発してください: なぜ他の最適化問題に関して非常に多くの最適化アルゴリズムが定義されているのですか? (これはある種の鶏と卵の問題ではありません。問題1を解決するには、問題3を解決する方法を使用して問題2を解決する必要があります。 これらのアルゴリズムに組み込まれているこれらの最適化問題をどのように解決しますか?たとえば、、右側のを見つける方法は?バツk + 1= argminバツ本当に複雑な損失関数xk+1=argminxreally complicated loss functionx^{k+1} = \text{argmin}_x \text{really complicated loss function} 最終的に、これらのアルゴリズムを数値的に実装する方法について私は困惑しています。ベクトルの追加と乗算はPythonでは簡単な操作であると認識していが、については、関数の最小化を魔法のように与える関数(スクリプト)はありますか?argminバツargminx\text{argmin}_x (報奨金:著者が高レベル最適化アルゴリズムに埋め込まれた副問題のアルゴリズムを明確にしている論文を参照できますか?)

2
ハードマージンSVMの損失関数とは何ですか?
人々はソフトマージンSVMはヒンジ損失関数を使用すると言います:。ただし、ソフトマージンSVMが最小化しようとする実際の目的関数は、 \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max(0,1-y_i(w ^ \ intercal x_i + b)です。 ) 一部の著者は、\ | w \ | ^ 2項正則化および\ max(0,1-y_i(w ^ \ intercal x_i + b))項損失関数を呼び出します。max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b))12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥w∥2‖w‖2\|w\|^2max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) ただし、ハードマージンSVMの場合、目的関数全体はちょうど 12∥w∥212‖w‖2 \frac{1}{2}\|w\|^2 。これは、ハードマージンSVMが損失関数なしで正則化のみを最小化することを意味しますか?それは非常に奇妙に聞こえます。 まあ、あれば12∥w∥212‖w‖2\frac{1}{2}\|w\|^2、この場合の損失関数である、我々は二次損失関数を呼び出すことができますか?もしそうなら、なぜハードマージンSVMの損失関数はソフトマージンSVMで正則化され、二次損失からヒンジ損失に変化するのですか?

3
多変量時系列予測のサポートベクトル回帰
サポートベクトル回帰を使用して時系列予測を試みた人はいますか? サポートベクターマシンを理解し、サポートベクター回帰を部分的に理解していますが、時系列、特に多変量時系列をモデル化するためにそれらを使用する方法を理解していません。 私はいくつかの論文を読み込もうとしましたが、レベルが高すぎます。特に多変量時系列に関連して、誰もが彼らがどのように機能するかを簡単に説明できますか? 編集:少し詳しく説明するために、株価の例で説明してみましょう。 N日間の株価があるとします。次に、毎日、特徴ベクトルを作成できます。特徴ベクトルは、単純な場合、前日の価格と当日の価格になります。各特徴ベクトルの応答は、翌日の価格になります。したがって、昨日の価格と今日の価格を考えると、目的は翌日の価格を予測することです。私が理解していないのは、6か月のトレーニングデータがあるとします。最近の特徴ベクトルをどのように重視するのでしょうか。

3
カーネル化されたSVMでGradient Descentは可能ですか(可能であれば、なぜ人々は2次プログラミングを使用するのですか)
カーネル化されたSVMを扱うときに、なぜ人々は2次計画法(SMOなど)を使用するのですか?Gradient Descentの何が問題になっていますか?カーネルで使用することは不可能ですか、それとも遅すぎますか(およびその理由)。 ここにもう少しコンテキストがあります:SVMをもう少しよく理解しようとして、私は次のコスト関数を使用して線形SVM分類器を訓練するために勾配降下を使用しました: J(w、b )= C∑i = 1mM X ( 0 、1 - Y(i )(wt⋅ X(i )+ b ))+12wt⋅ ワットJ(w、b)=C∑私=1mmaバツ(0、1−y(私)(wt⋅バツ(私)+b))+12wt⋅wJ(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w} 私は次の表記法を使用しています: ww\mathbf{w}はモデルの特徴の重みであり、はそのバイアスパラメーターです。bbb バツ(i )バツ(私)\mathbf{x}^{(i)}は、トレーニングインスタンスの特徴ベクトルです。私番目私番目i^\text{th} y(i )y(私)y^{(i)}は、インスタンスのターゲットクラス(-1または1)です。私番目私番目i^\text{th} mmmはトレーニングインスタンスの数です。 CCCは正則化ハイパーパラメーターです。 この方程式から(およびに関して)(サブ)勾配ベクトルを導き出しましたが、勾配降下はうまく機能しました。ww\mathbf{w}bbb …

4
データが線形分離可能かどうかを知る方法は?
データには多くの機能(100など)があり、インスタンスの数は100,000程度です。データはまばらです。ロジスティック回帰またはsvmを使用してデータを近似します。非線形の場合にカーネルトリックを使用できるように、フィーチャが線形か非線形かをどのように知ることができますか?

1
libsvm「反復の最大数に達する」警告および相互検証
次数2の多項式カーネルでC-SVCモードでlibsvmを使用しており、複数のSVMをトレーニングする必要があります。各トレーニングセットには、10個の機能と5000個のベクトルがあります。トレーニング中に、トレーニングするほとんどのSVMでこの警告が表示されます。 WARNING: reaching max number of iterations optimization finished, #iter = 10000000 誰かがこの警告が何を意味するのか、おそらく、それを回避する方法を説明してもらえますか? また、ガンマとC(正則化)の最適な選択を決定するために、モデルに相互検証を適用したいと思います。私の計画は、これらの10個の値のすべての組み合わせを試すことです:0.00001、0.0001、0.001、0.01、0.1、1、10、100、1000、10000の両方のパラメーターで、交差検証中にどの組み合わせが最高の精度をもたらすかを確認します。これで十分ですか?この間隔でより多くの値を使用する必要がありますか、それともより広い間隔を選択する必要がありますか?

4
CNNを使用して1D信号を分類することをお勧めしますか?
私は睡眠段階の分類に取り組んでいます。私はこのトピックに関するいくつかの研究記事を読み、それらの多くはSVMまたはアンサンブル法を使用しました。たたみ込みニューラルネットワークを使用して1次元EEG信号を分類するのは良い考えですか? 私はこの種の仕事に慣れていない。何か間違ったことを聞いたらご容赦ください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.