タグ付けされた質問 「svm」

サポートベクターマシンは、「分類と回帰分析に使用される、データを分析してパターンを認識する一連の関連する教師あり学習方法」を指します。

1
SVMがまだ優れているアプリケーションはありますか?
SVMアルゴリズムはかなり古く、1960年代に開発されましたが、1990年代と2000年代には非常に人気がありました。これは、機械学習コースの古典的な(そして非常に美しい)部分です。 今日、メディア処理(画像、音声など)ではニューラルネットワークが完全に支配しているようですが、他の分野では、勾配ブースティングが非常に強力な位置を占めています。 また、最近のデータ競争では、SVMベースのソリューションは見られません。 SVMが最新の結果を出すアプリケーション例を探しています(2016年現在)。 更新: SVMを説明するときに、学生や同僚に例を挙げて、純粋に理論的または非推奨のアプローチのように見えないようにしたいと思います。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
高い再現率-不均衡なデータセットの精度が低い
現在、サポートベクターマシンでツイートデータセットを分析しているときに問題が発生しています。問題は、バランスの取れていないバイナリクラストレーニングセット(5:2)があることです。これは実際のクラス分布に比例すると予想されます。予測すると、検証セットの少数派クラスの精度が低くなります(0.47)。再現率は0.88です。実際のクラス分布を反映するために検証セットも不均衡であるため、精度を向上させなかった(トレーニングセットで実行される)いくつかのオーバーサンプリングおよびアンダーサンプリングメソッドを使用しようとしました。また、サポートベクターマシンにさまざまなコストを実装しました。もうパフォーマンスが上がらないようです。 私の想起を損なうことなく精度を向上させるために私ができることについて、何かアドバイスはありますか?さらに、なぜ私が偽陰性より陽性の方がはるかに多いのか誰かに手掛かりがありますか(陽性は少数派クラスです)?

1
Rのトレーニングプロセスのステータスを確認する[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前休業。 caretRでパッケージを使用してモデルをほぼ3日間トレーニングしています。計算は並列に実行されます(複数のプロセス)。残念ながら、Rコンソール(kernlabパッケージのSVMモデル)には出力がないため、10%と90%のどちらが完了したかはわかりません。 どういうわけか計算のプロセスを理解する方法はありますか? 私はOS Xを使用しているので、プロセススタックをダンプして、現在評価されているパラメーター値またはk倍の反復を見つけようとしている可能性があります。しかし、どうやって? 編集:トレーニング用のスクリプト: ctrl <- trainControl(method = "cv", number = 10, selectionFunction = "best", classProbs = TRUE, summaryFunction = twoClassSummary, verboseIter = TRUE) grid_svm <- expand.grid(.C = logseq(2^-15, 2^3, 10)) svm <- train(CLASS ~ ., data = dataset, method = "svmLinear", preProcess = c("center", …

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
SVM =テンプレートマッチングとは
私はSVMについて読み、それらが最適化問題を解決していて、最大マージンのアイデアが非常に合理的であることを学びました。 現在、カーネルを使用することで、非線形の分離境界でさえも見つけることができました。 これまでのところ、SVM(特別なカーネルマシン)とカーネルマシンがニューラルネットワークとどのように関連しているか、私にはまったくわかりません。 Yann Lecunのコメントを検討してください=> ここ: kernel methods were a form of glorified template matching そしてここも: たとえば、一部の人々は、それに伴うかわいい数学のために、カーネルメソッドに夢中です。しかし、以前に言ったように、結局のところ、カーネルマシンは「見栄えの良いテンプレートマッチング」を実行する浅いネットワークです。これには何の問題もありませんが(SVMは優れた方法です)、私たち全員が知っておくべき悲惨な制限があります。 だから私の質問は: SVMはニューラルネットワークとどのように関連していますか?浅いネットワークはどうですか? SVMは明確に定義された目的関数で最適化問題を解決しますが、テンプレートマッチングはどのように行われますか?ここで入力が照合されるテンプレートは何ですか? これらのコメントには、高次元空間、ニューラルネット、カーネルマシンの完全な理解が必要だと思いますが、これまでのところ、私は試みており、その背後にあるロジックを把握できませんでした。しかし、2つの非常に異なるmlテクニック間の関係に注目するのは確かに興味深いことです。 編集:ニューラルの観点からSVMを理解することは素晴らしいことだと思います。線形SVMとカーネルトリックを備えたSVMの両方の場合の、SVMとニューラルネット間のリンクを本当に理解するために、上記の2つの質問に対する完全な数学支援の答えを探しています。

2
混合ガウスモデルを使用する場合
GMMを初めて使用する。オンラインで適切なヘルプを見つけることができませんでした。「GMMの使用が私の問題に適しているかどうかを判断する方法」に関する正しいリソースを誰かに教えてもらえますか?または分類の問題の場合「SVM分類またはGMM分類を使用する必要があるかどうかを判断する方法」

1
SVMのタイプの違い
ベクターマシンをサポートするのは初めてです。 簡単な説明 R svmのe1071パッケージの関数は、さまざまなオプションを提供します。 C分類 ニュー分類 1つの分類(新規性検出用) EPS回帰 ニュー回帰 5つのタイプの直感的な違いは何ですか?どちらをどのような状況で適用すべきですか?

2
SVMを使用する場合、なぜ機能を拡張する必要があるのですか?
scikit-learn のStandardScalerオブジェクトのドキュメントによると: たとえば、学習アルゴリズムの目的関数で使用される多くの要素(サポートベクターマシンのRBFカーネル、線形モデルのL1およびL2正則化器など)は、すべての特徴が0を中心とし、同じ順序で分散があると仮定します。ある特徴の分散が他のものよりも桁違いに大きい場合、それは目的関数を支配し、推定量が期待どおりに他の特徴から正しく学習できなくなる可能性があります。 分類する前に機能をスケーリングする必要があります。なぜこれを行うべきなのかを示す簡単な方法はありますか?科学論文への参照はさらに良いでしょう。私はすでに見つかったものを他の多くのは、おそらくあります。

2
バイナリ分類問題に使用するSVMカーネルはどれですか?
ベクターマシンのサポートについては、初心者です。特定の問題に最適なカーネル(線形、多項式など)を示すガイドラインはありますか?私の場合、特定の情報が含まれているかどうかに応じてWebページを分類する必要があります。つまり、バイナリ分類の問題があります。 一般的に、どのカーネルがこのタスクに最も適していると言えますか?または、特定のデータセットでそれらのいくつかを試して、最適なデータセットを見つける必要がありますか?ちなみに、私はlibSVMライブラリを利用するPythonライブラリscikit-learnを使用しています。

2
縦断データによるSVM回帰
患者あたり約500の変数があり、各変数には1つの連続値があり、3つの異なる時点(2か月後と1年後)で測定されます。回帰により、新しい患者の治療結果を予測したいと思います。 そのような長期データでSVM回帰を使用することは可能ですか?

2
サポートベクターマシンでのガンマパラメーターの使用
を使用するlibsvm場合、パラメーターはカーネル関数のパラメーターです。デフォルト値はγ = 1に設定されていますγγ\gammaγ=1number of features.γ=1number of features.\gamma = \frac{1}{\text{number of features.}} グリッド検索などの既存の方法以外に、このパラメーターを設定するための理論的なガイダンスはありますか?

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
Rの線形SVMから決定境界を取得する方法
線形SVMモデルの方程式を提供できるパッケージが必要です。現在、私はe1071を次のように使用しています: library(e1071) m = svm(data, labels, type='C', kernel='linear', cost=cost, probability=FALSE, scale=scale) w = t(m$coefs) %*% data[m$index,] #Weight vector b = -model$rho #Offset ただし、どのようにしてe1071::svm()ポジティブクラスとネガティブクラスを選択するのかわかりません。そのため、さまざまなデータセットで混乱する可能性があります。この関数がどのクラスがポジティブでどのクラスがネガティブであるかをどのように決定するか誰でも確認できますか? また、これに適したパッケージはありますか?
9 r  svm  e1071 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.