タグ付けされた質問 「libsvm」

LIBSVMは、サポートベクターマシン用の統合ソフトウェアライブラリで、サポートベクター分類(C-SVC、nu-SVC)、回帰(epsilon-SVR、nu-SVR)および分布推定(1クラスSVM)を実行します

7
線形カーネルを持つSVMでのCの影響は何ですか?
現在、線形カーネルを備えたSVMを使用してデータを分類しています。トレーニングセットにエラーはありません。パラメーターいくつかの値 (10 − 5、… 、10 2)を試しました。これは、テストセットのエラーを変更しませんでした。CCC10− 5、… 、10210−5、…、10210^{-5}, \dots, 10^2 今私は疑問に思う:これは誤りであるルビーのバインディングによって引き起こされるためにlibsvm、私は(使用しているRB-LIBSVMを)か、これは理論的に説明できますか? パラメーター常に分類器のパフォーマンスを変更する必要がありますか?CCC

2
libsvmデータ形式[終了]
サポートベクターの分類にlibsvm(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)ツールを使用しています。ただし、入力データの形式については混乱しています。 READMEから: トレーニングおよびテストデータファイルの形式は次のとおりです。 <label> <index1>:<value1> <index2>:<value2> ... . . . 各行にはインスタンスが含まれ、「\ n」文字で終了します。分類の場合<label>、クラスラベルを示す整数です(マルチクラスがサポートされます)。回帰の場合<label>は、任意の実数のターゲット値です。1クラスのSVMの場合、使用されないため、任意の数にすることができます。このペア<index>:<value>は、特徴(属性)値を与えます<index>。1から始まる整数<value> で、実数です。唯一の例外は、<index>0から始まる事前計算済みカーネル です。事前に計算されたカーネルのセクションを参照してください。インデックスは昇順でなければなりません。テストファイルのラベルは、精度またはエラーの計算にのみ使用されます。不明な場合は、最初の列に数字を入力します。 次の質問があります。 の使用は何<index>ですか?どんな目的に役立ちますか? 異なるデータインスタンスの同じインデックス値に対応はありますか? 間にインデックスが欠落/スキップした場合はどうなりますか? libsvmのパッケージに含まれるデータファイル* heart_scale *は12行目でインデックスが2から始まる<value>ため、質問します。注:パッケージに付属のtools / checkdata.pyツールには、* heart_scale *ファイルが正しいと記載されています。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
libsvm「反復の最大数に達する」警告および相互検証
次数2の多項式カーネルでC-SVCモードでlibsvmを使用しており、複数のSVMをトレーニングする必要があります。各トレーニングセットには、10個の機能と5000個のベクトルがあります。トレーニング中に、トレーニングするほとんどのSVMでこの警告が表示されます。 WARNING: reaching max number of iterations optimization finished, #iter = 10000000 誰かがこの警告が何を意味するのか、おそらく、それを回避する方法を説明してもらえますか? また、ガンマとC(正則化)の最適な選択を決定するために、モデルに相互検証を適用したいと思います。私の計画は、これらの10個の値のすべての組み合わせを試すことです:0.00001、0.0001、0.001、0.01、0.1、1、10、100、1000、10000の両方のパラメーターで、交差検証中にどの組み合わせが最高の精度をもたらすかを確認します。これで十分ですか?この間隔でより多くの値を使用する必要がありますか、それともより広い間隔を選択する必要がありますか?

3
不均衡データ用のSVM
データセットでサポートベクターマシン(SVM)を使用しようとしています。しかし、問題を試みる前に、SVMは極端に不均衡なデータに対してうまく機能しないと警告されました。私の場合、95〜98%の0と2〜5%の1を使用できます。 スパース/アンバランスデータでSVMを使用することについて説明したリソースを見つけようとしましたが、見つけることができたのは 'sparseSVM'(少量のサポートベクターを使用)だけでした。 私は誰かが簡単に説明できることを望んでいました: そのようなデータセットでSVMがどの程度うまくいくと予想されるか SVMアルゴリズムに変更を加える必要がある場合 これについて議論するリソース/論文


1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

2
e1071 libsvmの問題?
2つの重複するクラス(各クラスに7つのポイント、ポイントは2次元空間)を持つデータセットがあります。Rでは、これらのクラスの分離ハイパープレーンを構築するためにパッケージから実行svmしていe1071ます。私は次のコマンドを使用しています: svm(x, y, scale = FALSE, type = 'C-classification', kernel = 'linear', cost = 50000) ここにxは私のデータポイントとyそのラベルが含まれています。このコマンドはsvm-objectを返します。これを使用して、分離する超平面のパラメーター(法線ベクトル)とb(切片)を計算します。wwwbbb 下の図(a)は、私のポイントとsvmコマンドによって返された超平面を示しています(この超平面を最適なものと呼びましょう)。記号Oの付いた青い点はスペースの原点を示し、点線はマージンを示し、丸で囲まれた点は非ゼロの(スラック変数)を持ちます。ξξ\xi 図(b)は別の超平面を示しています。これは、最適な平面を5だけ平行移動したものです(b_new = b_optimal-5)。この超平面の目的関数 (C-分類SVMによって最小化される)は、図()に示す最適な超平面の場合よりも低い値を有するであろう。この機能に問題があるように見えますか?または、どこかでミスをしましたか?0.5 || w | |2+ C O S T Σ ξ私0.5||w||2+cost∑ξ私 0.5||w||^2 + cost \sum \xi_i svm 以下は、この実験で使用したRコードです。 library(e1071) get_obj_func_info <- function(w, b, c_par, x, y) { xi <- rep(0, …

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

2
マルチクラス分類でのScikit SVMの出力は常に同じラベルを与える
私は現在、次のコードでScikit Learnを使用しています: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') そして、7つの異なるラベルを持つデータのセットを当てはめて予測します。奇妙な出力が出ました。検証セットで予測ラベルを使用する相互検証手法に関係なく、常にラベル7になります。 完全なデフォルトパラメータ(svm.SVC())を含む他のいくつかのパラメータを試しますが、私が使用するカーネルメソッドがのrbf代わりにあるpolyか、linearそれが機能しない限り、polyおよびに対しては非常にうまく機能しlinearます。 その上、検証データの代わりに列車データの予測をすでに試みており、完全に適合しています。 誰かがこの種の問題を以前に見て、ここで何が起こっているのか知っていますか? 私はクラスの分布を詳細に見ることはありませんが、約30%は7、14%は4であるべきだと思います。 私は手動の1-vs-rest実装を試みても、まだ役に立ちません。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
バイナリ分類問題に使用するSVMカーネルはどれですか?
ベクターマシンのサポートについては、初心者です。特定の問題に最適なカーネル(線形、多項式など)を示すガイドラインはありますか?私の場合、特定の情報が含まれているかどうかに応じてWebページを分類する必要があります。つまり、バイナリ分類の問題があります。 一般的に、どのカーネルがこのタスクに最も適していると言えますか?または、特定のデータセットでそれらのいくつかを試して、最適なデータセットを見つける必要がありますか?ちなみに、私はlibSVMライブラリを利用するPythonライブラリscikit-learnを使用しています。

2
サポートベクターマシンでのガンマパラメーターの使用
を使用するlibsvm場合、パラメーターはカーネル関数のパラメーターです。デフォルト値はγ = 1に設定されていますγγ\gammaγ=1number of features.γ=1number of features.\gamma = \frac{1}{\text{number of features.}} グリッド検索などの既存の方法以外に、このパラメーターを設定するための理論的なガイダンスはありますか?

1
SVMのコスト(C)パラメータはどういう意味ですか?
SVMをデータに適合させようとしています。私のデータセットには3つのクラスが含まれており、(LibSVMで)10分割交差検証を実行しています。 ./svm-train -g 0.5 -c 10 -e 0.1 -v 10 training_data それによりヘルプは次のように述べています -c cost : set the parameter C of C-SVC, epsilon-SVR, and nu-SVR (default 1) 私にとって、より高いコスト(C)値を提供すると、より高い精度が得られます。SVMのCは実際にはどういう意味ですか?Cのより高い/より低い値(またはLibSVMのデフォルト値)を使用する理由と時期を教えてください。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.