タグ付けされた質問 「svm」

サポートベクターマシンは、「分類と回帰分析に使用される、データを分析してパターンを認識する一連の関連する教師あり学習方法」を指します。

3
分布を見つけて正規分布に変換する
1時間にイベントが発生する頻度(「1時間あたりの数」、nph)とイベントが持続する時間(「1秒あたりの秒数」、dph)を説明するデータがあります。 これは元のデータです: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, 9.21739130425452, 27.8399999994814, 15.3750000002237, NA, 6.00000000004109, 9.71428571436649, 12.4848484848485, 16.5034965037115, 20.6666666666667, 3.49999999997453, 4.65882352938624, 4.74999999996544, 3.99999999994522, 2.8, 14.2285714286188, 11.0000000000915, NA, 2.66666666666667, 3.76470588230138, 4.70588235287673, 13.2727272728677, 2.0000000000137, 18.4444444444444, 17.5555555555556, 14.2222222222222, 2.00000000001663, 4, 8.46153846146269, 19.2000000001788, 13.9024390245481, 13, 3.00000000004366, NA, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 

2
厳密にバイナリデータの分類モデルを構築する
厳密にバイナリであるデータセットがあります。各変数の値のセットはドメイン内にあります:true、false。 このデータセットの「特別な」プロパティは、値の圧倒的多数が「false」であることです。 ベイジアンネットワーク学習アルゴリズムを使用して、データからネットワークを学習しました。ただし、ターゲットノードの1つ(最も重要なノードは死)の場合、AUCの結果はあまり良くありません。偶然より少し良いです。CVについて私に提案されているポジティブ予測値(PPV)でさえ、他のアプローチを使用した文献で報告されているものと競合しませんでした。AUC(ROC分析)は、臨床研究のこの領域で報告される典型的なベンチマークですが、他にアイデアがある場合は、分類モデルをより適切にベンチマークする方法についての提案も開かれています。 そのため、このプロパティを使用してこのタイプのデータセット(ほとんどの場合、偽の値)に対して他のどの分類モデルを試すことができるか考えていました。 ベクターマシンのヘルプをサポートしますか?私の知る限り、SVMは連続変数(予測子としての変数)のみを扱います(ただし、マルチクラスに適合されています)。しかし、私の変数はすべてバイナリです。 ランダムフォレストは役に立ちますか? ここでロジスティック回帰が適用されますか?私の知る限り、ロジスティック回帰の予測子も連続しています。予測子としてのバイナリ変数の一般化バージョンはありますか? 分類のパフォーマンスは別として、SVMとランダムフォレストはベイジアンネットワークよりも優れていると思いますが、問題はこれらのモデルの関係を説明する方法(特に臨床医)に移ります。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
SVMパラメーター推定のグリッドサーチ
現在、グリッドサーチを使用して、サポートベクターマシンをトレーニングしています。パラメータガンマとCがある場合、R関数tune.svmがこれら2つのパラメーターのすべての組み合わせに対して10分割交差検証を実行することを理解しています。 開始方法がわからなかったので、それについていくつかの情報を取得しようとしました。たとえば、wikipedia 2は線形ではない値を提案しています(例:{10、100、1000}の範囲のC)。 これまでのところ、2番目のウィキペディアリンクの例を使用しています。 gammas = 2^(-15:3) costs = 2^(-5:15) その結果、399の組み合わせになります。 これには非常に時間がかかります(約2000サンプル)。たとえば、カーネル「放射状」の場合、最善の結果はガンマ= 0.5、コスト= 2です。 コストに(1、2、3、4、... 10)とガンマに(0、0.5、1、1.5、2)のような値を使用しただけでは、同じ結果が得られませんか?結果がわかっているので、この例が構成されていることを知っています。 私の質問: しかし、なぜこの指数スケールなのでしょうか? 0と1の間には非常に多くの値があるため、これは計算時間の浪費であり、非常に大きな数が少ないため、とにかく正確な結果を見つけることができませんでした。これが狭い範囲を見つけるために使用された場合にのみ意味があります。たとえば、最適なコストが2 ^ 3であることがわかっていて、そのあたりを検索するとします。しかし、そのように実行されることはどこにも言及されていません。
8 svm 

2
Rの1クラスSVMの例
Rで1クラスのSVMを実行しようとしています。e1071/ ksvm kernlabパッケージを使用しようとしています。しかし、私がそれを正しく行っているかどうかはわかりません。 Rの1クラスSVMの実用的な例はありますか? また、 Xとして予測子の大きな行列を与えています。これは1クラスであるはずなので、私が与えたすべてのトレーニングデータは「ポジティブ」クラスを形成すると仮定していますか?もしそうなら、ラベルに「Y」を付ける必要はありませんか? 出力として与えられる予測ラベルはTrue / Falseです。つまり、Trueは「ポジティブ」クラスであると想定しています。 編集:サンプルコードを添付します。ここでは、「TRUE」クラスの60%をサンプリングし、完全なデータセットでテストしました。 library(e1071) library(caret) data(iris) iris$SpeciesClass[iris$Species=="versicolor"] <- "TRUE" iris$SpeciesClass[iris$Species!="versicolor"] <- "FALSE" trainPositive<-subset(iris,SpeciesClass=="TRUE") inTrain<-createDataPartition(1:nrow(trainPositive),p=0.6,list=FALSE) trainpredictors<-iris[inTrain,1:4] testpredictors<-iris[,1:4] testLabels<-iris[,6] svm.model<-svm(trainpredictors,y=NULL, type='one-classification', nu=0.5, scale=TRUE, kernel="radial") svm.pred<-predict(svm.model,testpredictors) confusionMatrixTable<-table(Predicted=svm.pred,Reference=testLabels) confusionMatrix(confusionMatrixTable,positive='TRUE')
8 r  svm 

3
モデルの選択、特徴の選択、および公開のための分類パフォーマンスメトリックの選択
私は小さなアンバランスデータセット(70ポジティブ、30ネガティブ)を使用しており、BAC(バランス精度)とAUC(曲線の下の面積)を使用してSVMパラメーターのモデル選択をいじっています。libSVMのCパラメーターにさまざまなクラスの重みを使用して、ここでのアドバイス(不均衡データに対する決定木のトレーニング)に従って不均衡データを相殺しました。 k分割交差検証エラーは、パフォーマンス測定のタイプに非常に敏感であるようです。トレーニングと検証のセットがランダムに選択されるため、それ自体にもエラーがあります。たとえば、ランダムシードを変えてBACを2回繰り返すと、異なるエラーが発生し、その後、最適パラメーターの値も異なります。繰り返しBACスコアを平均化する場合、1000回の平均では、10000回の平均とは異なる最適パラメーター値が得られます。さらに、フォールドの数を変更すると、さまざまな最適パラメーター値が得られます。 相互検証の精度指標は、楽観的になりすぎる場合があります。通常、2倍の相互検証を超えると、100%の精度が得られます。また、サンプルサイズが小さいため、エラー率は離散化されます。多くの場合、モデルを選択すると、すべてまたはほとんどのパラメーター値で同じエラー率が得られます。 レポートを作成するとき、分類が「良い」または「許容できる」ことをどのように知ることができますか?現場では、一般的に受け入れられている適合度やp値のしきい値のようなものはないようです。データに繰り返し追加しているので、いつ停止するかを知りたいのですが、モデルが大幅に改善しない場合の良いNは何ですか。 上記の問題を考えると、AUCはパフォーマンスの指標としては不十分であると説明されていますが(たとえば、ここ、またはここを参照)、精度を簡単に比較することはできないようです。 これらの3つの問題のいずれかに取り組む方法に関するアドバイスはありますか?

3
svmが同じデータのディシジョンツリーほど良くないのはなぜですか?
私は機械学習に慣れていないため、scikit-learn(sklearn)を使用して分類の問題に対処しようとしています。DecisionTreeとSVMはどちらも、この問題の分類子をトレーニングできます。 私はとを使用sklearn.ensemble.RandomForestClassifierしsklearn.svm.SVCて、同じトレーニングデータを適合させます(エントリあたり50個の機能を持つ約500,000エントリ)。RandomForestClassifierは約1分で分級して出てきます。SVCは、 24時間以上を使用し、まだ実行し続けます。 SVCのパフォーマンスが非効率的であるのはなぜですか?データセットはSVCに対して大きすぎますか?あるSVCは、このような問題のために不適切な?


1
複数カーネル学習(MKL)メソッドの利点は何ですか?
複数のカーネル学習メソッドは、カーネルが固定ベースカーネルの線形結合であるカーネルモデルの構築を目的としています。カーネルの学習は、単一のカーネルのカーネルパラメータを最適化するのではなく、各基本カーネルの重み付け係数を学習することで構成されます。 複数のカーネル学習の欠点は、解釈が難しく、計算コストが高いことです(モデルの出力を評価するには、すべての基本カーネルを評価する必要があります)。では、単一のカーネルを最適化するだけで同様のパフォーマンスを達成できるとしたら、MKLの利点は何でしょうか。

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
RBFカーネルを使用した非線形SVM分類
私は、RBFカーネルで非線形SVM分類器を実装しています。通常のSVMとの唯一の違いは、ドット積をカーネル関数に置き換えるだけでよいということです: 通常の線形SVMのしくみを知っています。つまり、2次最適化問題(デュアルタスク)を解決した後、最適な分割超平面をとして計算します。 および超平面のオフセット ここで、はトレーニングベクトルのリスト、はそれぞれのラベル()、K(xi,xj)=exp(−||xi−xj||22σ2)K(xi,xj)=exp⁡(−||xi−xj||22σ2) K(x_i,x_j)=\exp\left(-\frac{||x_i-x_j||^2}{2\sigma^2}\right) w∗=∑i∈SVhiyixiw∗=∑i∈SVhiyixi w^*=\sum_{i \in SV} h_i y_i x_i b∗=1|SV|∑i∈SV(yi−∑j=1N(hjyjxTjxi))b∗=1|SV|∑i∈SV(yi−∑j=1N(hjyjxjTxi)) b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j x_j^T x_i\right)\right) xxxyyyyi∈{−1,1}yi∈{−1,1}y_i \in \{-1,1\}hhhはラグランジュ係数で、はサポートベクトルのセットです。その後、と単独で使用して簡単に分類できます:。SVSVSVw∗w∗w^*b∗b∗b^*cx=sign(wTx+b)cx=sign(wTx+b)c_x=\text{sign}(w^Tx+b) しかし、RBFカーネルではそのようなことはできないと思います。示唆するいくつかの資料を見つけました。それなら簡単でしょう。それにもかかわらず、私はこのカーネルにそのような分解が存在するとは考えておらず、どこにも言及されていません。分類にはすべてのサポートベクターが必要な状況ですか?もしそうなら、その場合どのように分類しますか?K(x,y)=ϕ(x)ϕ(y)K(x,y)=ϕ(x)ϕ(y)K(x,y)=\phi(x)\phi(y)

1
SVMでラプラシアングラフを使用した多様体正則化
Matlabのサポートベクターマシン(SVM)に多様体正則化を実装しようとしています。Belkin et al。(2006)の論文の指示に従っていますが、その中に方程式があります。 f∗=argminf∈Hk∑li=1V(xi,yi,f)+γA∥f∥2A+γI∥f∥2If∗=argminf∈Hk∑i=1lV(xi,yi,f)+γA‖f‖A2+γI‖f‖I2f^{*} = \text{argmin}_{f \in H_k}\sum_{i=1}^{l}V\left(x_i,y_i,f\right)+\gamma_{A}\left\| f \right\|_{A}^{2}+\gamma_{I}\left\| f \right\|_{I}^{2} ここで、Vはある損失関数であり、γAγA\gamma_AはRHKSの関数のノルム(または周囲のノルム)の重みであり、は可能な解に平滑性条件を適用し、γIγI\gamma_Iは関数のノルムの重みです。低次元多様体(または固有ノルム)。これは、サンプリングされたMに沿って滑らかに実行されます。アンビエントレギュラライザーは問題を適切な状態にします。その存在は、多様体の仮定が低い程度に当てはまる場合、実用的な観点から本当に役立ちます。 。 それはBelkin等で示されました。(2006) 、そのf∗f∗f^*の点で拡張を認めnnn Sの点、 f∗(x)=∑ni=1α∗ik(xi,x)f∗(x)=∑i=1nαi∗k(xi,x)f^*(x)=\sum_{i=1}^{n}\alpha_i^*k(x_i,x) その決定関数クラス+1と-1を区別するのはy(x)=sign(f∗(x))y(x)=sign(f∗(x))y(x)=sign(f^*(x))です。 ここでの問題は、MATLABでLIBSVMを使用してSVMをトレーニングしようとしているが、元のコードを変更したくないため、入力データを取得する代わりに、事前に計算されたバージョンのLIBSVMを見つけ、出力グループをパラメーターとして取得したことです。 、計算されたカーネル行列と出力グループを取得し、SVMモデルをトレーニングします。私は、正規化されたカーネルマトリックス(グラムマトリックス)を使用してフィードを試行し、残りを実行させます。 カーネルを正規化する式を見つけようとしましたが、次のようになりました。カーネル行列と同じ次元を持つ恒等行列としての定義、IIIKKK G=2γAI+2γILKIG=2γAI+2γILKIG=\frac{2\gamma_AI + 2\gamma_ILK}{I} Gram=KGGram=KGGram = KG ここで、はラプラシアングラフ行列、はカーネル行列、は単位行列です。そして、は2つの行列と内積を使用して計算されます。LLLKKKIIIGramGramGramKKKGGG これがどのように計算されるかを理解するのを手伝ってくれる人はいますか?

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

3
歪んだ/高い尖度データのサポートベクター回帰
サポートベクター回帰を使用して、かなり歪んだデータ(尖度が高い)をモデル化しています。データを直接モデル化しようとしましたが、主にデータの分布が原因であると誤った予測を取得しています。いくつかの外れ値(これは正当なデータポイントです)がSVRトレーニングに影響を及ぼしていると確信しています。また、おそらくクロスバリデーションでも影響があり、現時点では平均二乗誤差を最小限に抑えることでハイパーパラメーターを最適化しています。 SVRを適用する前にデータをスケーリング(たとえば、sqrt関数を使用して外れ値を減らす)したり、別のハイパーパラメーター最小化関数(たとえば、絶対誤差)を使用したりしましたが、より良い結果が得られるようですが、それでもあまり良くありません。誰かが同様の問題に遭遇したかどうか、そして彼らがそれにどのように取り組みましたか?どんな提案や代替方法でも大歓迎です。

1
SVMクラスの重みの事前選択
不均衡なデータを持つマルチクラスSVMでは、(X検証ではなく)トレーニングデータからクラスの重みを決定する方法があったことをどこかで見たり読んだりしたことを覚えています。誰がその方法が何であるか、またはどの紙からのものか知っていますか? ありがとう

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.