タグ付けされた質問 「svm」

サポートベクターマシン(SVM)は、分類または回帰に使用できる人気のある教師あり機械学習アルゴリズムです。


11
scikit学習を使用するSVMは無限に実行され、実行を完了しません
595605行と5列(機能)のあるトレーニングデータセットと、397070行のテストデータセットでscikit learn(python)を使用してSVRを実行しようとしています。データは前処理され、正規化されています。 テスト例を正常に実行することはできますが、データセットを使用して実行し、1時間以上実行しても、プログラムの出力または終了を確認できませんでした。別のIDEを使用して、さらにはターミナルからも実行しようとしましたが、それは問題ではないようです。また、「C」パラメーター値を1から1e3に変更してみました。 scikitを使用するすべてのsvm実装で同様の問題に直面しています。 私はそれが完了するのを十分に待っていませんか?この実行にはどれくらい時間がかかりますか? 私の経験から、それは数分以上は必要ありません。 システム構成は次のとおりです。Ubuntu14.04、8GB RAM、大量の空きメモリ、第4世代i7プロセッサ

2
サポートベクターマシンはまだニッチで「最先端」と見なされていますか?
この質問は、別の質問で私が見たコメントへの回答です。 コメントはCourseraの機械学習コースシラバスに関するもので、「SVMは今ではあまり使用されていません」と書かれています。 関連する講義を自分で終えたばかりであり、SVMの理解は、それらが分類のための堅牢で効率的な学習アルゴリズムであり、カーネルを使用する場合、おそらく10から1000までの機能をカバーする「ニッチ​​」トレーニングサンプルの数は、おそらく100〜10,000です。トレーニングサンプルの制限は、コアアルゴリズムが、元の特徴の数ではなく、トレーニングサンプルの数に基づく次元を持つ正方行列から生成された結果の最適化を中心に展開するためです。 それで、私が見たコメントは、コースが行われてからの実際の変更について言及しています。もしそうなら、その変更は何ですか:SVMの「スイートスポット」をカバーする新しいアルゴリズム、SVMの計算上の利点を意味するより良いCPU ?それとも、コメント者の意見や個人的な経験でしょうか? たとえば、「サポートベクターマシンは時代遅れです」などの検索を試みましたが、他の何かを支持してドロップされたことを示唆するものは何も見つかりませんでした。 そしてウィキペディアにはこれがあります:http : //en.wikipedia.org/wiki/Support_vector_machine#Issues。。。主な問題点は、モデルの解釈の難しさのようです。ブラックボックス予測エンジンではSVMは問題ありませんが、洞察の生成にはあまり適していません。私はそれを大きな問題として見ていません。仕事に適したツールを選ぶ際に考慮すべきもう一つの小さなことです(トレーニングデータや学習タスクなどの性質とともに)。

4
SVMでランダムフォレストを使用する場合とその逆の場合
いつRandom Forest、SVMまたはその逆を使用しますか? cross-validationモデルの比較はモデル選択の重要な側面であることを理解していますが、ここでは、2つの方法の経験則と経験則について詳しく学びたいと思います。 分類器の微妙さ、長所、短所、およびそれぞれに最適な問題を誰かが説明できますか?

2
PASCAL VOC Challengeの検出タスクのmAPを計算する方法は?
Pascal VOCリーダーボードの検出タスクのmAP(平均精度)の計算方法は?http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 そこに-11ページで:http : //homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 平均精度(AP)。VOC2007チャレンジでは、分類された検出と検出の両方を評価するために、補間された平均精度(Salton and Mcgill 1986)が使用されました。特定のタスクおよびクラスについて、精度/リコール曲線はメソッドのランク付けされた出力から計算されます。リコールは、特定のランクよりも上位にランク付けされたすべての肯定的な例の割合として定義されます。精度は、そのランクより上のすべての例のうち、ポジティブクラスからの割合です。APは精度/リコール曲線の形状を要約し、11個の等間隔のリコールレベル[0,0.1、...、1]のセットでの平均精度として定義されます。 AP = 1/11 ∑ r∈{0,0.1,...,1} pinterp(r) 各リコールレベルrの精度は、対応するリコールがrを超えるメソッドに対して測定された最大精度を取得することにより補間されますpinterp(r) = max p(r˜)。ここで、p(r〜)はリコール〜rで測定された精度です。 地図について:http://0agr.ru/wiki/index.php/Precision_and_Recall#Average_Precision それは次のことを意味します: PrecisionとRecallを計算します。 A)多くの異なるものIoU について、> {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1}真/偽の正/負の値を計算します ここでTrue positive = Number_of_detection with IoU > {0, 0.1,..., 1}、https://datascience.stackexchange.com/a/16813/37736で述べたように、次に計算します: Precision = True positive / …

2
scikit-learnでSVCとLinearSVCの違いを説明できますか?
私は最近、一緒に仕事をすることを学び始め、sklearnこの奇妙な結果に出会ったばかりです。 使用digits可能なデータセットを使用して、sklearnさまざまなモデルと推定方法を試しました。 私はデータをサポートベクトルマシンモデルをテストしたとき、私は2つの異なるのクラスがありますがわかったsklearn:SVM分類のためSVCとLinearSVC、元の用途1-に対する-1のアプローチおよび他の用途の一に対して、残りのアプローチは。 結果にどのような影響があるのか​​わかりませんでしたので、両方試してみました。モンテカルロスタイルの推定を行い、両方のモデルを500回実行しました。そのたびに、サンプルをランダムに60%のトレーニングと40%のテストに分割し、テストセットで予測の誤差を計算しました。 通常のSVC推定器は次のエラーのヒストグラムを生成しました。 一方、線形SVC推定器は次のヒストグラムを生成しました。 このような大きな違いを説明できるものは何でしょうか?ほとんどの場合、線形モデルの精度がこれほど高いのはなぜですか? そして、それに関連して、結果に著しい分極化を引き起こす原因は何ですか?1に近い精度または0に近い精度のいずれかで、間には何もありません。 比較のために、決定木分類では、約.85の精度ではるかに正規分布したエラー率が生成されました。
19 svm  scikit-learn 

2
サポートベクターマシンにはどのような学習問題が適していますか?
サポートベクターマシンを使用して特定の学習問題に取り組むことができることを示す特徴または特性は何ですか? 言い換えれば、学習の問題を見ると、ニューラルネットワークやデシジョンツリーなどではなく、「これには間違いなくSVMを使用する必要があります」ということになります。

2
分類器の精度を上げる方法は?
OpenCV letter_recog.cppの例を使用して、ランダムツリーやその他の分類子を実験しています。この例には、ランダムツリー、ブースティング、MLP、kNN、単純ベイズ、SVMの6つの分類子が実装されています。20000のインスタンスと16の機能を備えたUCI文字認識データセットが使用されます。これをトレーニングとテストのために半分に分割しました。SVMの経験があるため、その認識エラーをすばやく3.3%に設定しました。いくつかの実験の後、私が得たのは: UCI文字認識: RTrees-5.3% ブースト-13% MLP-7.9% kNN(k = 3)-6.5% ベイズ-11.5% SVM-3.3% 使用されるパラメーター: RTrees-max_num_of_trees_in_the_forrest = 200、max_depth = 20、min_sample_count = 1 ブースト-boost_type = REAL、weak_count = 200、weight_trim_rate = 0.95、max_depth = 7 MLP-method = BACKPROP、param = 0.001、max_iter = 300(デフォルト値-実験するには遅すぎる) kNN(k = 3)-k = 3 ベイズ-なし SVM-RBFカーネル、C = 10、ガンマ= 0.01 その後、同じパラメーターを使用し、最初に勾配フィーチャ(ベクトルサイズ200要素)を抽出して、DigitsおよびMNISTデータセットでテストしました。 数字: RTrees-5.1% ブースト-23.4% MLP-4.3% …

5
バイナリ分類アルゴリズムを選択
バイナリ分類の問題があります: トレーニングセットの約1000サンプル バイナリ、数値、カテゴリを含む10の属性 このタイプの問題に最適なアルゴリズムはどれですか? デフォルトでは、比較的クリーンでノイズのないデータに最適であると考えられているため、SVM(名目上の属性値がバイナリフィーチャに変換された予備)から開始します。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
機能スケーリングの結果
私は現在SVMを使用しており、トレーニング機能を[0,1]の範囲にスケーリングしています。最初にトレーニングセットを適合/変換し、次に同じ変換をテストセットに適用します。例えば: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform transformation on testing set X_test = min_max_scaler.transform(X_test) トレーニングセットの特定のフィーチャの範囲が[0,100]であり、テストセットの同じフィーチャの範囲が[-10,120]であると仮定します。トレーニングセットでは、その機能は[0,1]に適切にスケーリングされますが、テストセットでは、その機能は[-0.1,1.2]のような最初に指定された範囲外の範囲にスケーリングされます。 テストセットの機能がモデルのトレーニングに使用されている機能の範囲外にあると、どのような結果になるのでしょうか。これは問題ですか?


1
SVMの正則化パラメーターの直感
SVMの正則化パラメーターを変更すると、分離不可能なデータセットの決定境界がどのように変更されますか?(大小の正則化のための)制限的な動作に関する視覚的な回答やコメントが非常に役立ちます。
11 svm 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.