タグ付けされた質問 「svm」

サポートベクターマシン(SVM)は、分類または回帰に使用できる人気のある教師あり機械学習アルゴリズムです。

2
SVMとロジスティック回帰の違い
私は読んでいてSVM、カーネル化されSVMsていないのは線形セパレータにすぎないという点に直面しました。したがって、SVM境界とロジスティック回帰の唯一の違いは、境界を選択する基準ですか? どうやら、SVM最大マージン分類子を選択し、ロジスティック回帰はcross-entropy損失を最小化するものです。SVM ロジスティック回帰またはその逆のパフォーマンスが向上する状況はありますか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

4
歪んだマルチクラスデータ
50クラスの約100,000サンプルを含むデータセットがあります。新しいデータをトレーニングして予測するために、RBFカーネルでSVMを使用しています。ただし、データセットが異なるクラスに偏っていることが問題です。 たとえば、クラス1-30(それぞれ〜3%)、クラス31-45(それぞれ〜0.6%)、クラス46-50(それぞれ〜0.2%) テストセットがトレーニングセットと同じクラス分布を持っている場合でも、モデルがトレーニングセットであまり頻繁に発生しないクラスを予測することはほとんどありません。 過半数のクラスをマイナークラスに縮小する「アンダーサンプリング」などの手法があることを知っています。しかし、これは非常に多くの異なるクラスがある場合にここで適用できますか?このケースを処理するのに役立つ他の方法はありますか?

1
SVMとヒンジ損失の関係は何ですか?
私の同僚と私は、ロジスティック回帰とSVMの違いに頭を抱えようとしています。明らかに、それらは異なる目的関数を最適化しています。SVMは、ヒンジ損失を単に最適化する判別型分類器であると言うほど簡単ですか?それともそれよりも複雑ですか?サポートベクターはどのように機能しますか?スラック変数はどうですか?シグモイドアクティベーション関数を備えたディープニューラルネットワークを構築できないのに、なぜディープSVMを構築できないのですか?

1
サポートベクターマシンの機能選択
私の質問は3つあります 「カーネル化された」サポートベクターマシンのコンテキストでは 変数/機能の選択は望ましいですか-特にパラメーターCを正規化して過剰適合を防止しているため、SVMにカーネルを導入する背後にある主な動機は問題の次元数を増やすことです。 最初の質問への回答が「いいえ」の場合、次に、どの条件で回答を変更すればよいのですか? Pythonのscikit-learnライブラリにSVMの機能削減をもたらすために試された良い方法はありますか?私はSelectFprメソッドを試して、さまざまな方法の経験を持つ人を探しています。

1
トレーニングラベルの信頼度を使用して予測精度を向上させることはできますか?
バイナリ値でラベル付けされたトレーニングデータがあります。また、これらの各ラベルの信頼度を収集しました。つまり、0.8の信頼度は、人間のラベラーの80%がそのラベルに同意することを意味します。 この信頼性データを使用して分類子の精度を向上させることはできますか? 以下はうまくいくでしょうか? 1a)ラベルが0で、そのラベルの信頼度データが0.8の場合、トレーニングデータに0.2の新しいラベルを付けます。 1b)ラベルが1で、そのラベルの信頼性データが0.8の場合、トレーニングデータに0.8の新しいラベルを付けます。 2)トレーニングセットのすべてのエントリに対して、この方法を使用して新しいラベルを計算します 3)問題を回帰問題として扱います(ラベルの範囲は0〜1)。 4)新しいラベルが特定の値の上か下かに基づいて、ラベルのないデータを分類します。つまり、すべての予測ラベルにX未満の場合はクラス0を、Xを超える場合はクラス1を指定します。 現在、モデルにRBFカーネルを備えたSVMを使用しています。 前もって感謝します!


1
スパイキングニューラルネットワークが他のアルゴリズムより優れている(非スパイキング)ドメインはありますか?
Echo State NetworksやLiquid State Machinesなどのリザーバーコンピューティングテクニックについて読んでいます。どちらの方法も、ランダムに接続された(または接続されていない)スパイキングニューロンの母集団に入力を供給することと、出力を生成する比較的単純な読み出しアルゴリズム(線形回帰など)を含みます。ニューロンの母集団の重みは、固定されているか、STDPのようなヘブライアンのようなローカルアクティビティルールによってトレーニングされています。 これらの手法は、重要な時間コンポーネントを持つ多次元入力をモデル化するときにうまく機能します。ただし、スパイクニューロンの膜電位の計算には微分方程式の積分が含まれ、計算コストが高くなる可能性があります。 リザーバーコンピューティングテクニックの追加の計算の複雑さの方が、予測または分類タスクのゲインよりも優れている例はありますか? たとえば、RNN、ANN、SVM、DNN、CNN、またはその他のアルゴリズムに基づいて、比較的複雑なアーキテクチャよりもSNN技術が優れているケースはありますか?

1
sklearn-過剰適合問題
現在の機械学習の問題を解決する最善の方法に関する推奨事項を探しています 問題の概要と私が行ったことは次のとおりです: EEGデータの900回以上の試行があり、各試行は1秒の長さです。それぞれのグラウンドトゥルースは既知であり、状態0と状態1を分類します(40〜60%の分割) 各試行は、特定の周波数帯域のパワーをフィルタリングおよび抽出する前処理を通過し、これらは一連の機能を構成します(機能マトリックス:913x32) 次に、sklearnを使用してモデルをトレーニングします。cross_validationは、テストサイズ0.2を使用する場合に使用されます。分類子はrbfカーネルでSVCに設定されています、C = 1、ガンマ= 1(私はいくつかの異なる値を試しました) ここでコードの短縮版を見つけることができます:http : //pastebin.com/Xu13ciL4 私の問題: 分類子を使用してテストセットのラベルを予測すると、すべての予測が0になる トレイン精度は1ですが、テストセット精度は約0.56です。 私の学習曲線プロットは次のようになります: さて、これはここでオーバーフィットの古典的なケースのようです。ただし、ここでの過剰適合は、サンプルに対する特徴の数が極端に多い(32個の特徴、900個のサンプル)ために発生することはほとんどありません。私はこの問題を軽減するためにいくつかのことを試みました: サンプル数に対して機能が多すぎるために、次元削減(PCA)を使用してみましたが、精度スコアと学習曲線プロットは上記と同じに見えます。コンポーネントの数を10未満に設定しない限り、トレインの精度は低下し始めますが、情報を失い始めていることを考えると、これは多少予想されませんか? データの正規化と標準化を試みました。標準化(SD = 1)は、トレインまたは精度スコアを変更することはありません。(0-1)を正規化すると、トレーニングの精度が0.6に低下します。 SVCに対してさまざまなCおよびガンマ設定を試しましたが、どちらのスコアも変更されません GaussianNBなどの他の推定量を使用して、adaboostなどのアンサンブル法を使用してみました。変化なし linearSVCを使用して正則化メソッドを明示的に設定しようとしましたが、状況は改善されませんでした theanoを使用してニューラルネットで同じ機能を実行してみましたが、列車の精度は約0.6、テストは約0.5です 私は問題について考え続けることができてうれしいですが、この時点で私は正しい方向へのナッジを探しています。私の問題はどこにあり、それを解決するために私は何ができますか? 私の機能のセットが2つのカテゴリーを区別しないだけの可能性は十分にありますが、この結論にジャンプする前に他のいくつかのオプションを試してみたいと思います。さらに、私の機能が区別されない場合、それは低いテストセットスコアを説明しますが、その場合、どのようにして完璧なトレーニングセットスコアを取得できますか?それは可能ですか?

1
正確にはどこに
私は、SVMが(カーネルトリックのない)バイナリの線形分類器であることを理解しました。彼らはトレーニングデータを持っています(xi,yi)(xi,yi)(x_i, y_i) どこ xixix_i ベクトルであり、 yi∈{−1,1}yi∈{−1,1}y_i \in \{-1, 1\}クラスです。それらはバイナリ、線形分類子なので、タスクはラベルでデータポイントを分離する超平面を見つけることです−1−1-1 ラベル付きのデータポイントから +1+1+1。 今のところ、データポイントは線形分離可能であり、スラック変数は必要ないものとします。 これで、トレーニングの問題が次の最適化問題であることがわかりました。 minw,b12∥w∥2minw,b12‖w‖2{\min_{w, b} \frac{1}{2} \|w\|^2} st yi(⟨w,xi⟩+b)≥1yi(⟨w,xi⟩+b)≥1y_i ( \langle w, x_i \rangle + b) \geq 1 私はそのminizmizingだと思うマージンを最大化手段(。しかし、私はそれが正方形がここにある理由を理解していないだろう何かの変更を1最小化しようとする場合?)。∥w∥2‖w‖2\|w\|^2∥w∥‖w‖\|w\| また、は、モデルがトレーニングデータに対して正しい必要があることを意味することも理解しました。ただし、ではなくます。どうして?yi(⟨w,xi⟩+b)≥0yi(⟨w,xi⟩+b)≥0y_i ( \langle w, x_i \rangle + b) \geq 0111000

1
PlattのSMOアルゴリズム(SVM用)で教えてください
A_Roadmap_to_SVM_SMO.pdf、12ページから。 (ソース:postimg.org) 線形カーネルを使用していると仮定すると、最初の内積と2番目の内積の両方をどのように取得できますか? 私の推測では、方程式の最初の内積についてはクラスAとラベル付けされたデータポイントjのデータポイントの内積と、2番目の内積についてはクラスBとラベル付けされたデータポイントのデータポイントjとの内積ですか?
7 svm 

5
ニューラルネットワークのどこから始めるか
まず、質問がウェブサイトに適さない可能性があることはわかっていますが、ポインタを教えていただければ幸いです。 私は16歳のプログラマーです。さまざまなプログラミング言語の経験があり、しばらく前にCourseraでコースを開始しました。機械学習入門というタイトルで、その瞬間からAIについて学ぶ意欲が高まり、ニューラルネットワークについて読んで、Javaを使用して実用的なパーセプトロンを作成しましたが、それは本当に楽しかったですが、もう少し難しいこと(数字認識ソフトウェアの構築)を始めたとき、私は多くの数学を学ばなければならないことがわかりました。数学が大好きですが、ここの学校はあまり教えてくれません。数学の教師である誰かがAIを学ぶために数学(特に微積分)を学ぶ必要があると思いますか、それとも、それらを学ぶまで待つべきでしょうか。学校? また、私がAIと機械学習を学習する過程で、他にどのようなことが役立つでしょうか?他の手法(SVMなど)でも強力な計算が必要ですか? 私の質問が長い場合は申し訳ありませんが、AIの学習で経験したことを教えていただければ幸いです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.