タグ付けされた質問 「svm」

サポートベクターマシンは、「分類と回帰分析に使用される、データを分析してパターンを認識する一連の関連する教師あり学習方法」を指します。


3
動径基底関数がカーネルであることを証明する方法は?
動径基底関数がカーネルであることを証明する方法は?私の知る限り、これを証明するためには、次のいずれかを証明する必要があります。k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) ベクトルのセットマトリックス =は半正定です。x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} =ようなマッピングを提示できます。ΦΦ\Phik(x,y)k(x,y)k(x, y)⟨Φ(x),Φ(y)⟩⟨Φ(x),Φ(y)⟩\langle\Phi(x), \Phi(y)\rangle 何か助け?
35 svm  kernel-trick 

3
「弱い学習者」とはどういう意味ですか?
「弱い学習者」という語句の意味を教えてください。それは弱い仮説であると思われますか?弱い学習者と弱い分類器の関係について混乱しています。両方とも同じですか、それとも何らかの違いがありますか? AdaBoostのアルゴリズムでは、T=10。それはどういう意味ですか?なぜ選択するのT=10ですか?

3
(深い)ニューラルネットワークが他の方法より明らかに優れていなかった、教師あり学習の問題はありますか?
私は人々がSVMとカーネルに多くの努力を注いでいるのを見てきましたが、彼らは機械学習のスターターとしてかなり面白そうです。しかし、ほぼ常に(深い)ニューラルネットワークの点で優れたソリューションを見つけることができると期待する場合、この時代に他の方法を試すことの意味は何ですか? このトピックに関する私の制約は次のとおりです。 教師あり学習のみを考えます。回帰および分類。 結果の可読性はカウントされません。教師あり学習問題の精度のみが重要です。 計算コストは​​考慮されていません。 他の方法が役に立たないと言っているわけではありません。

5
SVMは一度に1つの例を学習することができますか?
ストリーミングデータセットがありますが、例は一度に1つずつ入手できます。それらに対してマルチクラス分類を行う必要があります。学習プロセスにトレーニング例を提供したらすぐに、その例を破棄する必要があります。同時に、ラベルなしデータの予測を実行するために最新のモデルも使用しています。 私の知る限り、ニューラルネットワークは、サンプルを1つずつフィードし、そのサンプルで順伝播と逆伝播を実行することにより、ストリーム学習を行うことができます。 SVMは一度に1つの例を学習するストリームを実行し、すぐに例を破棄できますか?

3
カーネルロジスティック回帰とSVM
すべての人に知られているように、SVMはカーネルメソッドを使用して、より高いスペースにデータポイントを投影し、ポイントを線形スペースで区切ることができます。しかし、ロジスティック回帰を使用してカーネル空間でこの境界を選択することもできます。SVMの利点は何ですか?SVMは予測時にこれらのサポートベクトルのみが寄与するスパースモデルを使用するため、SVMの予測が高速化されますか?
32 svm 


2
SVMの最適なCおよびガンマパラメータを決定するための検索範囲は?
分類にSVMを使用しており、線形カーネルとRBFカーネルの最適なパラメーターを決定しようとしています。線形カーネルの場合、交差検証されたパラメーター選択を使用してCを決定し、RBFカーネルの場合、グリッド検索を使用してCおよびガンマを決定します。 私は20(数値)機能と70のトレーニング例を7つのクラスに分類する必要があります。 Cおよびガンマパラメータの最適値を決定するために、どの検索範囲を使用する必要がありますか?

2
libsvmデータ形式[終了]
サポートベクターの分類にlibsvm(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)ツールを使用しています。ただし、入力データの形式については混乱しています。 READMEから: トレーニングおよびテストデータファイルの形式は次のとおりです。 <label> <index1>:<value1> <index2>:<value2> ... . . . 各行にはインスタンスが含まれ、「\ n」文字で終了します。分類の場合<label>、クラスラベルを示す整数です(マルチクラスがサポートされます)。回帰の場合<label>は、任意の実数のターゲット値です。1クラスのSVMの場合、使用されないため、任意の数にすることができます。このペア<index>:<value>は、特徴(属性)値を与えます<index>。1から始まる整数<value> で、実数です。唯一の例外は、<index>0から始まる事前計算済みカーネル です。事前に計算されたカーネルのセクションを参照してください。インデックスは昇順でなければなりません。テストファイルのラベルは、精度またはエラーの計算にのみ使用されます。不明な場合は、最初の列に数字を入力します。 次の質問があります。 の使用は何<index>ですか?どんな目的に役立ちますか? 異なるデータインスタンスの同じインデックス値に対応はありますか? 間にインデックスが欠落/スキップした場合はどうなりますか? libsvmのパッケージに含まれるデータファイル* heart_scale *は12行目でインデックスが2から始まる<value>ため、質問します。注:パッケージに付属のtools / checkdata.pyツールには、* heart_scale *ファイルが正しいと記載されています。

3
Rはテキスト分類タスクにどれだけうまく対応できますか?[閉まっている]
私はRの速度を上げようとしています。最終的にはテキストの分類にRライブラリを使用したいと思います。テキストの分類を行う際に、Rの拡張性に関して人々の経験はどうなっているかと思っていました。 高次元のデータ(〜30万次元)に遭遇する可能性があります。特に分類アルゴリズムとしてSVMとランダムフォレストを使用することを検討しています。 Rライブラリは問題のサイズに合わせて拡張できますか? ありがとう。 編集1:明確にするために、私のデータセットには10​​00〜3000行(おそらくもう少し)と10のクラスがありそうです。 編集2:私はRに非常に新しいので、可能な限りより具体的になるようにポスターを要求します。たとえば、ワークフロー/パイプラインを提案している場合は、可能であれば各ステップに関係するRライブラリを必ず言及してください。いくつかの追加のポインター(例、サンプルコードなど)がケーキに着氷します。 編集3:まず、あなたのコメントをありがとう。第二に、私は謝罪します。おそらく、この問題についてもっと多くの文脈を与えたはずです。私はRには慣れていませんが、テキストの分類にはそれほど慣れていません。物事の感触をつかむために、tmパッケージを使用して、データの一部で前処理(ステミング、ストップワードの削除、tf-idf変換など)を既に実行しています。tmは約200のドキュメントでも非常に遅いため、スケーラビリティについて心配しました。それから私はFSelectorで遊び始めましたが、それでも本当に遅かったです。そして、それが私がOPを作ったポイントです。 編集4:10個のクラスとクラスごとに約300個のトレーニングドキュメントがあり、実際にはトレーニングセット全体からtermXdocマトリックスを構築しているため、非常に高い次元が発生しました。しかし、すべての1-out-of-k分類問題を一連のバイナリ分類問題に減らすのはどうでしょうか?これにより、k-1の各ステップでトレーニングドキュメントの数(したがって次元数)が大幅に削減されます。このアプローチは良いものですか?精度の点で、通常のマルチクラス実装とどのように比較されますか?


3
SVMとパーセプトロンの違い
SVMとパーセプトロンの違いに少し混乱しています。ここで私の理解を要約してみましょう。私が間違っている箇所を修正し、見落としたことを記入してください。 パーセプトロンは、分離の「距離」を最適化しようとしません。2つのセットを分離する超平面を見つける限り、それは良いことです。一方、SVMは「サポートベクトル」、つまり、最も近い2つの最も近いサンプルポイント間の距離を最大化しようとします。 SVMは通常、「カーネル関数」を使用してサンプルポイントを高次元空間に射影し、線形分離可能にしますが、パーセプトロンはサンプルポイントを線形分離可能と想定します。

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

2
SVMアルゴリズムの背後にある統計モデルとは何ですか?
モデルベースのアプローチを使用してデータを扱う場合、最初のステップはデータモデルを統計モデルとしてモデル化することであることを学びました。次のステップは、この統計モデルに基づいた効率的/高速な推論/学習アルゴリズムの開発です。それでは、どの統計モデルがサポートベクターマシン(SVM)アルゴリズムの背後にあるのかを聞きたいのですが。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.