統計とビッグデータ svm

2

非常に不均衡なテストデータセットがあります。正のセットは100ケースで構成され、負のセットは1500ケースで構成されます。トレーニング面では、より大きな候補プールがあります。ポジティブトレーニングセットには1200ケース、ネガティブトレーニングセットには12000ケースがあります。この種のシナリオでは、いくつかの選択肢があります。 1）トレーニングセット全体に重み付きSVMを使用する（P：1200、N：12000） 2）サンプリングされたトレーニングセット（P：1200、N：1200）に基づくSVMを使用して、1200のネガティブケースが12000のケースからサンプリングされます。どのアプローチが優れているかを決定するための理論的なガイダンスはありますか？テストデータセットは非常に不均衡であるため、不均衡なトレーニングセットも使用する必要がありますか？

16 machine-learning classification data-mining svm bioinformatics

4

低い分類精度、次に何をすべきか？

だから、私はML分野の初心者であり、分類を試みます。私の目標は、スポーツイベントの結果を予測することです。いくつかの履歴データを収集し、分類器のトレーニングを試みました。約1200個のサンプルを取得しましたが、そのうちの0.2個はテスト目的で分割し、その他は異なる分類器を使用してグリッド検索（クロス検証を含む）に入れました。今のところ、線形カーネル、rbfカーネル、多項式カーネル、およびランダムフォレストを使用してSVMを試しました。残念ながら、0.5を大きく超える精度を得ることができません（クラスのランダム選択と同じです）。そのような複雑なイベントの結果を予測できないということですか？または、少なくとも0.7-0.8の精度を得ることができますか？実行可能であれば、次に何を検討する必要がありますか？より多くのデータを取得しますか？（データセットを最大5倍まで拡大できます）別の分類器を試してみませんか？（ロジスティック回帰、kNNなど）機能セットを再評価しますか？分析するMLツールはありますか？機能セットを減らす必要があるかもしれません（現在、12個の機能があります）。

16 classification svm feature-selection random-forest

3

k分割交差検証のグリッド検索

10倍のクロス検証設定で120サンプルのデータセットを持っています。現在、最初のホールドアウトのトレーニングデータを選択し、グリッド検索によってガンマとCの値を選択するために5倍の交差検証を行います。RBFカーネルでSVMを使用しています。精度を報告するために10 10の交差検証を行っているため、各グリッドのトレーニングデータでこのグリッド検索を実行します（10のホールドアウトがあり、それぞれ10％のテストと90％のトレーニングデータがあります）？それは時間がかかりすぎませんか？最初のホールドアウトのガンマとCを使用し、k倍交差検証の9つのホールドアウトの残りにそれを使用すると、トレインデータを使用してガンマとCを取得し、再び使用するため、違反です2番目のホールドアウトのテストとしての列車データの一部

16 machine-learning classification cross-validation svm

6

最速のSVM実装

一般的な質問の詳細。予測モデリングのためにrbf SVMを実行しています。私の現在のプログラムには間違いなく少しスピードアップが必要だと思います。私はscikitを使用して、粗いグリッドから細かいグリッドの検索とクロス検証を行います。各SVMの実行には約1分かかりますが、すべての反復を行っても、まだ遅いと感じています。最終的に複数のコアでクロス検証部分をマルチスレッドすると仮定すると、プログラムを高速化するための推奨事項はありますか？SVMのより高速な実装はありますか？GPU SVMについて聞いたことがありますが、あまり掘り下げていません。ユーザーは誰ですか？それは速いですか？

16 machine-learning svm predictive-models scikit-learn kernel-trick

3

不均衡データ用のSVM

データセットでサポートベクターマシン（SVM）を使用しようとしています。しかし、問題を試みる前に、SVMは極端に不均衡なデータに対してうまく機能しないと警告されました。私の場合、95〜98％の0と2〜5％の1を使用できます。スパース/アンバランスデータでSVMを使用することについて説明したリソースを見つけようとしましたが、見つけることができたのは 'sparseSVM'（少量のサポートベクターを使用）だけでした。私は誰かが簡単に説明できることを望んでいました：そのようなデータセットでSVMがどの程度うまくいくと予想されるか SVMアルゴリズムに変更を加える必要がある場合これについて議論するリソース/論文

15 svm libsvm unbalanced-classes

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

5

カーネルSVM：高次元の特徴空間へのマッピングと、これにより線形分離がどのように可能になるかを直感的に理解したい

カーネルSVMの背後にある直感を理解しようとしています。今、私は線形SVMがどのように機能するかを理解します。それにより、データを可能な限り分割する決定ラインが作成されます。また、データをより高次元の空間に移植する背後にある原理と、この新しい空間で線形決定ラインを見つけやすくする方法を理解しています。私が理解していないのは、この新しいスペースにデータポイントを投影するためにカーネルがどのように使用されるかです。カーネルについて知っていることは、2つのデータポイント間の「類似性」を効果的に表しているということです。しかし、これはどのように投影に関連していますか？

15 machine-learning svm kernel-trick

2

連続データとバイナリデータを線形SVMと混合しますか？

だから私はSVMで遊んでいますが、これが良いことかどうか疑問に思います：一連の連続フィーチャ（0〜1）と、ダミー変数に変換した一連のカテゴリフィーチャがあります。この特定のケースでは、測定の日付をダミー変数にエンコードします。データを取得する期間は3つあり、3つの機能番号を予約しました。 20：21：22：そのため、データの取得期間に応じて、異なる機能に1が割り当てられます。その他は0になります。 SVMはこれで適切に動作しますか、これは悪いことですか？ SVMLightと線形カーネルを使用します。

15 categorical-data svm feature-selection linear-model feature-construction

2

スケーリングが線形SVM分類にとって重要なのはなぜですか？

線形SVM分類を実行する場合、たとえば平均を減算して標準偏差で除算するなどして、トレーニングデータを正規化し、その後、トレーニングデータの平均と標準偏差でテストデータをスケーリングすることが役立ちます。このプロセスが分類パフォーマンスを劇的に変える理由は何ですか？

15 machine-learning svm standardization

1

次元の呪いは、一部のモデルに他のモデルよりも大きな影響を与えますか？

私が次元の呪いについて読んでいた場所は、主にkNNと線形モデル一般に関連してそれを説明します。Kaggleのトップランカーは、10万個のデータポイントをほとんど持たないデータセットで数千の機能を使用しています。主に、特にブーストツリーとNNを使用します。多くの機能が高すぎるように思われ、それらが次元の呪いの影響を受けると感じています。しかし、これらのモデルは競合他社を上回っているため、そうではないようです。それでは、元の質問に戻ります。一部のモデルは、他のモデルよりも次元の呪いの影響を受けますか？具体的には、次のモデルに興味があります（これらが私が知っている/使用しているモデルだからです）。線形およびロジスティック回帰デシジョンツリー/ランダムフォレスト/ブーストツリーニューラルネットワーク SVM kNN k-meansクラスタリング

15 neural-networks svm k-means k-nearest-neighbour high-dimensional

3

サポートベクターマシンと超平面の直観

私のプロジェクトでは、バイナリ分類（1または0）を予測するためのロジスティック回帰モデルを作成します。 15個の変数があり、そのうち2個はカテゴリ変数で、残りは連続変数と離散変数の混合です。ロジスティック回帰モデルに適合するために、SVM、パーセプトロンまたは線形プログラミングのいずれかを使用して線形分離可能性をチェックすることをお勧めします。これは、線形分離性のテストに関するここでの提案と関連しています。機械学習の初心者として、私は上記のアルゴリズムに関する基本的な概念を理解していますが、概念的には非常に多くの次元（この場合は15）を持つデータを分離する方法を視覚化するのに苦労しています。オンライン資料のすべての例は、通常、2つの数値変数（高さ、重量）の2Dプロットを示しています。これは、カテゴリ間の明確なギャップを示し、理解しやすくしますが、実際のデータは通常、はるかに高い次元です。Irisデータセットに引き戻され続け、3つの種に超平面を当てはめようとしています。2つの種の間でそうすることが不可能ではないにしても、特に難しい方法です。さらに高次元の場合、どのようにこれを達成しますか？この分離可能性を達成するためにカーネルを使用して高次元空間にマッピングする特定の数の特徴を超えると仮定されますか？また、線形分離可能性をテストするために、使用されるメトリックは何ですか？SVMモデルの精度、つまり混同マトリックスに基づく精度ですか？このトピックをよりよく理解するための助けをいただければ幸いです。また、以下はデータセット内の2つの変数のプロットのサンプルであり、これらの2つの変数だけが重なり合っていることを示しています。

14 machine-learning logistic classification svm separation

3

「サポートベクターマシン」と「制限付きボルツマンマシン」の「マシン」とはどういう意味ですか？

なぜ「マシン」と呼ばれるのですか？この文脈で使用される「機械」という言葉の起源はありますか？（「線形プログラミング」という名前のようにわかりにくいかもしれませんが、なぜ「プログラミング」と呼ばれるのかはわかっています。）

14 svm terminology rbm etymology

3

ヒンジ損失とロジスティック損失の長所と短所/制限

ヒンジ損失を使用して定義することができる、ログ損失として定義することができるログ（1つの+ EXP （- Y I W Tは、xは Iを））最大（0 、1 - Y私wTバツ私）最大（0、1−y私wTバツ私）\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)log （1 + exp（− y私wTバツ私））ログ（1+exp⁡（−y私wTバツ私））\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) 次の質問があります。ヒンジ損失の欠点はありますか（例：http://www.unc.edu/~yfliu/papers/rsvm.pdfに記載されている外れ値に敏感）。一方と他方の違い、長所、短所は何ですか？

14 machine-learning svm loss-functions computer-vision

1

ロジスティック回帰とサポートベクターマシンの違いは？

ロジスティック回帰により、トレーニングサンプルを分離する超平面が検出されることがわかっています。また、サポートベクターマシンが最大マージンを持つ超平面を検出することも知っています。私の質問：ロジスティック回帰（LR）とサポートベクターマシン（SVM）の違いは、LRがトレーニングサンプルを分離する超平面を見つけ、SVMが最大マージンを持つ超平面を見つけることですか？それとも私は間違っていますか？注：LRでは、場合、ロジスティック関数はをます。を分類しきい値と仮定すると、は超平面または決定境界です。θ ⋅ のx = 0θ⋅バツ=0\theta \cdot x = 00.50.50.50.50.50.5θ ⋅ のx = 0θ⋅バツ=0\theta \cdot x = 0

14 machine-learning classification svm data-mining

2

Support Vector Machineは不均衡なデータセットを処理しますか？

SVMは不均衡なデータセットを処理しますか？不均衡なデータセットを処理するパラメーター（Cや誤分類コストなど）はありますか？

14 machine-learning svm unbalanced-classes

タグ付けされた質問 「svm」

タグ付けされた質問「svm」