統計とビッグデータ machine-learning

2

負のデータがないことを念頭に置いて1クラスのSVM（OSVM）が提案され、正の集合と負のアンカーポイントを分離する決定境界を見つけようとしていることを理解しています。 2011年の研究では、OSVMとは異なると主張する「単一のカテゴリごとの分類子」をトレーニングするExemplar SVM（ESVM）を提案しています。計算」。これが何を意味するのか、ESVMがOSVMとどのように異なるのか、私にはよくわかりません。それで、それらはどのように違いますか？そして、ESVMでこの類似度カーネル計算はどのように回避されますか？

16 machine-learning svm

2

非常に不均衡なデータセットのトレーニングアプローチ

非常に不均衡なテストデータセットがあります。正のセットは100ケースで構成され、負のセットは1500ケースで構成されます。トレーニング面では、より大きな候補プールがあります。ポジティブトレーニングセットには1200ケース、ネガティブトレーニングセットには12000ケースがあります。この種のシナリオでは、いくつかの選択肢があります。 1）トレーニングセット全体に重み付きSVMを使用する（P：1200、N：12000） 2）サンプリングされたトレーニングセット（P：1200、N：1200）に基づくSVMを使用して、1200のネガティブケースが12000のケースからサンプリングされます。どのアプローチが優れているかを決定するための理論的なガイダンスはありますか？テストデータセットは非常に不均衡であるため、不均衡なトレーニングセットも使用する必要がありますか？

16 machine-learning classification data-mining svm bioinformatics

2

GBM分類は、クラスサイズの不均衡に悩まされますか？

監視対象のバイナリ分類の問題を扱っています。GBMパッケージを使用して、個人を未感染/感染として分類したいと思います。私は、感染した個人の15倍も感染していない。クラスサイズが不均衡な場合にGBMモデルが影響を受けるかどうか疑問に思っていましたか？この質問に答える参考文献は見つかりませんでした。感染していない人に1の重みを、感染した人に15の重みを割り当てることで重みを調整しようとしましたが、結果は良くありませんでした。

16 r machine-learning boosting unbalanced-classes gbm

3

k分割交差検証のグリッド検索

10倍のクロス検証設定で120サンプルのデータセットを持っています。現在、最初のホールドアウトのトレーニングデータを選択し、グリッド検索によってガンマとCの値を選択するために5倍の交差検証を行います。RBFカーネルでSVMを使用しています。精度を報告するために10 10の交差検証を行っているため、各グリッドのトレーニングデータでこのグリッド検索を実行します（10のホールドアウトがあり、それぞれ10％のテストと90％のトレーニングデータがあります）？それは時間がかかりすぎませんか？最初のホールドアウトのガンマとCを使用し、k倍交差検証の9つのホールドアウトの残りにそれを使用すると、トレインデータを使用してガンマとCを取得し、再び使用するため、違反です2番目のホールドアウトのテストとしての列車データの一部

16 machine-learning classification cross-validation svm

3

マルチクラスLDAトレーニングの共線変数

8クラスのデータでマルチクラスLDA分類器をトレーニングしています。トレーニングを行っている間、私は警告が出ます：「変数が同一直線上にあります」私は取得しています訓練オーバーの精度90％。 Pythonでscikits-learnライブラリを使用して、マルチクラスデータのトレーニングとテストを行っています。私はまともなテスト精度も得ています（約85％-95％）。エラー/警告の意味がわかりません。私を助けてください。

16 machine-learning classification python scikit-learn discriminant-analysis

6

最速のSVM実装

一般的な質問の詳細。予測モデリングのためにrbf SVMを実行しています。私の現在のプログラムには間違いなく少しスピードアップが必要だと思います。私はscikitを使用して、粗いグリッドから細かいグリッドの検索とクロス検証を行います。各SVMの実行には約1分かかりますが、すべての反復を行っても、まだ遅いと感じています。最終的に複数のコアでクロス検証部分をマルチスレッドすると仮定すると、プログラムを高速化するための推奨事項はありますか？SVMのより高速な実装はありますか？GPU SVMについて聞いたことがありますが、あまり掘り下げていません。ユーザーは誰ですか？それは速いですか？

16 machine-learning svm predictive-models scikit-learn kernel-trick

5

Rのランダムフォレストを使用した分類では、クラスサイズの不均衡をどのように調整する必要がありますか？

現在取り組んでいるプロジェクトのさまざまな分類方法を調査しており、ランダムフォレストを試すことに興味があります。私は自分自身を教育しながら努力しているので、CVコミュニティから提供された助けに感謝します。データをトレーニング/テストセットに分割しました。Rのランダムフォレストでの実験（randomForestパッケージを使用）から、小さなクラスの誤分類率が高いという問題がありました。不均衡なデータでのランダムフォレストのパフォーマンスに関するこの論文を読み、著者は、ランダムフォレストを使用する場合のクラスの不均衡に対処する2つの方法を提示しました。 1.重み付きランダムフォレスト 2.バランスのとれたランダムフォレスト Rパッケージはクラスの重み付けを許可していません（Rヘルプフォーラムから、classwtパラメーターが正しく実行されておらず、将来のバグ修正としてスケジュールされていることを読みました）ので、オプション2を残します。ランダムフォレストの反復ごとに各クラスからサンプリングされたオブジェクトの数。ランダムフォレストのサンプルサイズを同じに設定するのは不安です。将来のデータでパフォーマンスが低下する大規模なクラスに関する情報を失いすぎると感じているからです。より大きなクラスをダウンサンプリングするときの誤分類率は改善することが示されていますが、ランダムフォレストで不均衡なクラスサイズに対処する他の方法があるかどうか疑問に思っていましたか？

16 r machine-learning random-forest

1

統計学習理論では、テストセットに過剰適合の問題はありませんか？

MNISTデータセットの分類に関する問題を考えてみましょう。 Yann LeCunのMNIST Webページによると、「Ciresan et al。」畳み込みニューラルネットワークを使用したMNISTテストセットで0.23％のエラー率を得ました。レッツとして示すMNISTトレーニングセット、としてMNISTテストセット、最終的な仮説は、彼らが使用して得られたとして、およびMNIST試験に彼らの誤り率が使用して設定のようにE t e s t（h 1）= 0.0023。DtrainDtrainD_{train}DtestDtestD_{test}DtrainDtrainD_{train}h1h1h_{1}h1h1h_{1}Etest(h1)=0.0023Etest(h1)=0.0023E_{test}(h_{1}) = 0.0023 彼らの観点では、DtestDtestD_{test}はh1h1h_{1}に関係なく入力空間からランダムにサンプリングされたテストセットであるため、最終仮説サンプル外エラーパフォーマンスはEout(h1)Eout(h1）E_{out}(h_{1})次のように制限されると主張できますHoeffdingの不等式 N個のT E S T = | D t e s t | 。P[|Eout(h1)−Etest(h1)|<ϵ|]≥1−2e2ϵ2NtestP[|Eout(h1)−Etest(h1)|<ϵ|]≥1−2e2ϵ2Ntest P[|E_{out}(h_{1}) - E_{test}(h_{1})| < \epsilon|] \geq 1 - 2e^{2\epsilon^{2}N_{test}} Ntest=|Dtest|Ntest=|Dtest|N_{test}=|D_{test}| 換言すれば、少なくとも確率が、 E O U T（H 1）≤ E T E S T（H …

16 machine-learning classification overfitting probability-inequalities

3

オンライン学習とバッチ学習の違いは何ですか？

私は現在、John DuchiとYoram Singer の論文Efficient Online and Batch Learning using Forward-Backward Splittingを読みました。「オンライン」および「バッチ」という用語の使用法について非常に混乱しています。「オンライン」とは、トレーニングデータの1単位を処理した後、重みパラメーターを更新することを意味すると考えました。次に、新しい重みパラメーターを使用して、トレーニングデータの次のユニットを処理します。ただし、上記の論文では、使用法はそれほど明確ではありません。

16 machine-learning online gradient-descent

1

2つの決定木の合計は、単一の決定木と同等ですか？

入力を出力マッピングする2つの回帰ツリー（ツリーAとツリーB）があるとします。ましょうツリーA及びため各ツリーは、分離機能として超平面を用いて、バイナリ分割を使用してツリーB.ため。X ∈ Rdバツ∈Rdx \in \mathbb{R}^dy^∈ Ry^∈R\hat{y} \in \mathbb{R}y^= fA（x ）y^=fA（バツ）\hat{y} = f_A(x)fB（x ）fB（バツ）f_B(x) ここで、ツリー出力の重み付き合計を取ると仮定します。 fC（x ）= wA fA（x ）+ wB fB（x ）fC（バツ）=wA fA（バツ）+wB fB（バツ）f_C(x) = w_A \ f_A(x) + w_B \ f_B(x) 関数は、単一の（より深い）回帰ツリーと同等ですか？fCfCf_C答えが「時々」である場合、どのような条件下でですか？理想的には、斜めの超平面（フィーチャの線形結合で実行される分割）を許可したいと思います。しかし、単一機能の分割が利用可能な唯一の答えであれば、それは大丈夫かもしれないと仮定します。例以下は、2D入力空間で定義された2つの回帰木です。この図は、各ツリーが入力領域を分割する方法と、各領域の出力（グレースケールでコーディング）を示しています。色付きの数字は、入力スペースの領域を示します。3、4、5、6はリーフノードに対応します。1は3と4の結合などです。ここで、ツリーAとBの出力を平均すると仮定します。平均出力は左側にプロットされ、ツリーAとBの判定境界が重ねられています。この場合、出力が平均（右側にプロット）に等しい単一のより深いツリーを構築できます。各ノードは、ツリーAおよびBによって定義された領域から構築できる入力空間の領域に対応します（各ノードの色付きの数字で示されます。複数の数字は2つの領域の交差を示します）。このツリーは一意ではないことに注意してください。ツリーAではなくツリーBから構築を開始することもできます。この例は、答えが「はい」である場合が存在することを示しています。これが常に真実かどうか知りたい。

15 regression machine-learning cart

3

小さな検証セットを使用できますか？

データをテストセットと検証セットに分割する背後にある理由を理解しています。また、スプリットのサイズは状況によって異なりますが、一般的には50/50から90/10に変わることも理解しています。 RNNを作成して、スペルを修正し、約500万文のデータセットから開始します。50万文を削り取り、残りの約450万文で訓練します。トレーニングが完了したら、検証セットを取得して精度を計算します。興味深いことに、検証セットのわずか4％で69.4％の精度が得られ、このパーセンテージはどちらの方向でも0.1％以上変化しません。最終的には、数値が69.5％のままであるため、検証を短くしました。では、おそらく1％で済ませる可能性があるのに、なぜ検証のために10％を切り捨てるのでしょうか？それは重要ですか？

15 machine-learning neural-networks validation

2

混合モデルで期待値の最大化が重要な理由

混合モデル（ガウス混合モデル、隠れマルコフモデルなど）の期待値最大化法を強調した多くの文献があります。 EMが重要な理由 EMは最適化を行うための単なる方法であり、勾配ベースの方法（勾配ディセントまたはニュートン/準ニュートン法）またはここで説明した他の勾配のない方法として広く使用されていません。さらに、EMにはまだ局所的な最小の問題があります。それは、プロセスが直感的で、簡単にコードに変換できるからでしょうか？または他にどんな理由がありますか？

15 machine-learning optimization expectation-maximization gaussian-mixture

5

回帰モデルを改善するために平均絶対誤差の箱ひげ図に基づいて外れ値を削除するのはごまかしですか

下の箱ひげ図に示すように、4つの方法でテストされた予測モデルがあります。モデルが予測する属性の範囲は0〜8です。すべてのメソッドで、1つの上限外れ値と3つの下限外れ値が示されていることに気付くかもしれません。これらのインスタンスをデータから削除することが適切かどうか疑問に思いますか？または、これは予測モデルを改善するための一種の不正行為ですか？

15 regression machine-learning multiple-regression predictive-models outliers

2

ショートテキストクラスタリングの良い方法は何ですか？

テキストクラスタリングの問題に取り組んでいます。データには複数の文が含まれています。短いテキストで高精度に達する優れたアルゴリズムはありますか？良い参考資料を提供できますか？ KMeans、スペクトルクラスタリングなどのアルゴリズムは、この問題に対してうまく機能しません。

15 machine-learning clustering text-mining

1

確率密度関数の変数の変化の導出？

本のパターン認識と機械学習（式1.27）では、 py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | ここで、x=g(y)x=g(y)x=g(y)、px(x)px(x)p_x(x)は、変数の変化に関して対応するpdfpy(y)py(y)p_y(y)です。書籍は、その観察が範囲に入るので、それがだと言う、の値が小さいためであろうδ X、範囲に変換する（Y 、Y + δ Y ）。(x,x+δx)(x,x+δx)(x, x + \delta x)δxδx\delta x(y,y+δy)(y,y+δy)(y, y + \delta y) これは正式にどのように導出されますか？ Dilip Sarwateからの更新結果は、が厳密に単調な増加または減少関数である場合にのみ保持されます。ggg LV Raoの回答にいくつかのマイナーな編集場合したがってGP(Y≤y)=P(g(X)≤y)={P(X≤g−1(y)),P(X≥g−1(y)),if g is monotonically increasingif g is monotonically decreasingP(Y≤y)=P(g(X)≤y)={P(X≤g−1(y)),if g is monotonically increasingP(X≥g−1(y)),if g is …

15 machine-learning probability self-study derivative jacobian

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」