ご使用のアプリケーションに最適な、すぐに使用可能な2クラス分類子とは何ですか?[閉まっている]


15

ルール:

  • 回答ごとに1つの分類子
  • 同意したら投票する
  • 重複の削除/削除。
  • コメントにアプリケーションを入れてください

回答:


14

ランダムフォレスト

  • 複雑な構造/非線形関係を簡単にキャプチャ
  • 変数のスケールに不変
  • カテゴリー予測子のダミー変数を作成する必要はありません
  • 変数の選択はあまり必要ありません
  • オーバーフィットが比較的難しい

アプタマーアクティブモチーフ選択、森林地湿度予測、数字OCR、マルチスペクトル衛星画像解析、音楽情報検索、

13

ロジスティック回帰

  • ほとんどのデータセットで高速でパフォーマンスが高い
  • 調整するパラメーターはほとんどありません
  • 離散/連続の両方の機能を処理します
  • モデルは簡単に解釈できます
  • (実際にはバイナリ分類に制限されません)

調整するパラメータはないかもしれませんが、連続変数(変換、スプラインなど)を実際に操作して非線形性を誘発する必要があります。
B_Miner

12

サポートベクターマシン


何もありません、本当にそれは正則考えるユーザーを強制するよりも、SVMについての特別な他のは。ほとんどの実用的な問題については、[カーネル]リッジ回帰も同様に機能します。
ディクラン有袋類

2
@dikran SVMはスパースで外れ値に対してロバストであるため、優れた分類器だと思います。これはロジスティック回帰には当てはまりません!それが、SVMが最先端の分類器である理由です。問題になる可能性のある問題は、時間の複雑さだけですが、問題ありません。
suncoolsu

@suncoolsuスパース性が必要な場合は、SVMを使用する場合よりもLASSOを使用した正規化されたロジスティック回帰の方がスパース性が高くなります。SVMのスパース性は損失関数の副産物であるため、スパース性が設計目標であるアルゴリズムを使用する場合ほど多くは得られません。また、多くの場合、SVM消失のほとんどのスパース性のハイパーパラメーターの最適値(たとえば、相互検証を介して選択)を使用します。SVMは、正規化されたロジスティック回帰ほど外れ値に対して堅牢ではありません。ヒンジ損失ではなく、ほとんどの場合、重要なのは正規化です。
ディクラン有袋類

@Dikran-正確に言うと、ある種の罰則が重要です。それは、Priorsを使用して、ペナルティを追加するなどで取得できます。
suncoolsu11年

1
@suncoolsuこの場合、SVMは優れた分類器ではなく、リッジ回帰、正規化されたロジスティック回帰、ガウス過程などの多くの正規化された分類器の1つにすぎません。SVMの主な利点は、計算学習理論からの魅力です。実際には、他の損失関数が優れている可能性が高い確率的分類器が必要かどうかなど、他の考慮事項がより重要です。私見、カーネルメソッドの幅広いファミリよりも、SVMにあまりにも多くの注意が払われています。
ディクラン有袋類

7

ノイズのあるデータを伴う監視された問題の正則化判別式

  1. 計算効率
  2. ノイズやデータの外れ値に強い
  3. 線形判別(LD)および二次判別(QD)分類器は、同じ実装から取得できます。LD分類器では正則化パラメーター '[lambda、r]'を '[1 0]'に、LD分類器では '[0 0]'を設定します。 QD分類子-参照目的に非常に便利です。
  4. モデルの解釈とエクスポートは簡単です
  5. クラスの共分散行列が適切に定義されていない可能性があるスパースおよび「ワイド」データセットに適しています。
  6. 各クラスの判別値にsoftmax関数を適用することにより、サンプルごとに事後クラス確率の推定値を推定できます。

フリードマンらによる 1989年のオリジナル論文へのリンクこちら。また、Kunchevaの著書「Combining pattern classifiers」に非常に良い説明があります。


5

グラデーションブーストツリー。

  • 多くのアプリケーションで少なくともRFと同じ精度
  • 欠損値をシームレスに組み込みます
  • Varの重要性(RFのように、連続的で多くのレベルの公称値に偏っている可能性が高い)
  • 部分依存プロット
  • RでのGBMとrandomForest:はるかに大きなデータセットを処理します

4

Gaussian Process分類器 -確率的予測を提供します(運用上の相対クラス頻度がトレーニングセットの頻度と異なる場合、または同等の偽陽性/偽陰性コストが不明または可変である場合に役立ちます)。また、有限データセットからの「モデルの推定」の不確実性のために、モデル予測の不確実性を示します。共分散関数は、SVMのカーネル関数と同等であるため、非ベクトルデータ(文字列やグラフなど)を直接操作することもできます。数学的枠組みもきちんとしています(ただし、ラプラス近似は使用しないでください)。限界尤度の最大化による自動モデル選択。

基本的に、ロジスティック回帰とSVMの優れた機能を組み合わせています。


これを実装することをお勧めするRパッケージはありますか?このメソッドの望ましい実装は何ですか?ありがとう!
ジュリス

私は、私は(私はGPMLパッケージの使用MATLABユーザ午前怖いgaussianprocess.org/gpml/code/matlab/docを私はRの実装について助言することはできませんので、)、しかし、あなたはここで、適切な何かを見つけることがgaussianprocess.org/#をコード。RがGP用のまともなパッケージを持っていない場合、誰かがそれを書く必要があります!
ディクラン有袋類

はい、ありがとう。この方法論により、「ランダムフォレストの変数の重要性やSVMによる再帰的特徴の除去などの重要な変数を選択できるようになりますか?
julieth

はい、「自動関連性決定」共分散関数を使用し、モデルのベイジアン証拠を最大化することでハイパーパラメーターを選択できます(ただし、これはSVMSで発生する同じ種の過剰適合問題に遭遇する可能性があります。モデルは機能を選択しなくてもパフォーマンスが向上します)。
ディクランマースピアル

4

L1正規化ロジスティック回帰。

  • 計算が高速です。
  • 直感的な解釈があります。
  • 相互検証によって自動的に調整できる、簡単に理解できるハイパーパラメーターが1つだけあります。これは多くの場合、良い方法です。
  • その係数は区分線形であり、ハイパーパラメータとの関係は簡単なプロットで即座に簡単に確認できます。
  • これは、変数選択のためのそれほど疑わしい方法の1つです。
  • また、それは本当にクールな名前を持っています。

+1ハイパーパラメータも分析的に統合することもできるため、多くのアプリケーションで相互検証を実際に行う必要はありません。例:theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdfおよびbioinformaticsを参照.oxfordjournals.org /コンテンツ。/ 22/19 / 2348.full.pdf
ディクランマースピアル

3

kNN


3

単純ベイズおよびランダム単純ベイ


2
RNBで良い結果が得られた問題を説明してもらえますか?
ルカシュルー

いいえ;-)これは、プールを復活させるためだけでした。

1

教師なし学習のためのK平均クラスタリング。


質問は、特に分類子を要求します。
プロメテウス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.