いつRandom Forest
、SVM
またはその逆を使用しますか?
cross-validation
モデルの比較はモデル選択の重要な側面であることを理解していますが、ここでは、2つの方法の経験則と経験則について詳しく学びたいと思います。
分類器の微妙さ、長所、短所、およびそれぞれに最適な問題を誰かが説明できますか?
いつRandom Forest
、SVM
またはその逆を使用しますか?
cross-validation
モデルの比較はモデル選択の重要な側面であることを理解していますが、ここでは、2つの方法の経験則と経験則について詳しく学びたいと思います。
分類器の微妙さ、長所、短所、およびそれぞれに最適な問題を誰かが説明できますか?
回答:
私が言うには、選択はあなたが持っているデータとあなたの目的が何であるかに非常に依存します。いくつかの「経験則」。
ランダムフォレストは本質的にマルチクラスの問題に適していますが、SVMは本質的に2クラスです。マルチクラス問題の場合、それを複数のバイナリ分類問題に減らす必要があります。
ランダムフォレストは、数値的特徴とカテゴリー的特徴の混合物でうまく機能します。機能がさまざまなスケールである場合、それも問題ありません。大まかに言うと、ランダムフォレストを使用すると、データをそのまま使用できます。SVMは「マージン」を最大化するため、異なるポイント間の「距離」の概念に依存します。「距離」に意味があるかどうかはあなた次第です。結果として、カテゴリ機能のワンホットエンコーディングは必須です。さらに、前処理ステップではmin-maxまたは他のスケーリングを強くお勧めします。
分類問題の場合、ランダムフォレストはクラスに属する確率を与えます。SVMは境界までの距離を提供しますが、確率が必要な場合は、何らかの方法でそれを確率に変換する必要があります。
SVMが適用されるこれらの問題では、一般にランダムフォレストよりもパフォーマンスが向上します。
SVMは「サポートベクトル」、つまりクラス間の境界に最も近い各クラスのポイントを提供します。それらは、解釈のためにそれ自体で興味があるかもしれません。
それは本当にあなたが達成したいもの、あなたのデータがどのように見えるかなどに依存します。SVMは一般に線形依存性でより良く動作します。そうでなければ非線形カーネルが必要であり、カーネルの選択は結果を変えるかもしれません また、SVMはあまり解釈できません-たとえば、分類がそうだった理由を説明したい場合など-自明ではありません。デシジョンツリーの解釈性は優れており、より速く動作します。また、カテゴリ変数または数値変数がある場合は、その罰金がさらに優れています。さらに、非線形依存関係は適切に処理されます(Nが十分に大きい場合)。また、一般的にSVMよりも速くトレーニングしますが、オーバーフィットする傾向があります...
ロジスティック回帰-優れた解釈可能な分類器も試してみます)
まとめると、経験則は何でも試して、最良の結果/解釈が得られるものを比較することです。
すでに述べた良い点を補完するために:
ドゥ我々は実世界の分類課題を解決するための分類子の何百ものが必要ですか?ランダムフォレストは、ランダムフォレストよりもパフォーマンスが向上する可能性が高くなります。
さらに、アルゴリズムの実装方法(および理論的な理由)で、ランダムフォレストは通常(非線形)SVMよりもはるかに高速です。実際、@ Ianenokとして、SVMは10000データポイントを超えると使用できなくなる傾向があります。
ただし、SVMは特定のデータセット(画像、マイクロアレイデータなど)でパフォーマンスが向上することが知られています。
そのため、クロス検証は実際に、どのメソッドが最高のパフォーマンスを発揮するかを知る最良の方法です。
ソース:ランダムフォレストとSVM