SVMでランダムフォレストを使用する場合とその逆の場合

28

いつRandom Forest、SVMまたはその逆を使用しますか？

cross-validationモデルの比較はモデル選択の重要な側面であることを理解していますが、ここでは、2つの方法の経験則と経験則について詳しく学びたいと思います。

分類器の微妙さ、長所、短所、およびそれぞれに最適な問題を誰かが説明できますか？

— ロヒト
ソース

1

幸運な場合、精度スコアは相対的なパフォーマンスの唯一の真の尺度ですが、多くの利用可能な分類器のどのタイプがデータのタイプに優れているかを示す先行技術があるかもしれません。パラメーターを調整するのにかかる時間によって、より制約を受ける可能性があります。その場合、ランダムフォレストはおそらく2つの提案をより簡単にすることを証明します。

— image_doctor

29

私が言うには、選択はあなたが持っているデータとあなたの目的が何であるかに非常に依存します。いくつかの「経験則」。

ランダムフォレストは本質的にマルチクラスの問題に適していますが、SVMは本質的に2クラスです。マルチクラス問題の場合、それを複数のバイナリ分類問題に減らす必要があります。

ランダムフォレストは、数値的特徴とカテゴリー的特徴の混合物でうまく機能します。機能がさまざまなスケールである場合、それも問題ありません。大まかに言うと、ランダムフォレストを使用すると、データをそのまま使用できます。SVMは「マージン」を最大化するため、異なるポイント間の「距離」の概念に依存します。「距離」に意味があるかどうかはあなた次第です。結果として、カテゴリ機能のワンホットエンコーディングは必須です。さらに、前処理ステップではmin-maxまたは他のスケーリングを強くお勧めします。

$n$ $m$ $n\times n$ $n^2$

分類問題の場合、ランダムフォレストはクラスに属する確率を与えます。SVMは境界までの距離を提供しますが、確率が必要な場合は、何らかの方法でそれを確率に変換する必要があります。

SVMが適用されるこれらの問題では、一般にランダムフォレストよりもパフォーマンスが向上します。

SVMは「サポートベクトル」、つまりクラス間の境界に最も近い各クラスのポイントを提供します。それらは、解釈のためにそれ自体で興味があるかもしれません。

— ラノク
ソース

追加するだけです。ランダムフォレストが確率を与えるのは簡単ではありません。「真の」確率が必要な場合は、決定木の確率的実装が必要であるか、適合したランダムフォレストモデルを後で調整します。

— アーチー

5

SVMモデルは、一般的なツリーよりもスパースデータで優れたパフォーマンスを発揮します。たとえば、ドキュメント分類では、数千、さらには数万のフィーチャがあり、ドキュメントベクトルでは、これらのフィーチャのごく一部のみがゼロより大きい値を持つ場合があります。それらの間におそらく他の違いがありますが、これは私の問題のために見つけたものです。

— ボブ・ディロン
ソース

3

それは本当にあなたが達成したいもの、あなたのデータがどのように見えるかなどに依存します。SVMは一般に線形依存性でより良く動作します。そうでなければ非線形カーネルが必要であり、カーネルの選択は結果を変えるかもしれませんまた、SVMはあまり解釈できません-たとえば、分類がそうだった理由を説明したい場合など-自明ではありません。デシジョンツリーの解釈性は優れており、より速く動作します。また、カテゴリ変数または数値変数がある場合は、その罰金がさらに優れています。さらに、非線形依存関係は適切に処理されます（Nが十分に大きい場合）。また、一般的にSVMよりも速くトレーニングしますが、オーバーフィットする傾向があります...

ロジスティック回帰-優れた解釈可能な分類器も試してみます）

まとめると、経験則は何でも試して、最良の結果/解釈が得られるものを比較することです。

— ヴィタリー・ポートノイ
ソース

1

すでに述べた良い点を補完するために：

ドゥ我々は実世界の分類課題を解決するための分類子の何百ものが必要ですか？ランダムフォレストは、ランダムフォレストよりもパフォーマンスが向上する可能性が高くなります。

さらに、アルゴリズムの実装方法（および理論的な理由）で、ランダムフォレストは通常（非線形）SVMよりもはるかに高速です。実際、@ Ianenokとして、SVMは10000データポイントを超えると使用できなくなる傾向があります。

ただし、SVMは特定のデータセット（画像、マイクロアレイデータなど）でパフォーマンスが向上することが知られています。

そのため、クロス検証は実際に、どのメソッドが最高のパフォーマンスを発揮するかを知る最良の方法です。

ソース：ランダムフォレストとSVM

— RUser4512
ソース

あの？「ランダムフォレストは、ランダムフォレストよりもパフォーマンスが向上する可能性が高くなります。」

— サンジェイマノハール