バイナリ分類アルゴリズムを選択


16

バイナリ分類の問題があります:

  • トレーニングセットの約1000サンプル
  • バイナリ、数値、カテゴリを含む10の属性

このタイプの問題に最適なアルゴリズムはどれですか?

デフォルトでは、比較的クリーンでノイズのないデータに最適であると考えられているため、SVM(名目上の属性値がバイナリフィーチャに変換された予備)から開始します。

回答:


15

データセットについてもう少し詳しく知ることなく、データセットが特徴ベクトルに基づいてどの程度分離可能であるかを言うことは難しいですが、サンプルセットが比較的少ないため、標準のランダムフォレストよりも極端なランダムフォレストを使用することをお勧めします。

極端なランダムフォレストは標準的なランダムフォレストと非常に似ていますが、例外は、ツリー上の分割を最適化する代わりに、極端なランダムフォレストがランダムに分割することです。最初はこれはネガティブに思えますが、一般的には、トレーニングセットのAUCが少し悪くなる可能性がありますが、一般化と速度が大幅に向上することを意味します。

ロジスティック回帰は、これらの種類のタスクに対するかなり堅実な賭けでもありますが、次元が比較的低く、サンプルサイズが小さいため、過剰適合が心配です。K-Nearest Neighborsを使用してチェックアウトすることをお勧めします。多くの場合、非常に意志が低い次元で実行されますが、通常はカテゴリ変数をうまく処理できないためです。

問題について詳しく知らずに1つを選択する必要があった場合、この種のデータセットの一般化を可能にする可能性が非常に高いため、間違いなく極端なランダムフォレストに賭けます。また、数値データとカテゴリデータの混合をよりよく処理します他のほとんどの方法より。


いいよ、ありがとう!Rパッケージ "randomForest"(cran.r-project.org/web/packages/randomForest/randomForest.pdf)を使用してERFを生成できるかどうかはまだわかりませんが。おそらくない。
IharS 14年

12

パラメータが低い場合、サンプルサイズが非常に限られているため、バイナリ分類子ロジスティック回帰は十分に強力です。より高度なアルゴリズムを使用することもできますが、おそらくやり過ぎです。


5

カテゴリー変数が混在している場合、ランダム決定フォレストに到達します。これは、1-of-nエンコード変換なしでカテゴリー変数を直接処理するためです。これにより、失われる情報が少なくなります。



2

最初に複雑な方法を使用することはお勧めしません。最初はより高速でシンプルなアプローチ(kNN、NBCなど)を使用してから、線形回帰、ロジスティック回帰、LDA、CART(RF)、KREGを経て、最小二乗SVM、勾配上昇SVM、ANN、そしてメタヒューリスティック(貪欲) GA、群知能、アリコロニー最適化などによる発見的登山

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.