回答:
データセットについてもう少し詳しく知ることなく、データセットが特徴ベクトルに基づいてどの程度分離可能であるかを言うことは難しいですが、サンプルセットが比較的少ないため、標準のランダムフォレストよりも極端なランダムフォレストを使用することをお勧めします。
極端なランダムフォレストは標準的なランダムフォレストと非常に似ていますが、例外は、ツリー上の分割を最適化する代わりに、極端なランダムフォレストがランダムに分割することです。最初はこれはネガティブに思えますが、一般的には、トレーニングセットのAUCが少し悪くなる可能性がありますが、一般化と速度が大幅に向上することを意味します。
ロジスティック回帰は、これらの種類のタスクに対するかなり堅実な賭けでもありますが、次元が比較的低く、サンプルサイズが小さいため、過剰適合が心配です。K-Nearest Neighborsを使用してチェックアウトすることをお勧めします。多くの場合、非常に意志が低い次元で実行されますが、通常はカテゴリ変数をうまく処理できないためです。
問題について詳しく知らずに1つを選択する必要があった場合、この種のデータセットの一般化を可能にする可能性が非常に高いため、間違いなく極端なランダムフォレストに賭けます。また、数値データとカテゴリデータの混合をよりよく処理します他のほとんどの方法より。
カテゴリー変数が混在している場合、ランダム決定フォレストに到達します。これは、1-of-nエンコード変換なしでカテゴリー変数を直接処理するためです。これにより、失われる情報が少なくなります。
最初に複雑な方法を使用することはお勧めしません。最初はより高速でシンプルなアプローチ(kNN、NBCなど)を使用してから、線形回帰、ロジスティック回帰、LDA、CART(RF)、KREGを経て、最小二乗SVM、勾配上昇SVM、ANN、そしてメタヒューリスティック(貪欲) GA、群知能、アリコロニー最適化などによる発見的登山