現在取り組んでいるプロジェクトのさまざまな分類方法を調査しており、ランダムフォレストを試すことに興味があります。私は自分自身を教育しながら努力しているので、CVコミュニティから提供された助けに感謝します。
データをトレーニング/テストセットに分割しました。Rのランダムフォレストでの実験(randomForestパッケージを使用)から、小さなクラスの誤分類率が高いという問題がありました。不均衡なデータでのランダムフォレストのパフォーマンスに関するこの論文を読み、著者は、ランダムフォレストを使用する場合のクラスの不均衡に対処する2つの方法を提示しました。
1.重み付きランダムフォレスト
2.バランスのとれたランダムフォレスト
Rパッケージはクラスの重み付けを許可していません(Rヘルプフォーラムから、classwtパラメーターが正しく実行されておらず、将来のバグ修正としてスケジュールされていることを読みました)ので、オプション2を残します。ランダムフォレストの反復ごとに各クラスからサンプリングされたオブジェクトの数。
ランダムフォレストのサンプルサイズを同じに設定するのは不安です。将来のデータでパフォーマンスが低下する大規模なクラスに関する情報を失いすぎると感じているからです。より大きなクラスをダウンサンプリングするときの誤分類率は改善することが示されていますが、ランダムフォレストで不均衡なクラスサイズに対処する他の方法があるかどうか疑問に思っていましたか?