私はコンピューターサイエンスのバックグラウンドを持っていますが、インターネット上の問題を解決してデータサイエンスを学ぼうとしています。
私はこの数週間、この問題に取り組んでいます(約900行と10個の機能)。最初はロジスティック回帰を使用していましたが、ランダムフォレストに切り替えました。トレーニングデータでランダムフォレストモデルを実行すると、aucの値が非常に高くなります(> 99%)。ただし、テストデータで同じモデルを実行すると、結果はそれほど良くありません(精度約77%)。これにより、トレーニングデータを過剰に適合していると信じることになります。
ランダムフォレストでの過剰適合の防止に関するベストプラクティスは何ですか?
開発環境としてrとrstudioを使用しています。randomForest
パッケージを使用しており、すべてのパラメーターのデフォルトを受け入れました