ランダムフォレストが過剰適合
scikits-learnでRandom Forest Regressionを使用しようとしています。問題は、非常に高いテストエラーが発生していることです。 train MSE, 4.64, test MSE: 252.25. これは私のデータがどのように見えるかです:(青:実データ、緑:予測): トレーニングに90%、テストに10%を使用しています。これは、いくつかのパラメーターの組み合わせを試した後に使用しているコードです。 rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1) test_mse = mean_squared_error(y_test, rf.predict(X_test)) train_mse = mean_squared_error(y_train, rf.predict(X_train)) print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse)) plot(rf.predict(X)) plot(y) フィッティングを改善するための可能な戦略は何ですか?基礎となるモデルを抽出するために他にできることはありますか?同じパターンを何度も繰り返した後、モデルが新しいデータに対して非常にひどく振る舞うのは信じがたいようです。このデータに合わせようとする希望はありますか?