RのrandomForestパッケージを使用してランダムフォレストモデルを開発し、サンプルよりも多くの予測子を持つ「広い」データセットで継続的な結果を説明しようとしています。
具体的には、1つのRFモデルをフィッティングして、重要と思われる75個までの予測変数のセットから手順を選択できるようにしています。
以前にここに投稿したアプローチを使用して、予約済みテストセットの実際の結果をモデルがどの程度予測できるかをテストしています。
...またはR:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
しかし、これで追加できる〜25の予測変数が追加されました。〜100の予測子のセットを使用すると、R²が高くなります。これを統計的にテストしたいのですが、言い換えると、〜100の予測子のセットを使用した場合、モデルのテストは、〜75の予測子を使用したモデルの近似よりもデータのテストで大幅に優れています。つまり、RFモデルのテストから得られたR²は、完全なデータセットに適合し、削減されたデータセットでのRFモデルのテストから得られたR²よりも大幅に高くなります。
これはパイロットデータであり、追加の25の予測子を取得するのは高価であり、大規模な追跡調査でこれらの予測子を測定するために支払う必要があるかどうかを知る必要があるため、これは私にとってテストにとって重要です。
なんらかのリサンプリング/順列アプローチを考えているのですが、何も思い浮かびません。