5,818,446行と51列のデータセットがあり、そのうちの50が予測変数です。私の応答は定量的であるため、回帰モデルに興味があります。キャレットパッケージを使用して、ランダムフォレストをデータに適合させようとしています。しかし、それを行うのに十分なRAMがありません。
私は自分の問題の解決策を探していました。より強力なコンピューターを持っていることに加えて、バギングを利用して問題を解決できるようです。したがって、私の考えは次のとおりです。
元のデータセットからトレーニングパーティションとテストパーティションの両方を作成する
電車のデータセットの一部をRに置き換えたサンプル(その1%、つまり58,185行としましょう)
データのこの小さな部分にランダムフォレストを当てはめる
モデル結果を保存する
手順2〜4を1,000回繰り返します
手順2〜5から取得したこれらの1,000モデルを組み合わせる
ただし、ランダムフォレスト自体はバギングを使用してモデルをデータに適合させているため、私のアプローチが正しいかどうかはわかりません。したがって、いくつか質問があります。
i)私のアプローチは正しいですか?つまり、システムに十分なRAMがないため、さまざまなランダムフォレストモデルをさまざまなデータチャンクに適合させ、それらを後で結合することは正しいのでしょうか。
ii)私のアプローチが正しいと仮定すると、データの1%がサンプルサイズの良い目安になりますか?データの1%でも、ます。
iii)私のアプローチが正しいと仮定すると、使用する必要のあるモデルのレプリケーションは多数ありますか?理由で1,000個と思いました。
l1
正規化でトレーニングします。これにより、通常、重要でないコンポーネントの重みがほぼゼロになり、どのツリーを保持する必要があるかを調べることができます。