100M行30列程度のかなり大きなファイルがあり、その上で複数の回帰を実行したいと思います。私はファイル全体で回帰を実行するための特別なコードを持っていますが、私がしたいことは、ファイルからランダムなサンプルを描画してRで実行することです。戦略は次のとおりです。対象の係数を保存し、係数ごとに異なるサンプルを使用してこのプロセスをM回繰り返し、M回の実行に対する係数の平均と標準誤差を計算します。
Mランで計算された平均を、データセット全体で計算された係数の値の推定値として解釈し、平均の標準誤差を、データセット全体で計算された係数の標準誤差の推定値として解釈したいと思います。
実験はこれが有望な戦略であることを示していますが、根本的な理論についてはわかりません。私の推定者は一貫して効率的で偏っていませんか?それらが一貫している場合、どれくらい早く収束すべきですか?MとNのどのトレードオフが最適ですか?
誰かが私に関連理論を使って論文や本などを教えてもらえれば幸いです。
今後ともよろしくお願いいたします。
ジョー・リッカート