非常に大きなファイルからのサンプルで回帰を行っています。サンプル係数の平均とSEは、一貫した推定量ですか？

8

100M行30列程度のかなり大きなファイルがあり、その上で複数の回帰を実行したいと思います。私はファイル全体で回帰を実行するための特別なコードを持っていますが、私がしたいことは、ファイルからランダムなサンプルを描画してRで実行することです。戦略は次のとおりです。対象の係数を保存し、係数ごとに異なるサンプルを使用してこのプロセスをM回繰り返し、M回の実行に対する係数の平均と標準誤差を計算します。

Mランで計算された平均を、データセット全体で計算された係数の値の推定値として解釈し、平均の標準誤差を、データセット全体で計算された係数の標準誤差の推定値として解釈したいと思います。

実験はこれが有望な戦略であることを示していますが、根本的な理論についてはわかりません。私の推定者は一貫して効率的で偏っていませんか？それらが一貫している場合、どれくらい早く収束すべきですか？MとNのどのトレードオフが最適ですか？

誰かが私に関連理論を使って論文や本などを教えてもらえれば幸いです。

今後ともよろしくお願いいたします。

ジョー・リッカート

r regression large-data bootstrap

— csgillespie
ソース

ジョシェップ、私があなたの質問を理解している場合、あなたの仕事の目的は、交換可能な仮定が成り立つ場合、模擬結果を得たランダムサンプルで回帰分析を実行することを、データセット全体からの結果に実証することです。私の質問は、この方法が使用されている参照を誰かが知っているかどうかです。

— マヌエル・ラモン・

5

データマトリックスの行が交換可能であると想定できる場合、モデリング戦略はうまく機能するはずです。あなたの方法は、以前にGaetan Lionによって述べられた条件の下でうまくいくはずです。

メソッドが機能する理由（交換可能性の仮定が当てはまる場合）は、大きなサンプルのN行を再サンプリングし、モデルを適合させて係数を格納し、このMを繰り返すというパラメトリックブートストラップの特殊なケースと見なされるためです時間（従来のブートストラップ用語では、MはBに相当）とM係数推定の平均を取ります。順列テストの観点からも見ることができます。

しかし、これらの結果はすべて、（検証が難しい）交換可能性の仮定が成り立つ場合に当てはまります。交換可能性の仮定が成り立たない場合、その場合の答えは少し複雑になります。おそらく、交換可能なデータ内のサブグループを処理し、これらのサブグループを条件にプロセスを実行する必要があります。基本的に、階層モデリング。

— サンクール
ソース

こんにちは、サンクール。はい、交換可能性の仮定は重要だと思います。指摘いただきありがとうございます。収束率に関する結果を知っていますか？

1

こんにちはジョセフ、ほとんどの（一般的ではない）結果は古典統計になります：パラメトリックブートストラップはレート

周りに収束します

n^{\frac{1}{2}}

$n^{\frac{1}{2}}$

n

$n$

n

$n$

M

$M$

M

$M$

n^{1 / 2}

$n^{1/2}$

O (n^{- 1 / 2})

$O(n^{-1/2})$

こんにちは、サンクール。参考にしていただきありがとうございます。大変感謝しています。宿題をします。

4

元の質問に対する答えは「はい」です。これは、古典理論がサンプリングスキームの下で適用されるためです。元のデータマトリックスに対する仮定は必要ありません。すべてのランダム性（暗黙的に標準エラーと一貫性の背後にあります）は、データマトリックスから行をサンプリングするためのスキームから生じます。 $N$

$N$ $\hat{\beta}_*$ $\hat{\beta}_*$ $M$ $M$ $\hat{\beta}_{avg}$ $M$ とが100Mと比較して小さい限り、ほぼ独立している（無関係）と推定されます。それは重要な仮定です。置換なしのサンプリングは、母集団サイズと比較してサンプルサイズが小さい場合、置換ありのサンプリングとほぼ同じであるという考えです。 $N$ $M$

$\hat{\beta}_*$ $M$ $N$ $MN$ $Y$ $X$ $Y$ $X$

（1）と（2）はどちらも単純なスキームですが、必ずしも効率的ではありません。（変数は30個しかないので問題ではないかもしれません。）より良い方法があります。次に例を示します。http：//arxiv.org/abs/0710.1435

— vqv
ソース

2

サンプルNが大きいほど、すべての回帰係数に関連する標準誤差は小さくなります（t統計が高くなり、それぞれのp値が小さくなります）。Mが大きいほど、データポイントが多くなり、M回の実行での係数の平均の標準誤差が小さくなります。このような手段には、中央極限定理に従って通常分布する標準誤差が必要です。そのような手段の収束に関して、これを指示する統計的原則があるかどうかはわかりません。ランダムサンプリングが適切に行われたかどうか（構造的な偏りなどがないかどうか）は、収束がかなり迅速に発生するはずです。これは、経験的に観察する必要があるかもしれません。

そうでなければ、あなたの方法は良いようです、私はそれで何の問題も見ません。

— シンパ
ソース

こんにちは、ゲイテン、お調べいただきありがとうございます。論理を理解しているかどうかはまだわかりません。完全なサンプルbeta.hatは、真のベータの推定です。私のsample.mean.beta.hatはbeta.hatの推定値ですか？beta.hatとsample.mean.beta.hatの両方が相互に収束するというCLT引数はありますか？

@ジョセフ。私はあなたのコメントを理解しているとは思いません。わずかに異なる構文を使用します。beta.hatの意味がわかりません。私のポイントは、サンプルNが大きいほど、1回の実行内のすべての回帰係数で統計的有意性が高くなる（標準誤差が低く、t統計値が高く、p値が低くなる）ことです。一方、反復数Mが大きいほど、すべての反復にわたる特定の各係数の平均の統計的有意性が高くなります。彼らは2つの異なるものです。

— 2010年

@Joseph、あなたの言語を使用して。CLT引数がbeta.hatとsample.mean.beta.hatの両方が互いに向かって収束することを示唆しているとは確信がありません。ただし、それぞれの結果の分布（平均の周りの標準誤差によって定義される）は正規分布になります。私は、彼らはそれぞれがよりアップ確定するか、使用と統計学的に有意なりますので、2 beta.hat（s）は単に互いに向かって収束するとは思わNと大きなM.大きい

— Sympaの