膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。

id, age, income, gender, job category, monthly spend

その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

— ユーザー2926523
ソース

行が多すぎても、過剰適合にはなりません。列が多すぎると、そうなります。

— Peter Flom

この質問は複数の誤った仮定に基づいているため、人々は分析に多くのケースを使用することに消極的であり、ほとんどの統計モデルは大規模なデータセットに対応できないため、無関係または混乱する答えが蓄積される可能性があります。これらの誤った表現を削除するために質問を編集することを検討してください。

— whuber

ただし、@ whuberの発言は考慮されていません。前提は間違っています。「ほとんどの統計モデルは巨大なデータセットを処理できない」というのは真実ではないので、質問に対する有用な答えを得ることはできません。ある国のすべての人々の情報を特定の時間に使用できるということもまた真実ではありません（これが「人口」の意味するところだと思います）。

— pkofod 2014年

IDは、これが正しい分析である場合、単一の連続変数ではありません。IDはカテゴリー変数です。これは、個人間の差異が、受け取る個人の任意の数値割り当てに対応していないためです。つまり、分析では、個人ごとに1つの変数があります。潜在的に数百万。

— AdamO 2014年

コメントに感謝しますが、国のすべての人々の情報を特定の時間に使用できないのはなぜか混乱します（これは不自然な例なので、その情報があると仮定しましょう）？

— user2926523 2014年

回答:

発生する可能性のある問題には、次の2種類があります。

1）データセットが大きすぎるため、コンピューターの問題。最近では、6列の数百万行はそれほど大きくありません。しかし、プログラム、コンピュータ、RAMの容量、そしておそらく他のことによっては、それが停止する可能性があります。

2）統計上の問題。ここで、あなたが議論するような問題には、私が知っている「問題」が1つあります。小さな影響でも非常に重要です。これは実際には回帰の問題ではなく、p値の問題です。効果のサイズ（回帰パラメーター）を確認することをお勧めします。

3）モデルの別の種類の問題は、行数ではなく、応答変数の性質（毎月の支出）によるものです。OLS回帰では、応答の分布（エラーについてのみ）については何も想定していませんが、従属変数としてお金があるモデルでは、通常のエラーが発生することがよくあります。さらに、応答のログを取ることは、多くの場合、実質的に意味があります。これがあなたのケースでそうであるかどうかは、まさにあなたが何をしようとしているのかに依存します。

— ピーター・フロム
ソース

こんにちはピーター、応答変数（つまり、1か月の費用）をログに記録する理由を詳しく説明していただけますか？これからどのようなメリットがありますか？

— shihpeng 2016年

承知しました。多くの場合、金額はログに記録されます。お金は相加的ではなく乗法的に考えます。あなたは支出から行く場合は

1000 t o

$1000 to$

10 t o

$10 to$

重要なのは、当てはめたいモデルについて推定する必要がある係数の数と比較した、個体（行）の数です。一般的な経験則では、最低でも係数あたり約20の観測値が推奨されるため、最大150,000個の係数を推定できるはずです。

実際、この場合、問題ではなく機会があります。予測子への応答と予測子間の相互作用の非線形関係を含むかなり複雑なモデルに適合させることです。これは、予測子に対する応答の関係が線形かつ加法的であると想定される単純な応答よりもはるかに優れて応答を予測できる場合があります。

— Scortchi-モニカの回復
ソース