膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?


8

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。

id, age, income, gender, job category, monthly spend

その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?

modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

15
行が多すぎても、過剰適合にはなりません。列が多すぎると、そうなります。
Peter Flom

5
この質問は複数の誤った仮定に基づいているため、人々は分析に多くのケースを使用することに消極的であり、ほとんどの統計モデルは大規模なデータセットに対応できないため、無関係または混乱する答えが蓄積される可能性があります。これらの誤った表現を削除するために質問を編集することを検討してください。
whuber

ただし、@ whuberの発言は考慮されていません。前提は間違っています。「ほとんどの統計モデルは巨大なデータセットを処理できない」というのは真実ではないので、質問に対する有用な答えを得ることはできません。ある国のすべての人々の情報を特定の時間に使用できるということもまた真実ではありません(これが「人口」の意味するところだと思います)。
pkofod 2014年

2
IDは、これが正しい分析である場合、単一の連続変数ではありません。IDはカテゴリー変数です。これは、個人間の差異が、受け取る個人の任意の数値割り当てに対応していないためです。つまり、分析では、個人ごとに1つの変数があります。潜在的に数百万。
AdamO 2014年

コメントに感謝しますが、国のすべての人々の情報を特定の時間に使用できないのはなぜか混乱します(これは不自然な例なので、その情報があると仮定しましょう)?
user2926523 2014年

回答:


12

発生する可能性のある問題には、次の2種類があります。

1)データセットが大きすぎるため、コンピューターの問題。最近では、6列の数百万行はそれほど大きくありません。しかし、プログラム、コンピュータ、RAMの容量、そしておそらく他のことによっては、それが停止する可能性があります。

2)統計上の問題。ここで、あなたが議論するような問題には、私が知っている「問題」が1つあります。小さな影響でも非常に重要です。これは実際には回帰の問題ではなく、p値の問題です。効果のサイズ(回帰パラメーター)を確認することをお勧めします。

3)モデルの別の種類の問題は、行数ではなく、応答変数の性質(毎月の支出)によるものです。OLS回帰では、応答の分布(エラーについてのみ)については何も想定していませんが、従属変数としてお金があるモデルでは、通常のエラーが発生することがよくあります。さらに、応答のログを取ることは、多くの場合、実質的に意味があります。これがあなたのケースでそうであるかどうかは、まさにあなたが何をしようとしているのかに依存します。


こんにちはピーター、応答変数(つまり、1か月の費用)をログに記録する理由を詳しく説明していただけますか?これからどのようなメリットがありますか?
shihpeng 2016年

1
承知しました。多くの場合、金額はログに記録されます。お金は相加的ではなく乗法的に考えます。あなたは支出から行く場合は1000to10to

2

重要なのは、当てはめたいモデルについて推定する必要がある係数の数と比較した、個体(行)の数です。一般的な経験則では、最低でも係数あたり約20の観測値が推奨されるため、最大150,000個の係数を推定できるはずです。

実際、この場合、問題ではなく機会があります。予測子への応答と予測子間の相互作用の非線形関係を含むかなり複雑なモデルに適合させることです。これは、予測子に対する応答の関係が線形かつ加法的であると想定される単純な応答よりもはるかに優れて応答を予測できる場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.