タグ付けされた質問 「convergence」

収束とは、一般に、サンプルサイズが無限大になる傾向があるため、特定のサンプル量のシーケンスが定数に近づくことを意味します。収束は、いくつかの目標値で安定させるための反復アルゴリズムの特性でもあります。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 


2
カイ二乗分布の制限が正規分布であるのはなぜですか?
私の教授はそれを主張しました limp→∞χ2plimp→∞χp2\lim_{p\to\infty}\chi^2_p正規分布があります。主張は中心極限定理に基づいて行われました:として、法線ます。この主張は、の限界だろうと私は、これが有効でも真であるかを確認していない左側のを、まだまた、右側に表示されます。さらに、とどちらも依存します...p→∞p→∞p\to\infty(pμ,p2σ2)(pμ,p2σ2)(p\mu, p^2\sigma^2)ppppppσ2σ2\sigma^2μμ\muppp 何が欠けているのか、この制限の分布をどのようにして納得させるのですか?

1
ベルヌーイを証明することはベータの限界です
それは私たちが解決した場合、その検査によって私には明らかだ(それによって、平均固定)としましょう(、ベータ分布はベルヌーイに近づく)配布。β=1−μμαβ=1−μμα\beta = \frac{1-\mu}{\mu} \alphaα→0α→0\alpha \rightarrow 0μμ\mu 例えば: par(mfrow = c(1, 2), oma = c(0, 0, 1.5, 0)) xx = seq(0, 1, length.out = 1000) mus = c(.2, .7) for (ii in 1:2) { mu = mus[ii] matplot(xx, sapply(10^(-1:-5), function(al) pbeta(xx, al, (1-mu)/mu * al)), type = 'l', lty = ii, …

2
計量経済学のテキストは、分布の収束は瞬間の収束を意味すると主張しています
次の補題は、林の計量経済学にあります。 補題2.1(分布とモーメントで収束):レッツである番目のモーメント、およびここで、は有限です(つまり、実数)。次に:αsnαsn\alpha_{sn}sssznznz_{n}limn→∞αsn=αslimn→∞αsn=αs\lim_{n\to\infty}\alpha_{sn}=\alpha_{s}αsαs\alpha_{s} " zん→dzzn→dzz_{n} \to_{d} z " ⟹⟹\implies " αsαs\alpha_{s}はz sss番目のモーメントです。"zzz したがって、たとえば、分布に収束する一連の確率変数の分散が何らかの有限数に収束する場合、その数は限界分布の分散です。 私が理解している限り、zんznz_{n}には、コンテキストから推測できる追加の仮定はありません。[0,1]の一様確率測度でz_ {n} = n \ mathbb {1} _ {[0、\ frac {1} {n}]}によって定義された確率変数のシーケンスを考えます。zん= n1[ 0 、1ん]zn=n1[0,1n]z_{n} = n\mathbb{1}_{[0,\frac{1}{n}]}[ 0 、1 ][0,1][0,1] 次にzん→d0zn→d0z_{n} \to_{d} 0ですが、(∀n) E(zn)=1→1≠0=E(0)(∀n) E(zn)=1→1≠0=E(0)(\forall n)\ E(z_{n}) = 1 \to 1 \neq 0 = E(0)です。 上記の補題を正しく読んでいる場合、{zn}{zn}\{z_n\}は反例を提供します。 質問:補題は間違っていますか?分布の収束が瞬間の収束を意味する一般的な条件を指定する関連する結果はありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.