タグ付けされた質問 「central-limit-theorem」

「特定の条件が与えられると、それぞれが明確に定義された平均と明確に定義された分散を持つ、独立した確率変数の十分に多数の反復の平均は、ほぼ正規分布します。」(ウィキペディア)

7
中心極限定理にはどのような直感的な説明がありますか?
いくつかの異なるコンテキストで、中央限界定理を呼び出して、採用したい統計的方法を正当化します(たとえば、二項分布を正規分布で近似します)。私は定理が真である理由に関する技術的な詳細を理解していますが、中央極限定理の背後にある直感を本当に理解していないことに気づきました。 それでは、中心極限定理の背後にある直観は何ですか? レイマンの説明が理想的です。技術的な詳細が必要な場合は、pdf、cdf、ランダム変数などの概念を理解しているが、収束の概念、特性関数、または測定理論に関係する知識はないと仮定してください。


5
サンプル中央値の中心極限定理
同じ分布から得られた十分に多くの観測値の中央値を計算すると、中央極限定理は中央値の分布が正規分布に近づくと述べていますか?私の理解では、これは多数のサンプルの平均について当てはまりますが、中央値についても当てはまりますか? そうでない場合、サンプル中央値の基礎となる分布は何ですか?

3
p値を組み合わせるとき、なぜ平均化しないのですか?
最近、p値を結合するFisherの方法について学びました。これは、nullの下のp値が一様分布に従うこと、および これは天才だと思います。しかし、私の質問は、なぜこの複雑な方法で行くのですか?そして、なぜp値の平均を使用し、中央限界定理を使用しないのですか?または中央値?この壮大な計画の背後にあるRAフィッシャーの天才を理解しようとしています。−2∑i=1nlogXi∼χ2(2n), given X∼Unif(0,1)−2∑i=1nlog⁡Xi∼χ2(2n), given X∼Unif(0,1)-2\sum_{i=1}^n{\log X_i} \sim \chi^2(2n), \text{ given } X \sim \text{Unif}(0,1)

4
30を十分な大きさのサンプルサイズとして使用することをサポートするには、どの参考文献を引用する必要がありますか
少なくとも30単位のサンプルサイズが「大きなサンプル」と見なされることを何度も読んだり聞いたりしました(通常、CLTにより平均値の正規性の仮定が成り立つ...)。したがって、私の実験では、通常30ユニットのサンプルを生成します。サンプルサイズ30を使用する際に引用する必要がある参考資料を教えてください。

3
または上の一様分布の合計を考えます。でのPDFのカスプが消えるのはなぜですか?
私はしばらくこのことについて疑問に思っていました。私はそれがどのように突然起こるか少し奇妙だと思います。基本的に、がそれを滑らかにするために3つのユニフォームだけが必要なのはなぜですか?そして、なぜスムージングアウトがそれほど速く起こるのですか?ZnZnZ_n Z2Z2Z_2: Z3Z3Z_3: (ジョン・D・クックのブログから恥知らずに盗まれた画像:http : //www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/) なぜ、たとえば4つの制服が必要なのでしょうか?それとも5?それとも...?


4
ここでない中心極限定理(CLT)でから来ますか?
以下のような中央限定定理の非常に単純なバージョン これはLindeberg–Lévy CLTです。左側にがある理由がわかりません。そして、リアプノフCLTはと言い が、なぜない?やなど、これらの要因について教えてください。定理でそれらをどのように取得しますか?n−−√((1n∑i=1nXi)−μ) →d N(0,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) n−−√n\sqrt{n}1sn∑i=1n(Xi−μi) →d N(0,1)1sn∑i=1n(Xi−μi) →d N(0,1) \frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) \ \xrightarrow{d}\ \mathcal{N}(0,\;1) sn−−√sn\sqrt{s_n}n−−√n\sqrt{n}1sn1sn\frac{1}{s_n}


6
中心極限定理が成り立たない例はありますか?
ウィキペディアによると- 確率理論では、中心極限定理(CLT)は、ほとんどの場合、独立したランダム変数が追加されると、元の変数自体ではなくても、適切に正規化された合計が正規分布(非公式に「ベル曲線」)になる傾向があることを確立します正規分布しています... 「ほとんどの状況で」と書かれている場合、どのような状況で中心極限定理は機能しませんか?

6
有限分散をテストしますか?
サンプルが与えられたランダム変数の分散の有限性(または存在)をテストすることは可能ですか?nullとして、{分散が存在し有限である}または{分散が存在しない/無限である}のいずれかが受け入れられます。哲学的に(そして計算上)、これは非常に奇妙に思えます。なぜなら、有限分散のない母集団と非常に大きな分散(例えば、> )の母集団の間に差がないはずなので、この問題が解決できるとは思えません。104001040010^{400} 私に提案された1つのアプローチは、中央限界定理によるものでした:サンプルがiidであり、母集団が有限平均を持っていると仮定すると、サンプルサイズが大きくなるにつれてサンプル平均に正しい標準誤差があるかどうかを何らかの方法でチェックできます。ただし、この方法が機能するかどうかはわかりません。(特に、適切なテストにする方法がわかりません。)

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
シミュレーションで中央極限定理が壊れるのはなぜですか?
次の番号があるとしましょう: 4,3,5,6,5,3,4,2,5,4,3,6,5 そのうちのいくつか、たとえば5つをサンプリングし、5つのサンプルの合計を計算します。その後、何度も繰り返して多くの合計を取得し、ヒストグラムに合計の値をプロットします。これは、中心極限定理によるガウス分布になります。 しかし、彼らが数字に続いているとき、私は4をいくつかの大きな数字に置き換えました。 4,3,5,6,5,3,10000000,2,5,4,3,6,5 これらからの5つのサンプルの合計をサンプリングしても、ヒストグラムではガウス分布になることはありませんが、スプリットのようになり、2つのガウス分布になります。何故ですか?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
均一な和分布の正規近似の誤差
正規分布を近似するための単純な方法の1つは、中央限界定理に基づいて、に均一に分布したおそらく IIDランダム変数を加算し、次にリセンタして再スケーリングすることです。(補足:Box-Muller変換など、より正確な方法があります。)IID確率変数の合計は、均一合計分布またはIrwin-Hall分布として知られています。[ 0 、1 ]100100100[ 0 、1 ][0,1][0,1]うん(0 、1 )U(0,1)U(0,1) 正規分布によって均一な和分布を近似する際の誤差はどれくらいですか? このタイプの質問がIIDランダム変数の合計を近似するために出てくるときはいつでも、人々(私を含む)はベリーエッセンの定理を持ち出します。 | Fn(X )- Φ (X )| ≤ Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} ここで、は IIDランダム変数の再スケーリングされた合計の累積分布関数、は絶対3次中心モーメント、は標準偏差で、はまたはことができる絶対定数です。のn ρ E | (X − E X )3 | σ C 1 1 / 2FnFnF_nnnnρρ\rhoE| (X− Eバツ)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111 / 21/21/2 これは不十分です。Berry-Esseenの推定は、離散的な二項分布で最もシャープに近く、対称二項分布では最大誤差がであるように思われます。最大のエラーは最大のジャンプで発生します。ただし、均一な合計分布にはジャンプがありません。000 数値テストは、エラーがよりも急速に縮小することを示唆しています。c …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.