タグ付けされた質問 「regression-to-the-mean」

2
「思考、高速、低速」の平均への回帰
で思考、高速と低速、ダニエル・カーネマンは、以下の仮定の質問を提起します: (P. 186)現在、ジュリーは州立大学の先輩です。彼女は4歳のときに流readに読んだ。彼女の成績平均点(GPA)とは何ですか? 彼の意図は、特定の統計について予測する際に、平均値への回帰を説明できないことが多いことを説明することです。その後の議論では、彼は次のようにアドバイスしています。 (P. 190)2つの測定値(現在の例では読書年齢とGPA)の間の相関関係は、それらの決定要因間の共有因子の割合に等しいことを思い出してください。その割合についてのあなたの最も良い推測は何ですか?私の最も楽観的な推測は約30%です。この推定を仮定すると、偏りのない予測を作成するために必要なものはすべて揃っています。4つの簡単な手順でそこに到達する方法の手順を次に示します。 平均GPAの推定から始めます。 証拠の印象に合ったGPAを決定します。 読書早熟度とGPAの相関を推定します。 相関が.30の場合、平均から一致するGPAまでの距離の30%を移動します。 彼のアドバイスの私の解釈は次のとおりです。 「彼女は4歳のときに流readに読んだ」を使用して、ジュリーの読書の早熟度の標準スコアを確立します。 対応する標準スコアを持つGPAを決定します。(予測する合理的なGPAは、GPAと早熟度の相関が完全であれば、この標準スコアに対応します。) 読書の早熟度の変動によって説明できるGPAの変動の割合を推定します。(私は彼がこの文脈で「相関」と決定係数を参照していると思いますか?) ジュリーの読書早熟の標準スコアの30%だけが、彼女のGPAの標準スコアを説明できる要因によって説明できるため、ジュリーのGPAの標準スコアがそれの30%になると予測するだけで正当化されます。完全な相関の場合。 カーネマンの手順の私の解釈は正しいですか?もしそうなら、彼の手順、特にステップ4のより正式な数学的正当化はありますか?一般に、2つの変数間の相関関係と標準スコアの変化/差異との関係は何ですか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.