データ分析演習による統計的概念の学習

18

簡単なデータ分析の演習は、統計の概念を説明し、明確にするのに役立つことが多いと思います。統計概念を教えるためにどのデータ分析演習を使用しますか？

teaching

— Brett Magill
ソース

9

私は頻繁に変数選択方法を説明する必要がありますが、教育の文脈ではありませんが、研究で援助を求めている非統計学者にとって、単一の変数選択が必ずしも良いアイデアではない理由を示すこの非常に簡単な例が大好きです。

このデータセットがある場合：

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

X1とX2の両方がyに対して個別にまったく情報がないことを理解するのに時間がかかりません（それらが同じ場合、yは1であることが確実です-ここではサンプルサイズの問題を無視しています。宇宙全体になります）。ただし、2つの変数の組み合わせは完全に有益です。そのため、（たとえば）個々の変数をリグレッサーとして使用するモデルのp値のみをチェックするのが得策ではない理由を理解するのはより簡単です。

私の経験では、これは本当にメッセージを伝えます。

— ニック・サブベ
ソース

5

重回帰係数と予想されるサインの誤り

データ分析の演習を通じて統計概念の私のお気に入りのイラストの1つは、複数の二変量回帰への多重回帰の分解です。

目的

複数の予測子が存在する場合の回帰係数の意味を明確にする。
予測変数が相関しているときに、Yとの2変量関係に基づいて特定の符号を持つことが重回帰係数を「期待」するのが間違っている理由を説明します。

概念

重回帰モデルの回帰係数は、a）モデル内の他のすべての予測変数（x2 ... xN）に関連しない特定の予測変数（x1）の一部との関係を表します。2）モデル内の他のすべての予測変数（x2 ... xN）に関連しない応答変数（Y）の部分。予測子間に相関がある場合、予測子係数に関連付けられた記号は、それらの残差間の関係を表します。

運動

2つの予測子（x1、x2）と応答（y）のランダムデータを生成します。
x2でyを回帰し、残差を保存します。
x2でx1を回帰し、残差を保存します。
ステップ2（r1）の残差をステップ3（r2）の残差に回帰します。

r2のステップ4の係数は、x1とx2の重回帰モデルのx1の係数になります。yとx2の両方でx1を分割することにより、x2でも同じことができます。

この演習用のRコードを次に示します。

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

関連する出力と結果は次のとおりです。

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00***

— Brett Magill
ソース