サンプリング分布を教えるための戦略


30

tl; drバージョン 入門的な学部レベルで(たとえばサンプル平均の)サンプリング分布を教えるためにどのような成功した戦略を採用していますか?

背景

9月に、David Moore によるThe Basic Practice of Statisticsを使用して、2年目の社会科学(主に政治学と社会学)の学生向けに統計の入門コースを教えます。私がこのコースを教えたのは5回目であり、私が一貫していた1つの問題は、学生がサンプリング分布の概念に本当に苦労したということです。それは推論の背景としてカバーされており、最初のしゃっくりの後、彼らが問題を抱えていないように見える確率の基本的な紹介に従っています(そして、基本的に、私は基本的なことを意味します-結局のところ、これらの学生の多くは、「数学」のあいまいなヒントでさえも避けようとしたため、特定のコースストリームに自己選択されています。おそらく60%が最低限の理解しか得られずにコースを去り、約25%が原則を理解するが他の概念との関係は理解せず、残りの15%は完全に理解すると思います。

主な問題

学生が抱えていると思われる問題は、アプリケーションにあります。正確な問題が何であるかを説明することは、彼らが単にそれを理解していないと言うこと以外は難しい。前学期に実施したアンケートと試験の回答から、難しさの一部は、2つの関連する類似した発音フレーズ(サンプリング分布とサンプル分布)の混同であると思うので、「サンプル分布」というフレーズは使用しませんもう、しかしこれは確かに、最初は混乱しますが、少しの努力で簡単に把握でき、とにかくサンプリング分布の概念の一般的な混乱を説明することはできません。

(私はそれがあるかもしれないことを認識し、私、私は以来、不快な可能性が行うことが妥当であることを無視して考えるしかし!そしてここでの問題であります私の教え一部の学生がそれと全体的な誰もが非常によくやっているようだ得るように見えるん...)

私が試したこと

私は、学部の学部管理者と議論し、コンピューターラボで必須のセッションを導入し、繰り返しデモを行うことが役立つと考えました(このコースを教える前に、コンピューティングは関係していませんでした)。これは一般的に教材全体を理解するのに役立つと思いますが、この特定のトピックに役立つとは思いません。

私が持っていた一つのアイデアは、いくつかの(例えばによって提唱位置だけですべてでそれを教えないようにするか、それを多くの重量を与えないことであるアンドリュー・ゲルマンを)。最も一般的な分母に教える気配があり、より重要なことは、サンプリングの分布だけでなく、重要な概念がどのように機能するかを本当に理解することから統計的応用についてもっと学びたいと強くてやる気のある学生を拒否するためです。 )。一方、中央値の学生は、たとえばp値を把握しているように見えるため、サンプリング分布を理解する必要はないかもしれません。

質問

サンプリング分布を教えるためにどのような戦略を採用していますか?私は(たとえば、利用可能な材料との議論がある知っているここここと開き、この論文PDFファイルが)が、私は人々のためにどのような作品のいくつかの具体的な例を得ることができる場合、私はただ思ったんだけど(または私は仕事がなくても、どうなったと思います試さないでください!)。私の今の計画は、9月のコースを計画するとき、ゲルマンのアドバイスに従い、サンプリング分布を「強調しない」ことです。教えますが、これは一種のFYIのみのトピックであり、試験には表示されないことを生徒に保証します(おそらくボーナス質問として!?)。しかし、私は人々が使用している他のアプローチを聞くことに本当に興味があります。


また、中心極限定理を示すために、非正規母集団分布でこれを行うことができます
user41270

申し訳ありませんが、これは以下の私の答えに対するコメントであるはずです。
user41270 14年

回答:


23

私の意見では、サンプリング分布は統計101の重要なアイデアです。この問題をスキップするのと同様に、コースをスキップすることもできます。しかし、私は、あなたが何をしようとも、学生はそれを受け取らないという事実に非常に精通しています。一連の戦略があります。これらには多くの時間がかかる可能性がありますが、サンプリング分布の概念を確実に理解できるように、他のトピックをスキップ/短縮することをお勧めします。ヒントを次に示します。

  • はっきり言ってください: 最初に、人口分布、サンプル分布、サンプリング分布という3つの異なる分布があることに明示的に言及します。私はこれをレッスンを通して何度も繰り返し、そしてコースを通して何度も繰り返します。たびに私は、これらの用語は、私は独特のエンディングを強調言う:sam- PLEは、samp- 。(はい、学生はこれにうんざりします;彼らはまた概念を得ます。)
  • 写真を使用する(数字): これについて話すたびに使用する標準的な数字のセットがあります。明確に描かれ、通常ラベル付けされた3つの分布があります。(この図に付随するラベルはパワーポイントのスライド上にあり、短い説明が含まれているため、ここには表示されませんが、明らかに上部の人口、サンプル、サンプリングサンプリングです)。
    ここに画像の説明を入力してください
  • 生徒にアクティビティを提供します 。このコンセプトを初めて導入するときは、ロール状の切れ目(いくつかの四分の一が消える可能性があります)または6面ダイスの束を持ち込みます。生徒を小さなグループにまとめて、10個の値のセットを生成させ、それらを平均化します。その後、ボード上またはExcelでヒストグラムを作成できます。
  • アニメーション(シミュレーション)を使用する: Rでいくつかの(非効率的な)コードを記述して、データを生成し、実際に表示します。この部分は、中央極限定理の説明に移行するときに特に役立ちます。(Sys.sleep()ステートメントに注意してください、これらの一時停止は、各段階で何が起こっているかを説明する時間を与えてくれます。)
N = 10
number_of_samples = 1000


iterations  = c(3, 7, number_of_samples)  
breakpoints = seq(10, 91, 3)  
meanVect    = vector()  
x           = seq(10, 90)  
height      = 30/dnorm(50, mean=50, sd=10)  
y           = height*dnorm(x, mean=50, sd=10)  

windows(height=7, width=5)  
par(mfrow=c(3,1), omi=c(0.5,0,0,0), mai=c(0.1, 0.1, 0.2, 0.1))  

for(i in 1:iterations[3]) {  
  plot(x,y, type="l", col="blue", axes=F, xlab="", ylab="")  
  segments(x0=20, y0=0, x1=20, y1=y[11], col="lightgray")  
  segments(x0=30, y0=0, x1=30, y1=y[21], col="gray")  
  segments(x0=40, y0=0, x1=40, y1=y[31], col="darkgray")  
  segments(x0=50, y0=0, x1=50, y1=y[41])  
  segments(x0=60, y0=0, x1=60, y1=y[51], col="darkgray")  
  segments(x0=70, y0=0, x1=70, y1=y[61], col="gray")  
  segments(x0=80, y0=0, x1=80, y1=y[71], col="lightgray")  
  abline(h=0)  

  if(i==1) {  
    Sys.sleep(2)  
  }  
  sample = rnorm(N, mean=50, sd=10)  
  points(x=sample, y=rep(1,N), col="green", pch="*")  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  xhist1 = hist(sample, breaks=breakpoints, plot=F)  
  hist(sample, breaks=breakpoints, axes=F, col="green", xlim=c(10,90),  
       ylim=c(0,N), main="", xlab="", ylab="")  
  if(i==iterations[3]) {  
    abline(v=50)  
  }  

  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
  sampleMean = mean(sample)  
  segments(x0=sampleMean, y0=0, x1=sampleMean,   
           y1=max(xhist1$counts)+1, col="red", lwd=3)  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  meanVect = c(meanVect, sampleMean)  
  hist(meanVect, breaks=x, axes=F, col="red", main="",   
       xlab="", ylab="", ylim=c(0,((N/3)+(0.2*i))))  
  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
}  

Sys.sleep(2)  
xhist2 = hist(meanVect, breaks=x, plot=F)  
xMean  = round(mean(meanVect), digits=3)  
xSD    = round(sd(meanVect), digits=3)  
histHeight = (max(xhist2$counts)/dnorm(xMean, mean=xMean, sd=xSD))  
lines(x=x, y=(histHeight*dnorm(x, mean=xMean, sd=xSD)),   
      col="yellow", lwd=2)  
abline(v=50)  

txt1 = paste("population mean = 50     sampling distribution mean = ",  
             xMean, sep="")  
txt2 = paste("SD = 10     10/sqrt(", N,") = 3.162     SE = ", xSD,  
            sep="")  
mtext(txt1, side=1, outer=T)  
mtext(txt2, side=1, line=1.5, outer=T)  
  • 学期を通じてこれらの概念を再実証し ます。次の主題について話すたびに、サンプリング分布のアイデアを再び持ち出します(通常は非常に簡単ですが)。この最も重要な場所は、ANOVAを教えるときです。帰無仮説の場合、実際には同じ母集団分布から数回サンプリングした状況があり、グループ平均のセットは実際に経験的なサンプリング分布です。(この例については、こちらの私の回答をご覧ください:標準エラーはどのように機能しますか?

1
これは良い答えです(+1)。私は特に、活動とシミュレーションがこの主題を教えるのに非常に役立つと思います。入門コースでは、サンプルから統計がどのように計算されるか、これを何度も繰り返すとサンプリング分布のヒストグラムがどのように形になり始めるかを視覚化できるWebアプレットを使用して、数回教えました。この活動は、サンプリング分布を理解する際に学生に言ったことよりもはるかに役立ったと思います:)
マクロ

+1ありがとうGung、それは素晴らしい答えです!あまりにも「私にcodezを送信」してくれてありがとう(NB。Macユーザーが交換するwindows(...)quartz(...))。学期を通じてコン​​セプトを強化することについてのあなたのポイントは特に役立ちます。これらのガイドラインに従うことは本当に役立つと思います。
smillig

(+1)「3つの分布」のマントラ、および関係図。コンセプトが実際に明確なコンセプトであることを最初に理解しないと、誰もコンセプトを理解できません。
アレコスパパドプロ14

これには、ライス大学のサンプリング分布に関する「オンライン統計ブック」ページが非常に役立つことがわかりました。何年も前の元のバージョンにはJavaアプレットが含まれていましたが、最近Javascriptでリメイクされたことを嬉しく思います。動作方法は、基本的に図と同じです。
シルバーフィッシュ

8

サンプリング分布はランダムサンプルに基づいた検定統計の分布であることを生徒に思い出させることで幸運を得ました。極端な場合に焦点を合わせて、サンプリングプロセス自体にバイアスがかかっていることについて生徒に考えてもらいます。たとえば、サンプリングプロセスが常に同じ(特別な)サブセットを選択した場合、「サンプリング分布」はどのようになりますか。次に、サンプリングプロセスで2つの特定の(特別な)サブセット(それぞれ確率1/2)のみを選択した場合、「サンプリング分布」がどのようになるかを検討します。これらは、サンプルの平均を使用して簡単に計算できます(特に、基礎となる母集団の「特別な」特定の選択の場合)。

一部の(明らかにすべてではない)学生にとって、これはサンプリング分布が母集団分布と非常に異なる可能性があるという考えで彼らを助けるように思われます。また、Michael Chernickが言及した中心的な極限定理の例を使用しました。特に、明らかに明らかに正規分布ではない分布(シミュレーションが本当に役立つようです)。


Graham Cooksonには、「難しい統計的概念に対するお気に入りの素人の説明は何ですか?」の回答として掲載されている、素晴らしい教室での演習があります。-コミュニティWiki。
shoda

+1、ランダムでないサンプルのサンプリング分布がどうなるかについて話すのは良い考えです。
GUNG -復活モニカ

+1サブセット選択に関する素晴らしいアイデア!これはあなたが@shodaを参照しているリンクだと思います:stats.stackexchange.com/a/554/9249
smillig

7

確率の教えから始めます。正式な定義やルールについてはあまり触れませんが(十分な時間ではありません)、シミュレーションで確率を示します。Monty Hallの問題は、使用する素晴らしい例です。シミュレーション(およびロジックのフォローアップ)を通じて、切り替え戦略が勝率を高めることを示しています。シミュレーションにより、戦略を評価するために何度も(リスクや報酬なしで)ゲームをプレイでき、より良い戦略を選択できるようになりました(そのような状況にある場合)。より良い戦略を選択することは勝利を保証するものではありませんが、より良いチャンスを与え、戦略を選択するのに役立ちます。次に、これがコースの残りの部分にどのように適用されるかは、ランダムなコンポーネントがある戦略を選択するのに役立つことを指摘します。

それからサンプリング分布を紹介するとき、私は再びシミュレーションから始めて、戦略を開発したいと言います。モンティホールの問題と同様に、実際にはサンプルを1つしか取得できませんが、多くのサンプルをシミュレートして戦略を立てることができます。次に、同じ母集団(この場合は既知の母集団)からの多くのサンプルのシミュレーションを示し、シミュレーションから学習した関係(サンプル平均のヒストグラム)を示します。 、大きなサンプルの場合はサンプリング分布の標準偏差が小さく、大きなサンプルの場合はより標準的です。シミュレーションのアイデアを繰り返して戦略を選択することについて話している間、モンティーホールの問題がゲームショーではなくサンプル手段に適用されたのと同じアイデアです。次に公式ルールを示し、シミュレーションに加えて数学的に証明できると言いますが、クラス全体に証明を与えることはしません。彼らが数学的な証明を本当に見たいなら、彼らはオフィスアワーに来ることができ、私は彼らに数学を見せます(イントロクラスの誰もまだこれを取り上げていない)と申し上げます。

そして、推論に到達すると、ゲームを1回(せいぜい)しかプレイできないように、現実の世界では1つのサンプルしか取得できないと言いますが、シミュレーションから学んだ戦略を使用できます選択したプロパティ(正しい可能性)を提供する戦略(z検定、t検定、またはCI式)を開発するための多くのサンプル。ゲームと同じように、最終的な結論が正しいかどうかを開始する前にわかりません(通常はその後もまだわかりません)が、シミュレーションとサンプリング分布から長期確率が使用していることはわかりますその戦略。

100%の学生が完全に理解していますか?いいえ、しかし、シミュレーションと数学のルールを使用することができるという一般的なアイデアを得る人は多いと思います(見ている必要はなく、本/インストラクターを信頼するだけです)、戦略と式を選択します目的のプロパティ。


+1このアドバイスをお寄せいただきありがとうございます。サンプリング分布とは何かを教えることができるかと、それを単一のサンプルから推論するためにどのように外挿できるかとの間のリンクであるという問題で、あなたはそれを釘付けにしたと思います。あなた(およびここの他の人)が示唆したように、コース全体で何度も概念を繰り返し続けることは重要ですが、あまり行われていません(少なくとも私ではなく、おそらく私が望むものすべてに適合するにはすでに難しいと思うので、すでに説明した概念に戻るのは言うまでもありません!)。
smillig

3

これは非常に重要でよく考え抜かれた問題です。サンプリング分布の概念は推論を理解するために基本的なものであり、間違いなく教えられるべきだと思います。

私は、特に生物統計学の多くの入門的な統計コースを教えてきました。私はサンプリング分布の概念を教えており、良いと思うアプローチを持っていますが、実際にどれだけ成功したかを判断するための良いフィードバックはありません。とにかくここに私がやることがあります。

最初に、簡単な定義を試みます。サンプリング分布は、サンプルプロセスが何度も繰り返された場合に検定統計量が持つ分布です。データが生成されると想定される母集団の分布に依存します。

これは私ができる限り単純な定義であると思いますが、それは非常に単純ではなく、ほとんどの場合、概念の理解はすぐには得られないことを理解しています。そのため、定義で述べられていることを補強する基本的な例でこれをフォローアップしてください。

22

次に、重要なアプリケーションである中心極限定理でこれをフォローアップします。最も簡単な用語では、中心極限定理は、正規ではない多くの分布について、標本サイズnが大きい場合、標本平均の標本分布は正規分布に近いと言います。これを説明するために、ユニフォームのような分布を取り(バイモーダル分布も参照するとよいでしょう)、3、4、5、10、100のサンプルサイズで平均のサンプリング分布がどのようになるかを示します。分布の形状は、小さなnに対してまったく正規に見えないものから、大きなnに対する正規分布に非常によく似たものに変化します。

これらのサンプリング分布が本当にこれらの形状を持っていることを学生に納得させるために、学生にさまざまなサイズの多くのサンプルを生成するシミュレーションを実行させ、サンプル平均を計算させます。次に、これらの平均の推定値のヒストグラムを生成します。また、quincunxボードを使用してこれがどのように機能するかを示す物理的なデモを適用することをお勧めします。これをしながら、各レベルで左または右に進む確率が1/2である独立したベルヌーイ試行の合計のサンプルをデバイスが生成する方法を指摘します。下部の結果のスタックは、このサンプリング分布(二項分布)のヒストグラムを表し、その形状は、五角形の下部に多数のボールが着地した後、ほぼ正常に見えることがわかります。


貴重な提案をありがとう。私は実際の物理的なデモンストレーションのアイデアが本当に好きで、間違いなくこのようなものを実装しようとします(私は十分に長い間Facebookから気を散らすことができると仮定しています...)頭!ありがとう。
smillig

1
しかし、実験から正規分布形状を見るのは本当に目を見張るものです。私が子供の頃(約10歳)、シカゴの科学博物館でこれらの1つを初めて見ました。統計については何も知りませんでしたが、曲線を決して忘れませんでした。
マイケルR.チャーニック

1

数字の「人口」をバッグに入れておくといいと思います(たとえば、1〜10)。独自のタイルを作成したり、コインやトランプなどを使用したりできます。

生徒をグループ(5人以上)に座らせ、それぞれがバッグから番号を選びます。次に、各グループはグループの平均値を計算します。前に母平均を計算し、それをヒストグラムにプロットし、各グループのメンバーに来て、その周辺のヒストグラムにサンプル平均をプロットするように伝えます。「ヒストグラムを作成する」ために、このエクササイズを数回実行してもらいます。

その後、母平均の周りのサンプル平均の変動をグラフィカルに表示できます。母平均と比較した標本平均の変動を計算します。学生はそのような実践的な演習を行ったことをはっきりと覚えていると思います。その結果、サンプリングのバリエーションの概念がより簡単に戻ってくるでしょう。それは少し赤ん坊のように聞こえるかもしれませんが、生徒は時々、何かをアクティブにするための変更が好きな場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.