学部生に示す良い例は何ですか?


9

今学期後半は、CS志向の大学生に教員補として統計を教えます。ほとんどの学生はクラスを受講し、その主題を学ぶインセンティブはなく、主要な要件のためだけに受講しました。私は、B +を合格させるために学んだクラスだけでなく、主題を面白く有用なものにしたいと考えています。

純粋数学の博士課程の学生として、私は実際の応用面についてはほとんど知りませんでした。学部統計の実際のアプリケーションをいくつかお願いしたいと思います。私が探している例は次のようなものです(精神的に):

1)中心極限定理を示すことは、特定の大きなサンプルデータに役立ちます。

2)中心極限定理が適用できないという反例を示します(たとえば、コーシー分布に従うもの)。

3)Z検定、t検定などを使用して、有名な実例で仮説検定がどのように機能するかを示します。

4)過適合または誤った初期仮説がどのように誤った結果をもたらすかを示す。

5)p値と信頼区間が(よく知られている)実際のケースでどのように機能したか、およびそれらがあまり機能しない場合を示します。

6)同様に、タイプI、タイプIIのエラー、統計的検出力、拒否レベルなど。α

私の問題は、確率の側面に多くの例(コイントス、ダイストス、ギャンブラーの破滅、マルチンゲール、ランダムウォーク、3つの囚人のパラドックス、モンティホール問題、アルゴリズム設計における確率法など)がありますが、統計面での多くの標準的な例。私が言いたいのは、教育学的に価値のある深刻で興味深い例であり、実際の生活から非常に切り離されているように見えるほど人工的に作られたものではありません。Z検定とt検定がすべてであるという誤った印象を学生に与えたくありません。しかし、私の純粋な数学の背景のために、クラスを彼らにとって興味深く、有用なものにするのに十分な例を知りません。だから私はいくつかの助けを探しています。

私の学生のレベルは微積分Iと微積分II前後です。彼らはガウスカーネルの評価方法がわからないため、標準法線の分散が定義で1であることを示すことできません。そのため、少し理論的または実践的な計算(超幾何分布、1Dランダムウォークのアークシンの法則など)は機能しません。「どうして」だけでなく、「なぜ」も理解できる例をいくつか紹介したいと思います。そうでなければ、私が脅迫によって私が言ったことを証明するかどうかはわかりません。


2
これは現状では少し広範で、あまり焦点が絞られていないようですが、「学部統計の実際のアプリケーション」には、QA形式には特に適していません。せいぜいそれは「大きなリスト」の質問です。(3)単独では広すぎて焦点が絞られていないかもしれないが、少し言い直しをする常連客である可能性があり、(4)もう少し焦点を合わせて十分に独立している可能性がある場合。(1)中心極限定理はまたはまたはで何が起こるかについて実際には何も教えていないため、いずれの場合も成功することはできません。これは有限サンプルの結果ではありません。n = 1000 n = 10 10n=100n=1000n=1010
Glen_b-2015

3
Berry-Esseenの定理(そのレベルでは教えないと思います)有限サンプルで使用できます。非公式には、もちろん、特定の分布のサンプル平均はサンプルサイズが大きくなるにつれてますます正常になりますが、CLTは実際にはそれについて何も述べていないため、「それが中心制限の定理である」とは言えません。さらに、正規分布に着実に近づいていることを示すには、一連のサンプルサイズが必要です。時間の経過とともに収集されるデータでのみ一般的な現実世界のデータ収集では(iidを想定している場合は、いくつかの問題が発生する可能性があります)。
Glen_b-2015

2
実際のデータがあります(実験からのデータ-やや人工的なものの場合)
-40000コイントス

1
サンプルサイズが増加する特定の状況でサンプルがどのように動作するかについて、それらを示すことができます。これは非常に便利です。それをCLTに帰属させることは厳密には正確ではありません。コイントスデータはそのために役立つ場合があります(データが同様に生成される場合と同様)。ただし、データを取得する前に、リンクにある情報を読むことをお勧めします。これは、データの重要な機能があるためです(これは、最初にデータを収集する動機でもあります)。
Glen_b-モニカを2015

1
あなたがリストするほとんどすべてのものの例は、Freedman、Pisani、およびPurvesなどの優れた導入統計テキストで提供されます。(私は、10米ドル未満で簡単に使用できる第3版にリンクしました。どの版でも問題ありません。最新版には、より最新の例が含まれている場合があります。)
whuber

回答:


1

R(http://www.r-project.org/)をインストールし、その例を使用して教えるのが良い方法です。コマンド「?t.test」などを使用して、Rのヘルプにアクセスできます。各ヘルプファイルの最後に例があります。たとえば、t.testの場合:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

ここに画像の説明を入力してください


1

サンプルサイズを事前に決定し、「十分なアンケートを送信したか」などの質問に対する回答を見つけるために、中心極限定理を適用することをお勧めします。

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdfは、中心極限定理を適用する方法の実例を示しています。教訓的な戦略は:

A)理論

*サンプリング分布と推定値の分布の違いを明確にします。たとえば、ダイスを転がす「フラットな」分布とN個のダイスの平均の分布を比較します(Rを使用するか、生徒がExcelの描画で自分で遊んでもよいようにします)値の分布と平均の分布)

*平均の分布のパーセンタイルの数式ベースの計算を表示します(数学に精通しているので、数式を導出する必要があるかもしれません)-この点は、上記のプレゼンテーションのスライド10から17に対応します

次に(上記のプレゼンテーションのスライド20のように):

B)アプリケーション

*中心極限定理が、平均の推定における望ましい正確さの標本サイズを決定するのにどのように役立つかを示します。

このアプリケーションB)は、私の経験において、非統計家が統計家に期待することです-「十分なデータがありますか?」というタイプの質問に答えます。


1

あなたはCSの学生を指導しているので、中心極限定理の優れたアプリケーションは、大規模なデータセット(つまり、1億を超えるレコード)から平均を推定することです。データセット全体の平均を計算する必要はなく、データセットからサンプリングし、サンプル平均を使用してデータセット/データベース全体から平均を推定する必要があることを示すことは有益かもしれません。サブグループごとに値が大幅に異なるデータセットを必要とする場合は、これをさらに一歩進めることができます。次に、学生に層別サンプリングを探索させて、より正確な推定値を取得できます。

繰り返しになりますが、CSの学生がいるため、ブートストラップを行って信頼区間を取得したり、より複雑な統計の分散を推定したりすることもできます。私の意見では、これは統計とコンピュータの良い交差点であり、主題へのより大きな関心につながる可能性があります。


1

コメントを入力することから始めましたが、長くなりすぎました...

彼らはCSの学生であることを覚えておいてください。数学者(代数を使用)または生物学者、医師(生物学的データまたは医療データ、および古き良き帰無仮説をテストするための古典的なレシピ)を満足させるような方法でそれらを満足させることはありません。講義の方向性を決定するための十分な自由があれば、彼らが基本的な概念を学ぶことがポイントであれば、私のアドバイスは、方向性を根本的に変えることです。もちろん、他の教師がいくつかの事前定義されたタスクを実行できるようにしたい場合、あなたは少し行き詰まっています。σ

したがって、私の意見では、「学習」の観点から推論を提示し、「決定理論」または「分類」の観点からテストを提示すると、彼らはそれを気に入ってくれるでしょう。アルゴリズムが好きです。アルゴリズムを理解するために!

また、CS関連のデータセットを見つけてみてください。たとえば、htmlサーバーへの接続時間と単位時間あたりのリクエスト数は、多くの概念を説明するのに役立ちます。

彼らはシミュレーション技術を学ぶのが大好きです。Lehmerジェネレーターは実装が簡単です。累積分布関数を反転して他の分布をシミュレートする方法を説明します。これに夢中なら、MarsagliaのZigguratアルゴリズムを見せてください。ああ、そしてMarsagliaによるMWC256ジェネレーターはちょっとした逸品です。MarsagliaによるDiehardテスト(均一ジェネレーターの公平性のテスト)は、確率と統計の多くの概念を示すのに役立ちます。「ランダムなダブル、出力、つまり実数の(独立した)ストリーム」に基づく確率理論を提示することもできます-これは少し生意気ですが、壮大なこともあります。

また、ページランクはマルコフ連鎖に基づいていることに注意してください。これは簡単なことではありませんが、アーサーエンゲルのプレゼンテーションに従ってください(参照は確率論的なそろばんだと思います-フランス語を読むなら、この本は絶対に読むべきです)、好きなおもちゃの例を簡単にいくつか紹介できます。 。CS科学の学生は、より困難な資料のように思われる場合でも、検定よりも離散マルコフチェーンを好むと思います(エンゲルのプレゼンテーションによって非常に簡単になります)。t

あなたが十分にあなたの主題を習得したら、独創的であることを躊躇しないでください。「古典的な」講義は、あなたが完全に精通していない何かを教えるときに大丈夫です。頑張ってください。講義ノートをリリースした場合はお知らせください。


1

これはコンピューターサイエンスの学生だそうです。彼らの興味は何ですか?これは主に理論的なコンピューターサイエンスですか?それとも学生は主に就職の準備によって動機付けられていますか?コースの説明を教えてください。

しかし、これらの質問に対する答えが何であれ、(たとえば)Webデザインなどの情報学のコンテキストで発生するいくつかの実用的な統計から始めることができます。このサイトには時々、コンバージョン率/stats/96853/comparing-sales-person-conversion-ratesABコンバージョン率以外の他の要素のテストなど、これについて時々質問があります

これらのような多くの質問がここにあります、一見ウェブデザインに関わる人々からのようです。状況は、Webページがある(たとえば、何かを販売している)場合です。「コンバージョン率」とは、私が理解しているように、何らかの優先的なタスク(購入、または訪問者のその他の目標など)に進む訪問者の割合です。次に、Webデザイナーとして、ページのレイアウトがこの動作に影響を与えるかどうかを尋ねます。したがって、Webページの2つ以上のバージョンをプログラムし、新しい顧客に提示するバージョンをランダムに選択し、コンバージョン率を比較して、最後にコンバージョン率が最も高いバージョンを実装することを選択できます。

これは比較実験の計画の問題であり、パーセンテージを比較するための統計的手法が必要です。あるいは、計画と変換/変換なしの分割表を直接比較する必要があるかもしれません。この例は、統計がWeb開発の仕事で実際に役立つことを示すことができます。そして、統計的な側面から、それは仮定の妥当性についての多くの興味深い質問に開きます...

中心極限定理についてあなたが言うことに接続するには、パーセンテージを正規分布として扱う前に必要な観測数を尋ね、シミュレーションを使用してそれらを調査させることができます...

このサイトで、プログラマータイプが提起する統計に関するその他の質問を検索できます...


-2

良い例の前に、明確な定義に焦点を当てた方がよいことをお勧めします。私の経験では、学部の確率と統計は、どの学生も理解できない言葉で満たされたコースです。実験として、確率コースを終了したばかりの学生に「ランダム変数」とは何かを尋ねます。彼らはあなたに例を与えるかもしれませんが、ほとんどがあなたにそれの明確な定義を与えるとは思えません。「確率」とは正確には何ですか?「配布」とは何ですか?統計の用語はさらに混乱します。私が見たほとんどの学部の本はこれを説明するので非常に悪い仕事をしています。例と計算はすばらしいですが、明確な定義がなければ、思ったほど役に立ちません。私の経験から言えば、これがまさに学部生として確率論を嫌っていた理由です。私の興味は可能な限り確率から外されていますが、結局私はすべての用語が実際に何を意味するのかを自分で学んだので、私はこの主題に感謝します。申し訳ありませんが、これはあなたが尋ねたとおりのことではありませんが、そのようなクラスを教えていることを考えると、これは有用なアドバイスになると思いました。


1
私が同意するかどうかはわかりません-少なくともほとんどの場合、すべての場合ではそうではありません。一部の人にとっては、あなたが示唆するように、特定の例への適用の前に概念の理解が行われる場合がありますが、他の学生にとっては、概念の理解(特に複雑なトピックの場合)は、特に明快な例を使用することによってのみ生じる場合があります。
jsakaluk 2015年

私は大学生の頃、一般的に大学院の数学を読んで問題を解決するのにそれほど困難を感じていませんでした。私は自分が何をしていて、何をしなければならないかを知っていました。確率論、つまり統計は、私が学んでいた主題よりも「簡単」です。しかし、私は自分が何をしているのか、なぜ自分がしなければならないのかを知りませんでした。教科書自体は私にとって全く役に立たなかった。それらを読んだ後、私は語彙を本当に理解しませんでした。確かに、計算はできますが、結局のところ、それを空の主題として見ました。私がこのような混乱を経験した場合は、特に、数学に傾倒していない学生もそうです。
Nicolas Bourbaki 2015年

5
これは、CS専攻に応用統計を教えるよりも、純粋に数学の学位で非常に優秀な学生に教えるのに、より役立つアドバイスになるのではないかと思います。
Silverfish 2015年

@Silverfish私のアドバイスが数学の学生にのみ適用されるかどうかはわかりません。理論に踏み込むことなく、測定理論の言語を開発し、その中で確率がどのように表現されるかを示すことができます。これは、基本的な計算とまったく同じです。ほとんどの本は少なくとも用語を定義していますが、それらはそれらの理論には入りません。統計が確率の逆問題であり、たとえば、確率変数の期待値に近似しているため平均を「気にかける」ことを生徒が理解した場合、生徒はそれをはるかに高く評価するでしょう。
Nicolas Bourbaki、2015
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.