10代未満で10代の仮説検定を説明する方法は?


18

1年以上の間、私は1時間の「統計の味」クラスを提供してきました。子どもたちの異なるグループが来るたびに、私は彼らにクラスを与えます。

クラスのテーマは、コカコーラを飲むのが好きな10人の子供にコカコーラとペプシの2つの(マークのない)カップを与える実験を実行することです。子供たちは、味と香りに基づいて、どのカップにコカコーラ飲料が入っているかを検出するように求められます。

次に、子供たちが推測しているのかどうか、または(少なくとも少なくとも十分な)子供たちが違いを味わう能力を本当に持っているかどうかを判断する方法を説明する必要があります。10回の成功のうち10回で十分ですか?10のうち7はどうですか?

このクラスを数十回(さまざまなバリエーションで)行った後でも、ほとんどのクラスがそれを取得する方法で概念を理解する方法がわからないと感じています。

仮説検定、帰無仮説、対立仮説、棄却域などの概念を、シンプルな(!)直感的な方法で説明する方法についてアイデアがあれば、その方法を知りたいと思います。


1
「理由」について考えると、「方法」をよりよく理解できるので、stats.stackexchange.com / questions / 6966
ティム

5
(+1)10分間の定義によって異なります!
枢機

1
数週間前、stats.stackexchange.com / a / 130772で、この質問(または少なくとも1つの非常によく似た質問)に答えるショットを撮りました。そのスレッドはこのスレッドの複製ではありませんか?
whuber

1
@cardinal-文字通り10分を意味します。このタイプのトピック、およびバックグラウンドのない人のために-これは非常に短い時間です。---------------親愛なるwhuber-私はあなたの答えが大好きでしたが、確率と密度と面積の関係を知っている学生には素晴らしいでしょう。これらは生徒に教える概念ですが、高校生には教えません。私は彼らに仮説検定を完全に理解してもらいたくはありませんが、各棄却地域が何を意味するのかを決定する際に彼らがそれについて感じ得るように十分にそれを維持します。
タルガリリ

4
明確にしてくれてありがとう、タル。あなたはまだ他のスレッドがあなたの質問の複製であることを示しているようですが、あなたはそこに適切な答えを見ていません。あなたの質問とそれを区別する良い方法は、あなたがコメントでし始めたように、博覧会のレベルと聴衆が知っていると仮定できることに関する特定の要件を提供することです。
whuber

回答:


10

まず、コカコーラとペプシの違いを伝えることができる人について、彼らが本当に言っていることを彼らに考えていることを彼らに尋ねることから始めるべきだと思います。そのような人は他の人ができないことを何ができますか?

それらのほとんどは、そのような定義を持たず、尋ねられた場合、定義を作成できません。ただし、そのフレーズの意味は、統計が私たちに与えるものであり、それがあなたの「統計の好み」クラスでもたらすことができるものです。

統計の要点の1つは、「コカコーラとペプシの違いを伝えることができると誰かに言うのはどういうことですか」という質問に正確に答えることです。

答えは次のとおりです。彼または彼女は、ブラインドテストでカップを分類する推測マシンよりも優れています。推測マシンは違いを判断できず、常に推測します。推測マシンは、能力がないことがわかっているため、私たちにとって有用な発明です。推測マシンの結果は、テストする能力に欠ける人に期待すべきことを示すので便利です。

人がコカ・コーラとペプシの違いを判断できるかどうかをテストするには、ブラインドテストでのカップの分類を推測マシンが行う分類と比較する必要があります。推測マシンよりも優れている場合にのみ、違いを伝えることができます。

それでは、ある結果が別の結果よりも優れているかどうかをどのように判断しますか?それらがほぼ同じ場合はどうなりますか?

2人が少数のカップを分類する場合、結果がほぼ同じであれば、一方が他方より優れていると言うのは本当に公平ではありません。おそらく今日勝者はたまたま運が良かったのに、明日競争が繰り返された場合、結果は逆転したでしょうか?

信頼できる結果を得るには、少数の分類に基づくことはできません。なぜなら、チャンスが結果を決定できるからです。能力を得るために完璧である必要はなく、推測マシンよりも優れていればよいことを忘れないでください。実際、分類の数が少なすぎると、常にコカコーラを正しく識別している人でさえ、推測マシンよりも優れていることを示すことができません。たとえば、分類するカップが1つしかない場合、推測マシンでも50%の確率で完全に正しいと分類されます。それは良いことではありません。なぜなら、試行の50%で、良いコカコーラ識別子は推測マシンよりも優れていないと誤って結論付けるからです。非常に不公平です。

分類するカップが多いほど、推測マシンの能力が明らかになる機会が多くなり、優れたコカコーラ識別子が自慢できる機会が増えます。

開始するのに適した場所は10カップです。人間は、マシンよりも優れていることを示すために、どれだけ多くの正しい答えが必要ですか

彼らに何を推測するか尋ねてください。

それから、彼らに機械を使って、それがどれほど良いかを調べさせます。つまり、すべての生徒に一連の10の推測を生成させます。スマートフォンでサイコロまたはランダムジェネレーターを使用します。教育的であるためには、一連の10の正解を準備する必要があります。これらの正解は、推測の評価対象となります。

ボードにすべての結果を記録します。ソートされた結果をボードに印刷します。統計学者がコカコーラとペプシの違いを見分ける能力を認める前に、人間はそれらの結果の95%以上でなければならないことを説明します。95%の最悪の結果と上位5%の結果を分ける線を引きます。

次に、数人の生徒に10個のカップの分類を試みます。今では、生徒は、違いを伝えることができることを証明するために必要な権利の数を知っているはずです。

しかし、これはすべて10分では実際には実行できません。


2
ハンスありがとう。私はいくつかの理由であなたの答えが好きです。1)テーブルに新しいアイデアをもたらすのは、「子供たちに推測マシンと競わせる」ためです。私は考えが頭をよぎったと認めますが、あなたの答えは帰無仮説p = .5の理論的分布と競合させるよりもうまくいくかもしれないという私の意見を強化します。2)あなたはそれを理解しているので、すべてのあなたは:) 10分でなんとかして提案してい
タルGalili

2
タルに感謝します。a)推測マシンは理論上の分布よりもはるかに直感的だと思います。b)仮説検定に10分以上を割いていただければ幸いです。
ハンスエクブランド

なぜ95%ですか?
マークL.ストーン

2

ソーダを使った作業は楽しいように思えます。仮説テストの合理的な知識があれば、10代の若者が実際にソーダの違いを見分けることができるかどうかのテストは意味があります。問題は、この質問:「実際にソーダの違いを教えてもらえますか?」「ソーダのテストが上手で誰が下手なのか」、「実際にソーダに違いはありますか」など、10代の人たちの心の中にある他の多くのものによって複雑になっています。

私は十代の若者たちの統計を教えたことはありませんが、私は常にロードされたダイ、またはバイアスのかかったコインの使用について空想しています。死にますが、統計的にはより挑戦的です。コインの例では、コインは公平であるか、公平ではありません。コインを弾くのは得意ではありません。頭か尾かを決めることはできません。

100ドルを勝ち取った人のためにコインを投げると、それが頭に浮かぶ(あなたが勝つ!)と言うかもしれません。あなたは「そうですか?それを証明してください」と言います。かなり明白な解決策は、コインを何度もひっくり返して、テールよりもヘッドが多くなるかどうかを確認することです。私たちはそれをひっくり返し、頭に浮かび上がります。「アハハ!私は言う。シー!頭に向かって偏っている!」等々。

バイアスのかかった良いコインは存在しませんが、バイアスのかかったサイコロは存在します。Amazonで購入できます。生徒がいくつかのロールを獲得できる場合、生徒に賞品を提供できます。しかし、あなたはあなたが勝つことを知っています。彼らは怒ります。このダイがバイアスされていることを証明できれば、たとえば95%の自信を持って賞品を差し上げます。

次に、ソーダに移動します。賞品はソーダパーティーになることもあります。「ねえ、君たちはコークスとペプシの違いを見分けることができるのかしら...」


6
コインを弾くのは得意ではありません。」-ペルシディアコニスのフリップヘッドを自由に見たことがあると思います。
Glen_b -Reinstateモニカ

ハ。今、私はそれを上手にしようとするつもりです!
tim.farkas

1
Diaconisは統計学者および魔術師です。ユーチューブで彼がそれをデモンストレーションするビデオがあります(彼が望む時に頭をひっくり返す)。
Glen_b -Reinstateモニカ

こんにちはティム。あなたは良い点をもたらしますが、彼らは私の質問に直接対処しません。生徒が10個のテストのうちx個を正しく取得した場合(テストは好みに基づいて適切なブランドを選択します)-なぜ、その決定を行うのに良い/悪いと判断したのかを説明できますか?
タルGalili

ここでも、コインフリッピングを使用できます。彼らが単一の味をしてそれを正しくするなら、それはあまり説得力がありません。コインをひっくり返すと、それは50%の時間で「正しい」はずです!2回正しく取得した場合、偶然それを取得する確率は、2つの頭を反転するのと同じです= .5 * .5 = .25。3回連続で.125、4は.0625、5は.0313です。あなたが望む自信のレベルを選択する必要があります。50%で十分ですか?25%はどうですか?R.フィッシャーは、95%確かに十分であると言います、そして、それは多くの科学者が使用するものです。これは技術的にサインテストと呼ばれます。下記参照。
tim.farkas

2

ショットガンでターゲットの練習をしている人を考えてみましょう。ショットガンは、銃身の方向にペレットのバーストを発射します。

帰無仮説:私はシューティングが上手で、銃身は完全に目標を達成しています。左ではなく、右ではなく、まっすぐに。私のエラーは0です。

対立仮説:私はシューティングが苦手で、銃身が標的から外れています。ターゲットのちょうど左または右。私のエラーはe> 0またはe <0です。

すべての測定には特定の平均誤差(標準誤差)があるため、まっすぐに撮影していても、「オフターゲット」という測定が可能です。悪いシューターと呼ばれ、代替仮説を選択する前に、ターゲットを「ヒット」しないようにする必要があります(各ショットがバースト/スプレッドであっても)。


1
CVへようこそ。あなたの説明をヌルと代替案に関連付けることができますか?おそらく、追加の議論がこれらの動機付けに役立つかもしれません。また、この説明が当てはまらないいくつかのヌルと代替案もあります。これは、どの種類の仮説が適切な説明であるかを言及する必要がある場合があります(例えば、ポイントヌル、両側)
Glen_b -Reinstate Monica

1

子供たちは違いを見分けることができないと仮定し、偶然に決定します。その後、各子供は50%の確率で正しく推測します。そのため、この場合、5人の子供が正しくそれを行い、5人の子供がエラーを起こすと予想します(期待値)。もちろん、偶然ですが、6人の子供がエラーを起こし、4人の子供がそれを正しくすることも可能です。反対側では、たとえ子供たちが違いを伝えることができたとしても、たまたまそれらの1つが間違っている可能性があります。

直観的には、子供たちが偶然に推測した場合、すべての子供たちが正しい答えを与えることはむしろありそうもないことは明らかです。この場合、子供たちは実際に両方の飲み物の違いを味わうことができるとむしろ信じるでしょう。言い換えれば、ありそうもない出来事が観察されることを期待していません。そのため、50〜50のスキャナリオでは起こりそうにないイベントを観察した場合、このシナリオは誤りであり、子供たちはコーラとペプシを区別できると考えています。

αα0.00098αα=0.05

P(all kids guess it right)=0.00098P(only one kid confuses Coke with Pepsi)=0.01074P(only two kids confuse)=0.05468

これは、実験を行う瞬間です。2番目のエラーの後で停止できると計算した場合でも、10人の生徒全員で徹底的に実行します。次に、結果を記録して保存します。メタ分析を説明する場合は、結果が必要になります。

(ちなみに、歴史的な例は、ミルクまたはお茶がカップに最初に注がれた場合の試飲についてです。お茶の試飲女性。)



0

女性の試飲コークスの実験が示すように、コークスの試飲の子供たちは仮説検定を導入する良い例です。ただし、これらの実験の評価は、帰無仮説がp = 0.5の2項分布を含み、簡単ではないため、あまり直感的ではありません。

仮説検定の通常の紹介では、二項分布の全成功事例のみを使用してこの欠点を克服しようとしています。その確率は二項確率を知らない人でもp ^ nとして計算できます。

私のお気に入りの例では、焼き栗が好きで、露店で一握りを買います。栗の10%に虫穴がある大きな袋から来るので割引価格で手に入れます-ここでは、私の握りの栗が栗のランダムなサンプルになるように袋がよく混ざっていることを明確にしようとします袋に入れて、ベンダーの声明は、すべての栗がワームホールを持っているの10%の独立した確率を持っていることを意味します

ローストした栗を楽しみ始めたら、それらを一つずつ取り、食べる前に虫穴がないかチェックします。

最初の栗を確認すると、ワームホールがあり、ベンダーが私に嘘をついたのではないかと思います-ここで、それが私の帰無仮説p = 10%と対立仮説p> 10%を設定していることを説明し、それらを黒板に。悪い栗を1つ取り出したときにp = 10%だと疑う理由はありますか?まあ、同じ実験を行っている人の10%は同じ結果を得るので、運が悪かったと思うことができます。

それから、私は2番目の栗を取ります、そして、それはワーム穴も持っています。ベンダーが私に嘘をついていない場合、2つのうち2つは1%の確率です。非常に不運だったかもしれませんが、ベンダーについて非常に疑わしく思います。

3番目の栗にも虫穴があります。ベンダーが公正でp = 10%であると仮定すると、3つのうち3つの栗をワームで取得することは不可能ではありませんが、可能性は非常に低いでしょう(確率= 0.1%)。そのため、今ではベンダーの仕事を疑う強い理由があり、苦情を申し立てて返金を求めています。

もちろん、この種の連続したテストにはいくつかの理論上の問題がありますが、仮説テストのアイデアを示すことは重要ではありません。実際、この例でカバーされていない最も重要なアイデアは、仮説テストで、結果の確率またはそれより悪いものを計算することです-私の例では、これは最悪の結果を得るだけで回避されました。

私は大学の新入生でこの例を数回使用しました-まだ技術的にはティーンエイジャーですが、若いティーンエイジャーでもうまくいくと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.