難しい統計概念について、あなたのお気に入りの素人の説明は何ですか?


36

複雑な問題の簡単な説明を聞くのは本当に楽しいです。難しい統計概念を説明するお気に入りのアナロジーや逸話は何ですか?

私のお気に入りは、酔っぱらいと彼女の犬を使用した共和分についてのマレーの説明です。マレーは、2つのランダムプロセス(さまよえる酔っ払いと彼女の犬、オリバー)がどのように単位根を持つことができるかを説明します。

酔っぱらいはバーから出発し、ランダムウォーク形式であてもなくさまよう。しかし、彼女は定期的に「オリバー、どこにいるの?」と口調を変え、オリバーは彼の目的のない樹皮へのさまようことを中断します。彼は彼女を聞いた。彼女は彼の声を聞きます。彼は、「ああ、私は彼女をあまりにも遠くに行かせることはできません。彼女は私を締め出すでしょう。「ああ、私は彼にあまりにも遠くまで行かせることはできない。彼は夜中に彼のbarえ声で私を起こすだろう」と彼女は考えます。それぞれが、相手がどれだけ離れているかを評価し、そのギャップを部分的に閉じるように動きます。

回答:


18

p値は、データが恥ずかしさが帰無仮説に対してどの程度かを示す尺度です。

ニコラス・マクスウェル、データの問題:ランダムな世界の概念統計エメリービルCA:キーカレッジパブリッシング、2004年。


15
  1. 分布(ヒストグラム)を木から切り取り、指でバランスをとろうとすると、分布の形状に関係なくバランスポイントが平均になります。

  2. 散布図の真ん中にスティックを置き、スプリングで各データポイントにスティックを取り付けた場合、スティックの静止点は回帰線になります。[1]

[1]これは、技術的には主成分回帰です。ばねを強制的に「垂直」方向に移動させて最小二乗にする必要がありますが、この例はどちらの方法でも示しています。


2
バネ力は変形に比例するため、これは最小二乗回帰ではありません!
みすぼらしいシェフ

1
よい試み!春に依存します。たとえば、バネ定数が1 / sigmaの場合、素晴らしい効果があります;)
ニールマクギガン

2
いいえ、いいえ、ポイントは、静的平衡では、力の合計がゼロになるということです。ばね定数が等しいと仮定すると、絶対偏差の合計、つまり最小二乗ではなく回帰を最小化することになります。これは、スプリングがスティック上で自由に浮動する必要があるという事実を無視するため、変形が完全にy方向にならないように移動し、主成分適合のようなものになりますが、絶対誤差が生じます。L1y
みすぼらしいシェフ

@shabbychef:変形に比例するバネ力は、バネのエネルギーが変形の2乗に比例することを意味します。ばねエネルギーは、実際、平衡状態で最小化されるものです。力の合計がゼロであることは、力またはが最小化されていないことです。 L 1は絶対値の合計を最小化します。L1L1
-wnoise

12

前に酔っぱらいの散歩をランダムウォークに使用し、酔っ払いと彼女の犬を共和分に使用しました。彼らは非常に役に立ちます(おもしろいからです)。

私のお気に入りの一般的な例の1つは、誕生日のパラドックスウィキペディアエントリ)です。これは、確率の重要な概念を示しています。これは、人でいっぱいの部屋でシミュレートできます。

ちなみに、統計概念を教える創造的な方法の例については、Andrew Gelmanの「Teaching Statistics:A Bag of Tricks」を強くお勧めします(目次を参照)。また、彼が統計を教えることについて教えるコースについての彼の論文を見てください:「大学レベルでの統計を教えることに関するコース」。そして、「政治学、社会学、公衆衛生、教育、経済学の大学院生にベイズを教える」など

ベイジアン手法を説明するために、不公平なコインを使用してそれを複数回裏返すことは、かなり一般的/効果的なアプローチです。


1
不公平なコインのようなものはありません:stat.columbia.edu/~gelman/research/published/diceRev2.pdf
ティム

11

「クラス内」の演習を通じて、サンプリングの変動と本質的に中央極限定理を示したいと思います。約100人の生徒のクラスの全員が自分の年齢を紙に書きます。すべての紙は同じサイズであり、平均を計算した後は同じように折りたたまれています。これが人口であり、平均年齢を計算します。その後、各生徒はランダムに10枚の紙を選択し、年齢を書き留めてバッグに戻します。(S)平均を計算し、バッグを次の生徒に渡します。最終的には、10人の学生の100個のサンプルがあり、それぞれが平均値を推定します。これは、ヒストグラムといくつかの記述統計を通じて説明できます。

その後、最近の世論調査からいくつかの「はい/いいえ」の質問を再現する100の「意見」のセ​​ットを使用して今回のデモを繰り返します。学生はこれらの意見のうち10個をサンプリングします。

最後に、連続データとバイナリデータの両方を使用したサンプリング変動、中央極限定理などを示しました。


10

間違いなくモンティホール問題。http://en.wikipedia.org/wiki/Monty_Hall_problem


1
+1を読んで考えたとき、その問題は私の脳をひねりました。そして、解決策は非常に簡単ですが、確率について多くを教えています。
シャーピー

1
モンティホールの問題は、単純な素人の確率の説明以外の何物でもないと思います。私はそれを理解していますが、それでも頭を包み込むのは困難です。それを統計以外の人に説明し、そこから何かを学ぶように十分に理解することはもちろんです...とにかく、問題が発生するかどうかを指定しませんあなたの難しい概念、またはあなたの素人の説明です。あなたがするまで-1。
-naught101

2
Monty Hallの問題を説明する簡単な方法は、同じ問題を想像することですが、1000個のドアがあります-それらのうち999個が背後にヤギを持ち、そのうち1個だけが背後に車を持っています。ドアを選択すると、ゲームショーのホストが他の998個のドアを開き、開いていない1個のドアに決定を変更するかどうかを尋ねます。彼が後ろの車でドアを開けることができなかったことを知って、あなたは他のドアに切り替える必要があります(または、あなたが最初の選択で正しかったと信じられないほど自信があります)。
バーク

10

1)特定のイベントの確率を計算するために、「ランダム」をどのように定義する必要があるかを示す優れたデモ:

円を横切って描かれたランダムな線が半径より長くなる可能性は何ですか?

質問は、ラインをどのように描くかによって完全に異なります。地面に描かれた円について現実世界で説明できる可能性には、次のものがあります。

円の中に2つのランダムな点を描き、それらを通る線を引きます。(2つのハエ/石が落ちる場所を参照してください...)

円周上の固定点を選択してから、円のどこかでランダムな点を選択し、それらを結合します。(実際には、これは、特定のポイントとランダムなポイント(たとえば、石が落ちる場所)を介して可変角度で円を横切るスティックです。)

直径を描きます。ランダムに沿って点を選択し、その点を通る垂線を描きます。(スティックが円を描くようにまっすぐに回転させます。)

何らかのジオメトリ(ただし必ずしも統計ではありません)を実行できる人を表示するのは比較的簡単です。質問に対する答えは非常に大きく異なります(約2/3から約0.866程度)。

(1210

3)医学的診断が本当に欠陥があるように見える理由を説明する。病気fooの検査は、99.9%の精度でそれを持っている人を特定しますが、.1%が実際にそれを持たない人を偽陽性と診断するのは、病気の有病率が本当に低い場合、本当に間違っているようです例:1000人に1人)が、多くの患者が検査を受けています。

これは実数で最もよく説明されるものです-100万人が検査されると想像してください そのため、高いレベルの精度(99.9%)と低いレベルの誤検知(0.1%)にもかかわらず、実際に持っていると言われている人の半分はそうではありません。次に、2番目の(理想的には異なる)テストでこれらのグループを分離します。

[ちなみに、数字を選択したのは、取り扱いが簡単だからです。もちろん、精度/偽陽性率はテストの独立した要素であるため、合計を100%に増やす必要はありません。]


2
あなたの最初の例は、バートランドのパラドックスに関するものだと思います。確率空間を定義するさまざまな方法の非常に素晴らしいイラスト!
chl

9

サム・サベージの著書 『Flaw of Averages』には、統計概念に関する素人のわかりやすい説明が満載です。特に、彼はジェンセンの不平等について良い説明をしています。投資収益率のグラフが凸型の場合、つまり「微笑む」場合、ランダム性が有利です。平均収益率は平均収益率よりも高くなります。



6

Beharらは、統計を教えるための25の類推のコレクションを持っています。以下に2つの例を示します。

2.9すべてのモデルは理論的です: 宇宙には完全な球体はない宇宙で最も一般的な幾何学的形態は球体であるように見えます。しかし、宇宙にはいくつの数学的に完全な球体がありますか?答えはありません。地球も太陽もビリヤードボールも完全な球体ではありません。したがって、真の球体がない場合、球体の面積または体積を確認するための公式はどのようなものですか?したがって、一般的な統計モデル、特に正規分布を使用します。最も一般的な例の1つは高さの分布ですが、地球上のすべての大人の高さを自由に使用できるようにすると、データが性別で階層化されていなくても、ヒストグラムプロファイルはガウスのベル曲線に対応しません。人種、またはその他の特性。

2.25残差には情報を含めないでください:ゴミ袋残差は、データからすべての情報を削除した後に残るものです。それらは情報を運んではならないので、それらを「ゴミ」と見なします。価値(情報)を持ち、従属変数の動作をよりよく説明するために悪用できるゴミを捨てないようにする必要があります。

その他の例

  • 「処理の比較に対するサンプルサイズの効果:双眼鏡の拡大」
  • 「サンプルサイズと人口のサイズ:スープを味わうためのスプーン」

参照資料

  • Behar、R.、Grima、P。、およびMarco-Almagro、L。(2012)。統計的概念を説明するための25の類推。アメリカの統計学者(受け入れられたばかり)。

3

楽しい質問。

誰かが私が生物統計学で働いていることを知り、彼らは私に(基本的に)「統計は嘘をついているだけの方法ではないか?」と尋ねました。

(Lies、Damn Lies、StatisticsについてのMark Twainの引用を取り戻します。)

統計では、仮定とデータを考慮して、そのような確率がまさにそのようなものであると、100パーセントの精度で言うことができると説明しようとしました。

彼女は感動しませんでした。


1
「100%の精度で、正確さの欠如がどれだけ大きいかを言うことができます」
-naught101

完全な反論ではない場合、@ Jeromyの答えは、「100%精度」という概念を廃棄すべき理由を示唆しています。
rolando2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.