「分散」を直感的に理解する


81

分散の概念を誰かに説明する最もクリーンで簡単な方法は何ですか?それは直感的に何を意味しますか?子供にこれを説明する場合、どうすればいいでしょうか?

特に、分散をリスクに関連付ける場合、明確に表現するのが難しいという概念です。私はそれを数学的に理解し、そのように説明することもできます。しかし、現実世界の現象を説明するとき、分散を理解するにはどうすればよいのでしょうか。いわば「現実世界」での分散性の適用可能性です。

乱数を使用して株への投資をシミュレートしているとしましょう(サイコロを転がすか、Excelシートを使用するかは重要ではありません)。ランダム変数の各インスタンスをリターンの「何らかの変化」に関連付けることにより、「投資収益率」が得られます。例えば。:

1を振るということは、投資の1 ドルあたり0.8の変化、5は1 ドルあたり1.1の変化などを意味します。

このシミュレーションを約50回(または20または100)実行すると、いくつかの値と投資の最終値が得られます。それでは、上記のデータセットから「分散」を計算する場合、実際には何がわかりますか?「見る」もの-分散が1.7654または0.88765または5.2342であることが判明した場合、これはどういう意味ですか?この投資について何を観察しましたか?私はどんな結論を引き出すことができますか-素人の言葉で。

標準偏差の質問も自由に追加してください!私は理解するのが「簡単」だと感じていますが、それを「直感的に」明確にするのに役立つ何かが大歓迎です!


3
この質問を昨年質問されたものと統合すべきではないでしょうか?
whuberの

1
@whuberこれらはマージされるべきだと思います。同じコンテキストを数回繰り返すと(ここで文脈が異なっていても)、回答の平均的な質が低下します。
ロビンジラード

2
私はそれがマージされても大丈夫ですが、分散を計算する方法を知っており、統計でも使用しています。私は、この概念について何も知らない人にこの概念を明確に伝えたいと思っており、そうするのに長い時間がかかります。意図は、SD、IMHO
PhD

2
レイマンが理解できる方法でこれに答えるあなたの誰も非常に良い仕事をしているとは思わない。私は多くの仮定がなされ、ほとんどすべての答えが解釈される必要がある何かで終わっているのを見ます。私は文句を言っているのではなく、ただそれを指摘しようとしています。私も質問に単純に答えることはできません。たぶんそれは難しいですか?

以下の質問の答えがここにあるとは思いません。私が解釈すると、質問は、それが大きいか小さいと見なされるとき、数としての分散に関するものです。たとえば、以下の一番上の回答は、大きな変動と小さな変動の意味を説明しています。合理的に視覚化できないデータセットを提供し、数値に依存する必要がある場合、分散が大きいか小さいかをどのように確認できますか?
user31415

回答:


70

おそらく、バイアスと分散の概念を導入するときに「素人」に与えることを学んだのと同様の類似性、つまりダーツボードの類似性を使用するでしょう。下記参照:

ここに画像の説明を入力してください

上記の特定の画像は、Encyclopedia of Machine Learningからのものであり、画像内の参照はMooreとMcCabeの「Introduction to the Practice of Statistics」です。

編集:

これはかなり直感的だと思うエクササイズです。一組のカードを(箱から出して)取り出し、デッキを約1フィートの高さから落とします。子供にカードを受け取って返却するように頼みます。次に、デッキを落とす代わりに、できる限り高く投げて、カードを地面に落とします。子供にカードを受け取って返却するように頼みます。

2回のトライアルで彼らが持っている相対的な楽しみは、彼らに直感的な違いを感じさせるはずです:)


1
それでは、「意味」とは何ですか?誰かがボード上のダーツの統計的変動を見たら、彼らは何を結論づけますか?それは...言えば、直感的に低/高分散を持っているとはどういうこと
博士課程

1
私は次のようなことを言うでしょう:私たちが4本の投げ矢を投げたとしましょう。一度にすべてのダーツ位置が高くなる(の分散として増加ボードからダーツを除去するために必要な手の数は注意:非常にここに非公式の引数が、このような3本のダーツが一緒にグループ化されているときのように反例の数、および最後のダーツがあるとしてダーボードから3フィートの壁に)。

2
あなたの図は、精度と正確さを区別する古典的な方法にも共鳴しているようです!ただ当たった!
PhD

2
AAAAAAAAAAAH!いいエクササイズ!低/高分散を持つことの意味を誰かに示す良い方法です!データポイントの平均値(平均)からの平均距離:)
PhD

2
(+1)バイアスと分散の違いを示すダーツボードアナログは単純に素晴らしいです。
steffen

36

私は冗談で素人に統計を教えていましたが、彼らは多くを学んでいることがわかりました。

分散または標準偏差について、次のジョークが非常に有用であると仮定します。

冗談で

高さ4フィートと5フィートの2人の統計学者が平均深さ3フィートの川を渡らなければなりません。一方、3人目の統計学者がやって来て、「あなたは何を待っていますか?あなたは簡単に川を渡ることができます」と言いました。

私は素人が「平均」用語について知っていると仮定しています。この状況で川を渡るのと同じ質問をすることもできますか?

「状況で何をすべきか」を決定するための「分散」である彼らが何が欠けているのですか?

プレゼンテーションスキルがすべてです。しかし、ジョークは統計を理解したい素人にとって大いに役立ちます。私はそれが役立つことを願っています!


1
たぶん私は統計的なジョークが得意ではありません(他の人にかなり得意です:)。しかし、「状況で何をすべきか」が何を意味するのか理解できないと思いますか?彼らが分散の考えを持っているならば、「正確に」何をすべきでしょうか?どのように解釈する必要がありますか?
博士号

6
@Nupul:実際、「状況で何をすべきか」とは、彼らが川を渡るかどうかを意味しますか?分散(またはSD)がわかっている場合は、簡単に決定できます。分散が0.25(SD = 0.5)の場合、間隔の範囲(これを信頼区間(CI)と混同しないでください)が3 + 0.5または3-0.5であり、高さが4および5であるため、安全に川を渡ることができます。川を渡らない方が4です。ところで、ここでジョークを楽しんでくださいstats.stackexchange.com/questions/1337/statistics-jokes
Biostat

パーフェクト!わかった!:)それは理にかなっています。実際、さまざまな人々からの回答を組み合わせることで、理解をよりよく
PhD

または、サメが「平均して」人々を食べない場合、彼らが非常に機嫌が悪い場合(それは非常に多様な行動)、それは少し快適です。川の例えで言えば、あなたが頭をおおうような一歩を踏み出すかどうかです。
ディーンラドクリフ

12

分散ではなく標準偏差に焦点を当てます。分散のスケールが間違っています。

平均が典型的な値であるように、SDは平均との典型的な(絶対的な)差です。平均で分布を折り返し、その平均を取ることと同じです。


1
同意した。SDに焦点を当てるとしましょう。私の質問は、「高いSDは良くないと思われる」以外にSDを直感的に理解させる方法に関するものです...それは分散の平方根なので、どうすればSDを一般人に説明できますか!!!
PhD

@Nupul-2番目の段落を読んでください:SDを平均との典型的な違いとして説明します。
カール

4
「分布を平均で折り返し、その平均を取ることと同じです。」そのコメントは、他の投稿と同様に、標準偏差ではなく平均絶対偏差を説明しているようです。
マクロ

3
@Macro-はい。SDを説明しようとすると、MADで近似します。二乗平均平方根と平均絶対値をめぐり合ってはいけないと思います。
カール

7

分散を純粋に拡散と考えるように人々に主張する多くの回答に同意しません。賢い人々(Nassim Taleb)が指摘したように、人々が分散を拡散と考えるとき、それは単にMADであると仮定します。

分散は、メンバーが平均からどれだけ離れているかの説明であり、この同じ距離によって各観測の重要性を判断します。これは、遠くの観測がより重要に判断されることを意味します。したがって、正方形。

連続的な一様変数の分散は最も簡単に想像できると思います。各観測には、正方形を描画できます。これらの正方形を積み重ねると、ピラミッドが作成されます。ピラミッドを半分に切り、重さの半分が一方に、半分がもう一方にくるようにします。カットする面は分散です。


2
この答えがなぜそれ以上支持されなかったのか、私にはわかりません。2番目の段落で述べたポイントは、分散を理解し、それをMADと区別するために重要です。また、二乗を数学的に理解していなくても、平均からのポイントの距離に与えられる重みが線形に増加しないという考えを理解することは、素人以上のことではありません。
ジェレミーラドクリフ

3
「MAD」= 不思議な人のためのen.wikipedia.org/wiki/Median_absolute_deviation このような頭字語は、このような質問に関する知識と見なされるべきではないと思います。

5

たぶんこれが役立つかもしれません。私は完全なアマチュアとして私がこれを間違えるかもしれないことを事前に謝罪します。

ゼリービーンズで満たされた瓶の中にいくつの豆があるかを正しく推測するように1000人に頼むことを想像してください。今、あなたは必ずしも正しい答えを知ることに興味があるとは限らないことを想像してください。

分散は、異なる回答の広がり(最高から最低へ)として一般人に説明できます。十分な人が質問される場合、正しい答えが与えられた「推定値」の広がりのどこかにあるはずであると付け加えることによって続けることができます。

私は今、より尊敬されている同僚の何人かを裁定のために参照します


5

私は座って分散を解決しようとしていましたが、最終的にそれをクリックして所定の位置に配置したのは、それをグラフィカルに見ることでした。

-7、-1、1、7の4点で数字の線を描き、Y次元に沿って同じ4点で仮想Y軸を描き、XYペアを使用して各ペアの正方形を描きます。ポイントの。それぞれ49、1、1、および49個の小さな正方形で構成される4つの独立した正方形で終わります。それらのそれぞれは、全体の平方和に寄与し、それ自体は、全体で100個の小さい正方形を持つ10 x 10の大きな正方形として表すことができます。

分散は、その大きな正方形に寄与する平均正方形のサイズです。49 + 1 + 49 + 1 = 100、100 / 4 =25。したがって、25が分散になります。標準偏差は、その平均正方形の1つの辺の長さ、つまり5です。

明らかに、このアナロジーは、分散の概念の完全なニュアンスをカバーしていません。単にnを使用するのではなく、n-1の分母を使用して母集団パラメーターを推定することが多い理由など、説明する必要があるものがたくさんあります。しかし、分散の詳細な理解の残りの部分を固定するための基本的な概念として、単にそれを引き出して、それを見ることができるのを非常に助けました。分散が平均からの平均二乗偏差であると言うときに意味を理解するのに役立ちます。また、SDがその平均とどのような関係にあるのかを理解するのにも役立ちます。


1
クロスバリデーションへようこそ!私はこのアプローチが好きですが、ポイントがゼロの周りに広がっている(つまり、平均がゼロである)ことを強調しておくとさらに便利かもしれません。(+1)そして、あなたからのさらなる回答を楽しみにしています!
マットクラウス

4

標準偏差と標準偏差について素人に教える多くの練習をします。

TL; DR; それは、平均からの距離の平均のようなものです。(このような簡潔なバージョンでは少し混乱し誤解を招く恐れがあります。記事全体を読んでください)

私は素人が平均について知っていると思います。SDを把握し、エラーを推定することの重要性について説明します(以下のPSを参照)。それから私は、高度な数学や神聖な統計の知識は使わないことを約束します-単なるドライな推論と純粋な論理。

  1. 問題。温度計があるとしましょう(聴覚に近いものに応じて測定デバイスを選択します)。

    同じ温度をN回測定した結果、温度計は36.5、35.9、37.0、36.6などを示しました(写真を参照)。実際の温度は同じであったことはわかっていますが、温度計は測定ごとに少しずつ異なります。

    この小さなスカムがどれだけ私たちにあるかをどのように推定できますか?

    平均を計算できます(下図の赤い線を参照)。信じられますか?平均化した後でも、ニーズに十分な精度がありますか?

    温度計の値とその平均

  2. 最も簡単なアプローチ。最も遠い点を取り、その点と平均値(赤い線)の間の距離を計算しこれが温度計の位置だと言うことができます。推測できるかもしれませんが、最良の推定ではありません。写真を見ると、ほとんどのポイントは平均値付近にありますが、1ポイントだけでどのように決定できますか 実際には、そのような推定が粗く、通常は悪い理由で番号付けの理由を実践できます。

  3. 分散。その後...すべての距離を取り、平均距離を計算ましょう!

    (xix¯)x¯xi

    次に、平均距離の式がすべてを合計し、Nで割ると想像できます。

    (xix¯)N

    しかし問題がある。簡単に見ることができます。36.4と36.8は36.6から同じ距離にあります。しかし、上記の式に値を入れると、-0.2と+0.2が得られ、それらの合計は0になりますが、これは望んでいるものではありません。

    サインを取り除く方法は?(この時点で、素人は通常「絶対値をとる」と言い、「絶対値をとるのは少し人工的だ、もう一つの方法は何か?」という提案を得る)。値を二乗できます!次に、式は次のようになります。

    (xix¯)2N

    この式は、統計では「分散」と呼ばれます。そして、最大距離をとるよりも、温度計(またはその他)の値の広がりを推定する方がはるかに適切です。

  4. °C2°F2

    (xix¯)2N

    σ

この時点で、素人は非常に明確に、ここに到達する方法と標準偏差/分散がどのように機能するかを理解します。この時点から、私は通常68〜95〜99.7のルールに進み、サンプリングと母集団、標準誤差と標準偏差の項などについても説明します。

PSトークの例を知ることの重要性:

1 000 000 ドルの測定装置があるとしましょう。そして、それはあなたに答えを与えます:42。あなたは42のために1 000 000 ドルを支払ったと思いますか?プーイ!その答えの精度に対して1000 000を支払った。なぜなら、価値-エラーを知らなくても費用はかかりません。値ではなく、エラーに対して支払います。ここに良い人生の例があります。

日常生活では、ほとんどの場合、定規を使用して距離を測定します。ルーラーは、約1ミリメートルの精度を提供します(米国にいない場合)。ミリメートルを超えて、0.1mmの精度で何かを測定する必要がある場合はどうなりますか?-おそらくキャリパーを使用します。今では、最も安い定規(まだミリ単位の精度)の価格はセントで、優れたキャリパーの価格は10分の1であることを確認するのは簡単です。1桁の精度に対して2桁の価格。そして、それはあなたがエラーに対して支払う金額の非常に一般的です。


2

分散と標準偏差の両方を説明するときに使用する重要なフレーズは「広がりの尺度」だと思います。最も基本的な言語では、分散と標準偏差は、データがどれだけうまく分散しているかを示します。もう少し正確にするために、彼らはまだ素人に取り組んでいますが、データが平均の周りにどれだけうまく広がっているかを教えてくれます。ちなみに、平均は「位置の尺度」であることに注意してください。素人への説明を締めくくるために、標準偏差は作業しているデータと同じ単位で表され、分散の平方根を取るのはこのためであることを強調する必要があります。つまり、2つはリンクされています。

簡単な説明でうまくいくと思います。とにかく、入門的な教科書の説明に多少似ているでしょう。



-2

私はそれを全体的な平均からの平均的な正の差と呼びます。


1
2種類の「平均」を明確にするまで、最初の1つはL2平均、2番目のものは算術平均です)、文が間違っていると解釈されることはほぼ確実です。さらに、「正の差」という用語は奇妙で曖昧です。正の残差のみを考慮するという意味ですか?または、残差の絶対値を取得するには?または、他の何か?
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.