分散の測定が中心性よりも直感的でないのはなぜですか?


11

私たちの人間の理解には、分散の概念を直感的に把握するのを困難にする何かがあるようです。狭い意味では、答えはすぐにわかります。二乗することは、私たちを反射的な理解から遠ざけます。しかし、問題を提起するのは単なる分散なのか、それともデータを拡散するという全体の考えなのか?範囲内に避難を求める、または単に最小値と最大値を示しますが、本当の困難を回避しているだけですか?平均(モードまたは中央値)では、中心、要約...簡略化を見つけます。分散は物事を分散させ、それらを不快にします。原始人は確かに祈りに三角測量することによって動物の狩猟に平均を利用しますが、物事の広がりを定量化する必要性を感じたのはずっと後であったと思います。実際、「分散」という用語は、1918年に「メンデルの継承の仮定に関する親族間の相関関係」で最近ロナルドフィッシャーによって最初に導入されました。

ニュースに従うほとんどの人は、ハーバード大学からの離脱に関連している可能性がある、性別による数学の適性に関するラリーサマーズの不幸なスピーチの話を聞いたことでしょう。一言で言えば、両方の性別が同じ平均を享受していたとしても、彼は女性と比較して男性の間の数学能力の分布においてより広い差異を提案しました。適切性や政治的影響に関係なく、これは科学文献で実証されているようです。

さらに重要なのは、おそらく気候変動のような問題の理解-議論を完全に呼び起こさない可能性のあるトピックを持ち出したことを許してください-一般の人々による分散の考え方への親しみの向上によって助けられるでしょう。

この投稿示されているように、共分散を把握しようとすると、問題はさらに複雑になりますここでは、@ whuberによる素晴らしいカラフルな回答を取り上げています

あまりにも一般的なように、この質問を却下したくてもよいが、我々がのように、間接的にそれを議論していることは明らかであるこのポスト数学はつまらないです、まだ概念は、とらえどころのないことのより快適な受け入れbelyingを続けている範囲などをより微妙なアイデアの分散とは対照的です。

EBFordへフィッシャーからの手紙メンデルの実験で彼の疑惑をめぐる論争を参照し、私たちを読む:「データが偽造されていた時に今、私は非常によく、人々が広いチャンス偏差の頻度を過小評価する方法を一般的に知っているように、傾向は常に彼らが期待に非常によく同意するようにすることです... [メンデルのデータにおける]偏差は驚くほど小さいです。」偉大なRAフィッシャーは、小さなサンプルの小さな差異を疑うことに熱心で、彼は次のように書いています。

そして、この過小評価または誤解の広がりに対する偏見が今日も続く可能性は十分にあります。もしそうなら、なぜ分散よりも中心性の概念の方が快適であるかについての説明はありますか?アイデアを内面化するためにできることはありますか?

eiπ+1=0E=mc2

ナシムタレブは、分散の欠陥のある理解の彼の(まあ、本当にブノワマンデルブロの)認識を危機の時期の悪用に適用して運命を作り、「分散の分散は認識論的に、 、平均の知識の欠如についての知識の欠如の尺度」-はい、この一口にはより多くの文脈があります...そして彼の功績として、感謝祭のトルコのアイデアでそれをより簡単にしました。投資の鍵は、分散(および共分散)を理解することだと主張する人もいます。

それで、なぜそれはとても滑りやすいのですか、そしてそれをどのように修正するのですか?公式なし...不確実性を扱う長年の直感だけ...答えはわかりませんが、それは数学的なものではありません(必ずしもそうです)。次のプロットでは、2つのヒストグラムがほぼ同じ分散でオーバーラップしています。それでも、私のひざの反応は、テールが最も長く、ピークが最も高い(尖度が高い)方が「広がっている」というものです。


2
分散が二乗されているために、分散を理解するのは難しいと思います。人々は平均絶対偏差にそれほど多くの困難を抱えているようには見えません。(私は通常、たとえば、標準偏差まで作業するためにそのアイデアを使用します。)
ガン-モニカを元に戻す

学んだことを学ぶのは難しいですが、タイトルの前提が正しいかどうかはわかりません。たとえば、範囲を含む差異は、いくつかの点で、平均や中央値などの要約よりも直感的に見えます。アカウントは異なります。しかし、平均は古典的な数学で発生しますが、データを要約するためのその使用法は、17世紀頃までにゆっくりと苦痛にしか現れませんでした。
Nick Cox

1
これに対する答えが問題に必ずしも関連しない詳細に流用されないことを期待して-この質問は、分散自体(平方の議論が関連する可能性がある)または分散のより一般的な概念についての詳細ですか?(分散、広がり、変動-それはそうではありません)?[私はまた、他の人々の比較的直感的な感覚について本当に一般化できる範囲についても疑問に思います]
Glen_b -Reinstate Monica 2015

後者。私はそれを明確にすべきです。質問全体についてはわかりません。閉じてください。
Antoni Parellada 2015年

@Antoniなぜ閉じたいのですか?どちらの形式も良い質問です。答えが異なるだけです。
Glen_b-2015

回答:


9

分散が直感的ではないという意見を共有します。さらに重要なことに、メジャーとしての分散は特定の分布に対して最適化されており、非対称分布にはあまり価値がありません。平均からの平均絶対差は、中心傾向の尺度として平均を選択する必要があるため、私の見解ではそれほど直感的ではありません。私はジニの平均差---すべての観測値のペアの平均絶対差を好みます。直感的で、堅牢で、効率的です。効率については、データがガウス分布からのものである場合、適切な再スケーリング係数が適用されたGiniの平均差は、サンプルの標準偏差と同じ0.98です。データがソートされると、Giniの平均差の効率的な計算式があります。Rコードは以下です。

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))

分散を強調しすぎる傾向がありますか?私はここ
Antoni Parellada 2015年

1
これは、分散の有効な尺度です。あなたがその定義が好きなら、それは何も過度に強調しません。
フランクハレル2015年

もちろんです。私はあなたの投稿を学ぶ機会と捉え、私のコメントは私の興味を示す方法でした。私はそれについてもっと読む必要があります。ありがとうございました!
Antoni Parellada 2015年

1
ベクトルxがすでにソートされている場合のみ。
フランクハレル2015年

4

これが私の考えの一部です。それはあなたがあなたの質問を見ることができるすべての角度に対処するわけではありません、実際、それが対処しない多くがあります(質問は少し広いと感じます)。

一般の人が分散の数学的計算を理解するのが難しいのはなぜですか?

分散とは、本質的に物事がどのように広がっているかです。これは簡単に理解できますが、計算方法は一般の人には直感に反するように見えるかもしれません。

問題は、平均との差が二乗され(その後平均化され)、平方根が標準偏差を取得することです。この方法が必要な理由理解しています。平方とは値を正にすることであり、次に平方根をとって元の単位を取得します。しかし、素人は数が平方され、平方根である理由と混同される可能性があります。これはそれ自体をキャンセルするようです(キャンセルしない)ので、無意味/奇妙に見えます。

彼らにとってより直感的であるのは、平均と各ポイントの間の絶対差(平均絶対偏差と呼ばれる)を単純に平均することによって、スプレッドを見つけることです。この方法は、二乗や平方根を必要としないため、はるかに直感的です。

平均絶対偏差がより単純であるからといって、それが「より良い」という意味ではないことに注意してください。SquaresとAbsoluteのどちらの値を使用するかについての議論は、多くの著名な統計学者を巻き込んで1世紀にわたって続いてきたため、私のようなランダムな人はここに現れて1つだけ良いとは言えません。(分散を見つけるために正方形を平均することはもちろんより一般的です)

一言で言えば、分散を見つけるための二乗は、絶対差の平均化がより簡単であると考える一般の人にとって直感的ではないようです。しかし、私は人々がそれ自体を広めるという考えを理解することに問題を抱えているとは思いません


3
二乗の効果を指摘するための+1。しかし、問題はスプレッドを測定するための実際の数学的構造を超えていると思います。それはより根本的な脳幹レベルにあります-中心から離れると自然に感じられません。中心点です。
Antoni Parellada、2015年

ああ、なるほど。それが「スプレッド」なのか、スプレッドを特定する特定の数学的な方法なのかはわかりませんでした。前者についてはお役に立てないと思います。個人的には、スプレッドの概念を理解する上でそれほど問題はないと思います...
Yang Li

私がやります。私は不確実性の程度を理解するのに多くの問題を抱えています。不確実性の大部分は、すぐに分散の結果です。なぜか分かりません。
Antoni Parellada 2015年

3

ここであなたの質問に対する私の意見を述べます。

まず、上記の回答に疑問を投げかけ、私の主張を述べます。

以前の仮説への質問:

それは本当に正方形が二乗平均偏差などの分散測定を理解することを難しくしているのですか?正方形は数学的な複雑さをもたらすことによって困難にすることに同意しますが、答えが正方形だけだった場合、平均絶対偏差は理解しやすく、中心性を測定するのと同じくらい簡単になります。

意見:

バラツキの目安がわかりにくいのは、バラツキ自体が二次元的な情報だからだと思います。2次元情報を1つのメトリックに要約しようとすると、情報部分的に失われ、結果として混乱が生じます。

例:

上記の概念の説明に役立つ例は次のとおりです。2つの異なるデータセットを取得します。

  1. ガウス分布に従う
  2. 未知の非対称分布を追跡します

また、標準偏差による分散が1.0であるとします。

私の心は、セット1の分散をセット2の分散よりもはるかに明確に解釈する傾向があります。この特定のケースでは、分布の2次元形状を事前に知っていることで理解が深まる理由が説明されます。集中ガウス平均の周りの確率の項。言い換えると、ガウス分布は、分散の測定からより適切に変換するために必要な2次元のヒントを私に与えました。

結論:

要するに、2次元の情報にあるすべてを1つの偏差測定でキャプチャする具体的な方法はありません。分布そのものを直接見ずに分散を理解するために私が通常行うことは、特定の分布を説明する多くの測定を組み合わせることです。彼らは、私の心が分散測定自体をよりよく理解するためのコンテキストを設定します。グラフを活用できれば、ボックスプロットは視覚化に非常に役立ちます。

この問題についてよく考えさせられた素晴らしい議論。ご意見をお待ちしております。


1
よく考え抜かれた反応+1。他に検討する価値のある理由がおそらく他にあると思うことを除いて、追加するものは本当にありません。
Yang Li

1

ばらつき(標準偏差、MADなど)に苦しむ人々がいる単純な理由は、中心の概念を理解するまで、ばらつきを本当に理解できないためだと思います。これは、変動の測定値がすべて中心からの距離に基づいて測定されるためです。

平均や中央値などの概念は並行概念です。どちらかを最初に学習することができ、一部の人々は一方をよりよく理解し、他の人々は他をよりよく理解するかもしれません。ただし、広がりは中心から測定されるため(中心の定義によっては)、最初に実際に理解することはできません。


+1それは非常に理にかなっています-それは二次的な概念です...
アントニパラレッダ2015年

@Greg Snow:正しくないことを除いて; 中心からの偏差を測定しないジニ平均フランクハレルスの答えとの違いを参照してください。
kjetil b halvorsen 2016
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.