なぜ標準偏差の絶対値を取るのではなく、差を二乗するのですか?


408

標準偏差の定義で、平均(E)を取得し、最後に平方根を取り戻すために、平均との差を2乗する必要があるのはなぜですか?代わりに、単に差の絶対値を取得し、それらの期待値(平均)を取得することはできませんか?また、データの変動も表示されませんか?数値は二乗法とは異なります(絶対値法は小さくなります)が、データの広がりを示す必要があります。この正方形のアプローチを標準として採用している理由は誰にもわかりますか?

標準偏差の定義:

σ=E[(Xμ)2].

代わりに絶対値を取得し、それでも適切な測定値を取得することはできませんか?

σ=E[|Xμ|]


25
ある意味では、あなたが提案した測定は、エラー(モデル品質)分析の場合に広く使用されています。それは、MAE、「平均絶対誤差」と呼ばれます。

8
回答を受け入れる際に、回答が円形であるかどうかに注意を払うことが重要です。正規分布は、誤差項の2乗からの分散のこれらの測定に基づいていますが、それ自体は(XM)^ 2 over | XM |を使用する正当化ではありません。
ラッセルピアス

2
標準という用語は、これが今日の標準であることを意味すると思いますか?主成分が二次的ではなく「主成分」である理由を尋ねるのは好きではありませんか?
ロビンジラール

51
これまでに提供されたすべての答えは円形です。それらは、数学的な計算の容易さ(素晴らしいですが、決して基本的ではありません)またはガウス(正規)分布とOLSの特性に焦点を当てています。約1800ガウス最小二乗と分散から始まり、それらから得られた正規分布から-円形性があります。まだ答えられていない真に根本的な理由は、中央極限定理の分散が果たすユニークな役割です。もう1つは、2次損失を最小化する決定理論における重要性です。
whuber

2
Talebは、標準偏差の廃止と平均絶対偏差の使用についてEdge.orgで主張しています。
アレックスホルコム

回答:


188

標準偏差の目的が対称データセットの広がりを要約することである場合(つまり、一般に各データムが平均からどれだけ離れているか)、その広がりを測定する方法を定義する適切な方法が必要です。

二乗の利点は次のとおりです。

  • 二乗は常に正の値を与えるため、合計はゼロにはなりません。
  • 平方は、大きな違いを強調します。これは、良い点と悪い点の両方が判明する機能です(外れ値の影響を考えてください)。

ただし、平方にはスプレッドの尺度として問題があります。つまり、ユニットはすべて平方されますが、スプレッドは元のデータと同じ単位にすることをお勧めします(平方ポンド、平方ドル、リンゴの平方など) 。したがって、平方根により元の単位に戻ることができます。

絶対差はデータの広がりに等しい重みを割り当てるのに対し、二乗は極端を強調すると言うことができると思います。技術的には、他の人が指摘しているように、二乗は代数の操作をはるかに簡単にし、絶対的な方法ではないプロパティを提供します(たとえば、分散は分布の二乗から期待値の二乗を引いた値に等しくなります)分布の平均)

ただし、「スプレッド」を表示する方法の好みであれば、絶対的な差をとることができない理由はないことに注意することが重要です(値の魔法のしきい値として5%を見る人の並べ替え、実際に状況に依存する場合)。実際、スプレッドを測定するためのいくつかの競合する方法が実際にあります。p

私の見解は、それが統計のピタゴラスの定理にどのように関係するのかを考えるのが好きなので、2乗値を使用することです: …これは、独立したランダム変数で作業するとき、分散が追加され、標準偏差は追加されません。しかし、それは私の個人的な主観的な好みであり、主に記憶補助としてのみ使用します。この段落は無視してください。c=a2+b2

より詳細な分析については、こちらをご覧ください


72
「二乗は常に正の値を与えるため、合計はゼロにはなりません。」絶対値も同様です。
ロビンジラール

32
@robin girard:それは正しいので、なぜその点の前に「二乗することの利点が含まれている」のかを説明します。私はその声明の絶対値について何も意味していませんでした。ただし、他の人が不明瞭だと感じた場合は削除/言い換えることを検討します。
トニーブライアル

15
堅牢な統計の分野の多くは、データの広がりの尺度として分散を選択した結果である外れ値に対する過度の感度に対処する試みです(技術的にスケールまたは分散)。en.wikipedia.org/wiki/Robust_statistics
ティラコレオ

5
答えにリンクされている記事は、神の送信です。
traggatmot

1
ピタゴラスについての段落はスポットライトだと思います。エラーは次元のベクトルと考えることができますはサンプル数です。各次元のサイズは、そのサンプルの平均との差です。そのベクトル(ピタゴラス)の長さは、合計平方の根、つまり標準偏差です。、N [ X 1 - μ X 2 - μ X 3 - μ ]nn[(x1μ),(x2μ),(x3μ),...]
アルネ・ブラスール

138

差の2乗には、より優れた数学的特性があります。連続的に微分可能であり(最小化する場合に最適)、ガウス分布にとって十分な統計量であり、収束の証明などに役立つL2ノルム(のバージョン)です。

平均絶対偏差(提案する絶対値表記)も分散の尺度として使用されますが、2乗誤差ほど「行儀が良い」わけではありません。


2
「それは絶えず微分可能である(それを最小化したいときはいい)」と言ったのは、絶対値を最適化するのが難しいということですか?
ロビンギラード

29
@robin:絶対値関数はどこでも連続ですが、その1次導関数は(x = 0で)連続していません。これにより、分析の最適化がより困難になります。
ビンス

12
はい。ただし、単なるエラーの記述子ではなく、実際の数値を見つけることは、エラー損失の2乗のもとでは簡単です。1次元の場合を考えます。2乗誤差の最小化は、平均(O(n)操作と閉形式)で表すことができます。絶対誤差最小化器の値は中央値で表現できますが、中央値が何であるかを示す閉形式の解決策はありません。O(n log n)のようなものを見つけるには、並べ替えが必要です。最小二乗ソリューションは、単純なプラグアンドチャッグタイプの操作である傾向があり、絶対値ソリューションは通常、見つけるためにより多くの作業が必要です。
リッチ

5
@Rich:分散と中央値の両方を線形時間で見つけることができますが、もちろん高速ではありません。中央値はソートを必要としません。
ニールG


84

これについて考えることができる1つの方法は、標準偏差が「平均からの距離」に似ているということです。

これをユークリッド空間の距離と比較してください-これは、あなたが提案したもの(これは絶対偏差です)がマンハッタン距離の計算により近い真の距離を与えます。


17
ユークリッド空間のいい例え!
c4il

2
1次元でとノルムが同じであることを除けば、ではありませんか?l 2l1l2
-naught101

5
@ naught101:1次元ではなく、次元(はサンプル数)です。標準偏差と絶対偏差は、それぞれ2つのポイントと間の距離(スケーリング)およびですここで、は平均。n l 2 l 1x 1x 2x nμ μ μ μnnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
シュリーバツァー

1
これは、平均からの最小距離として変更する必要があります。それは本質的にピタゴラスの方程式です。
ジョン14年

56

理由我々はなく絶対誤差の標準偏差を計算し、我々がされていることである正規分布する誤差を想定します。モデルの一部です。

定規を使用して非常に短い長さを測定している場合、誤って負の長さを測定することは決してないことがわかっているため、標準偏差はエラーの悪い指標です。より良いメトリックは、ガンマ分布を測定に適合させるためのものです。

log(E(x))E(log(x))

標準偏差と同様に、これも負ではなく微分可能ですが、この問題に対するより良いエラー統計です。


3
あなたの答えが好きです。sdは常に最良の統計であるとは限りません。
RockScience

2
標準偏差が変動サイズを考える最良の方法ではない場合に関する優れた反例。
HBAR

あなたは正の指標を生成する量に反対の符号を持つべきではない-凸使用して代わりに、凹部の?log xlogxlogx
AS

@ASいいえ、すでに肯定的です。すべてのサンプルが等しい場合はゼロです。それ以外の場合、その大きさは変動を測定します。x
ニールG

あなたは間違っています。凹面のため。GE(g(X))g(E(X))g
AS

25

私が最も満足した答えは、サンプルをn次元ユークリッド空間に一般化することから自然に外れることです。それを行うべきかどうかは確かに議論の余地がありますが、いずれにせよ:

測定値はそれぞれ軸であると仮定します。次に、データがその空間に点定義します。ここで、データはすべて非常に類似していることに気付くかもしれません。そのため、定義された行にあるように制約される単一のロケーションパラメーターでそれらを表すことができます。このラインにデータポイントを投影すると、が得られ、投影ポイントから実際のデータポイントまでの距離は。X iはR、N 、X I、X μ X I = μ μ = ˉ X μ 1 nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

このアプローチにより、相関の幾何学的解釈も取得できます。ρ^=cos(x~,y~)


7
これは正しくて魅力的です。ただし、最終的には、実際に答えることなく質問を言い換えているだけです。つまり、なぜユークリッド(L2)距離を使用する必要があるのでしょうか。
whuber

20
@sesqu標準偏差は、1809年にガウスが開始点として絶対誤差ではなく二乗誤差を使用して彼の名義偏差を導き出すまで、当たり前になりませんでした。しかし、それらをトップに押し上げたのは(私が信じる)Galtonの回帰理論(あなたが暗示する)とANOVAの平方和を分解する能力でした-これはピタゴラスの定理の言い換えであり、関係はL2ノルム。したがって、SDはフィッシャーの1925年の「研究労働者のための統計的方法」で提唱された普及の自然なオムニバス尺度になり、85年後にここにいます。
whuber

13
(+1)@whuberの脈を続けて、1908年にスチューデントが「平均の可能性のあるエラー-おい、みんな、分母でMAEをチェックして!」統計は今までとはまったく異なる顔をしているでしょう もちろん、彼はそのような論文を発表しませんでした。もちろん、MAEにはS ^ 2の優れた特性がすべて備わっているわけではないので、できませんでした。それらの1つ(スチューデントに関連する)は、平均(通常の場合)の独立性です。これはもちろん直交性の修正であり、L2と内積に戻ります。

3
この答えは考えさせるものであり、私の好みの表示方法だと思います。1次元では、違いを二乗する方が良いと見なされる理由を理解するのは困難です。しかし、多次元(または2つだけ)では、ユークリッド距離(2乗)がマンハッタン距離(差の絶対値の合計)よりも望ましいことが簡単にわかります。
-thecity2

1
@whuber「Xᵢ=μで定義された線」の意味を説明してください。原点と点(μ、μ、...、μ)を通る線ですか?また、これについてどこでもっと読むことができますか?
アーチスタントン

18

平均との差を二乗することには、いくつかの理由があります。

  • 分散は偏差の2次モーメント(ここではRVは)として定義されているため、モーメントとしての2 乗は単純にランダム変数のより高いべき乗の期待値です。(xμ)

  • 絶対値関数ではなく正方形を使用すると、連続した微分可能な優れた関数が得られます(絶対値は0で微分できません)。これは、特に推定および回帰分析のコンテキストで自然な選択になります。

  • 自乗式も当然、正規分布のパラメーターから外れます。


17

(上記の優れたものに加えて)さらに別の理由は、標準偏差が絶対偏差よりも「効率的」であることを示したフィッシャー自身によるものです。ここで、効率的なのは、母集団からのさまざまなサンプリングで統計値がどの程度変動するかです。母集団が正規分布している場合、その母集団からのさまざまなサンプルの標準偏差は、平均して、互いに非常に類似した値を提供する傾向がありますが、絶対偏差は、より多くの数値を提供します。さて、これは明らかに理想的な状況ですが、この理由は多くの人を納得させたので(数学がよりクリーンであるため)、ほとんどの人は標準偏差で作業しました。


6
あなたの議論は、正規分布しているデータに依存します。私たちは「二重指数」分布を持つように人口を想定した場合、絶対偏差は、より効率的である(実際には、スケールのための十分統計量である)
probabilityislogic

7
はい、私が述べたように、「あなたの人口が正規分布している場合」。
エリックSuh

正規分布を仮定することに加えて、フィッシャー証明はエラーのない測定を仮定します。1%のような小さなエラーでは、状況が反転し、平均絶対偏差は標準偏差よりも効率的です
juanrga

14

人々が知っているように、同じトピックに関する数学オーバーフローの質問があります。

なぜ標準偏差の用語の平方数にクールなのか

テイクアウェイメッセージは、分散の平方根を使用すると簡単に計算できることです。上記のRichとReedからも同様の回答があります。


3
数式と値が特定のデータセットをより正確に反映するようにする場合、「簡単な数学」は必須の要件ではありません。とにかく、コンピューターはすべてのハードワークを行います。
ダンW

piを3.14として定義すると、数学が簡単になりますが、それではうまくいきません。
ジェームズ

13

分散は加算的です:独立したランダム変数場合、 X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

これが何を可能にするかに注目してください。フェアコインを900回投げるとしましょう。私が得るヘッドの数が440から455の間である確率は何ですか?ちょうどヘッドの予想数(見つける)、およびヘッド(の数の分散)、次に期待して正常(またはガウス)分布を有する確率を見つけると標準偏差との間でと。アブラハム・ド・モアブルは、18世紀にコイン投げでこれを行い、それによって最初に鐘形の曲線が何か価値があることを示しました。225 = 15 2 450 15 439.5 455.5450225=15245015439.5455.5


平均絶対偏差は、分散と同じように加法的ではありませんか?
ラッセルピアス

6
いいえ、そうではないです。
マイケルハーディ

10

単一の変数を超えて線形回帰を考えると、絶対偏差と平方偏差の使用の対比がより明確になると思います。http://en.wikipedia.org/wiki/Least_absolute_deviationsで、特に「最小二乗と最小絶対偏差の対比」セクションで素晴らしい議論があります。このセクションは、http:// wwwの適切なアプレットセットを使用した学生演習にリンクしています。.math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html

要約すると、最小絶対偏差は通常の最小二乗よりも外れ値に対してロバストですが、不安定になる可能性があり(単一のデータの小さな変化でもフィット線に大きな変化が生じる可能性があります)、常に一意のソリューションがあるわけではありません-全範囲の適合線。また、最小絶対偏差には反復法が必要ですが、通常の最小二乗法は単純な閉形式の解を持ちますが、もちろんガウスやルジャンドルの時代ほど大したことではありません。


「一意の解決策」の議論は非常に弱く、データによって適切にサポートされている値が複数あることを意味します。さらに、L2などの係数のペナルティは、一意性の問題と安定性の問題もある程度解決します。
確率論的

10

多くの理由があります。おそらく主なことは、正規分布のパラメーターとしてうまく機能することです。


4
同意する。標準偏差は、正規分布を仮定した場合の分散を測定する正しい方法です。そして、多くの分布と実際のデータはほぼ正常です。
ルカシュルー

2
「自然なパラメーター」と言うべきではないと思います。正規分布の自然なパラメーターは、平均精度と平均時間精度です。(en.wikipedia.org/wiki/Natural_parameter
ニールG

1
@NeilG良い点; ここで「カジュアル」の意味を考えていました。もっと良い言葉を考えます。

8

多くの点で、標準偏差を使用して分散を要約すると、結論に跳ね返ります。SDは、平均より上の距離と平均より上の距離の扱いが等しいため、暗黙的に対称分布を仮定していると言えます。SDを非統計学者に解釈するのは驚くほど困難です。Giniの平均差はより広い用途を持ち、非常に解釈しやすいと主張することができます。SDの使用が平均に対して行うように、中心傾向の尺度の選択を宣言する必要はありません。ジニの平均差は、2つの異なる観測値の平均絶対差です。堅牢で解釈しやすいことに加えて、分布が実際にガウス分布である場合、SDと同じ0.98の効率であることがあります。


2
ただ、ジニのフランクの提案@に追加する、素敵な紙がここにあります:projecteuclid.org/download/pdf_1/euclid.ss/1028905831それは分散の様々な施策を乗り越え、さらに有益な歴史的な視点を与えます。
トーマスシュ

1
私もこれらのアイデアが好きですが、分散(およびSD)のあまりよく知られていない並列定義があり、ロケーションパラメーターとしての平均を参照しません。ジニ平均差がすべてのペアワイズ差の絶対値に基づいているのと同様に、分散は値間のすべてのペアワイズ差の平均平方の半分です。
ニックコックス14年

7

分布の標準偏差を推定するには、距離を選択する必要があります。
次の距離のいずれかを使用できます。

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

通常、自然のユークリッド距離()を使用します。これは、誰もが日常生活で使用する距離です。提案する距離は、の距離です。 両方とも良い候補ですが、それらは異なります。n = 1n=2n=1

を使用することもできます。n=3

あなたが私の答えを好きになるかどうかはわかりませんが、他の人に反する私のポイントは、がより良いことを実証することではありません。分布の標準偏差を推定する場合、絶対に異なる距離を使用できると思います。n=2


6

「データの広がり」と言うときに何を話しているかによって異なります。私にとって、これは次の2つのことを意味します。

  1. サンプリング分布の幅
  2. 与えられた推定の精度

ポイント1)では、標準サンプリング分布を使用する場合を除いて、標準偏差をスプレッドの尺度として使用する特別な理由はありません。メジャーは、ラプラスサンプリング分布の場合、より適切なメジャーです。私の推測では、ポイント2)から引き継がれた直感のために、標準偏差がここで使用されます。おそらく、一般に最小二乗モデリングの成功によるもので、標準偏差が適切な尺度です。おそらく、計算することは、ほとんどの分布でを計算するよりも一般に簡単だからでしょう。E(|Xμ|)E(X2)E(|X|)

さて、ポイント2)には、分散の尺度として分散/標準偏差を使用する非常に正当な理由があります。後部のラプラス近似で見ることができます。データと事前情報を使用して、パラメーター事後を次のように記述します。DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

をダミー変数として使用して、分母が依存しないことを示しました。後部に単一の十分に丸められた最大値がある場合(つまり、「境界」に近すぎない場合)、最大値について対数確率をテイラー展開できます。テイラー展開の最初の2つの項を取得する場合(微分にプライムを使用):tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

しかし、ここではが「十分に丸められた」最大値であるため、次のようになります。θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

この近似を組み込むと、次のようになります。

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

ただし、表記法では正規分布であり、平均はに等しく、分散はE(θDI)θmax

V(θDI)[h(θmax)]1

(は常に正の値です。これは、最大値が十分に丸められているためです)。したがって、これは「通常の問題」(それらのほとんど)で、分散がの推定の精度を決定する基本量であることを意味します。したがって、大量のデータに基づいた推定値の場合、標準偏差は理論的には非常に理にかなっています。これは、基本的に知っておく必要のあるすべてのことを示しています。多次元の場合、本質的に同じ引数が(必要な同じ条件で)適用されますはヘッセ行列です。ここでも対角要素は本質的に分散です。h(θmax)θh(θ)jk=h(θ)θjθk

MLEはデータの重み付き組み合わせになる傾向があるため、最尤法を使用する頻度論者は本質的に同じ結論に達します。また、大規模なサンプルの場合、中央極限定理が適用され、、ただしと入れ替えた場合: (私が好むパラダイムを推測できるかどうかを確認してください:P)。どちらにしても、パラメータ推定では、標準偏差はスプレッドの重要な理論的尺度です。θ θの最大 P θ maxの | θ N θ [ - H "θの最大値] - 1p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

「絶対値を取る」のではなく「なぜ差を二乗する」のでしょうか?非常に正確に答えるために、それが採用された理由と、それらの理由のほとんどが成り立たない理由の事例を示す文献があります。「単純に絶対値を取得することはできません...?」。私は、答えがイエスであり、それが行われている文学を知っています。そうすることは有利であると主張されています。

著者のGorardは、最初に、正方形の使用は以前は計算の単純さの理由で採用されたが、それらの元の理由はもはや成り立たないと述べている。次に、Gorardは、OLSを使用した分析のサンプルの結果は、絶対差を使用した分析の偏差よりも小さい(大雑把に述べた)ため、OLSが採用されたと述べています。したがって、OLSにはいくつかの理想的な状況で利点があると思われます。しかし、Gorardは、実世界の状況(観測値の不均一な測定、不均一な分布、サンプルからの推論のない母集団の研究)では、平方を使用することは、絶対的な違い。

あなたの質問に対するゴラードの回答「代わりに単に差の絶対値を取り、それらの期待値(平均)を取得することはできませんか?」はい。別の利点は、違いを使用すると、人生でそれらのアイデアを経験する方法に関連する尺度(エラーと変動の尺度)が生成されることです。ゴラードは、レストランの請求書を均等に分割する人々を想像し、一部の人々はその方法が不公平であることに直感的に気付くかもしれないと言います。エラーを二乗する人はいません。違いがポイントです。

最後に、絶対差を使用して、各観測値を平等に処理しますが、対照的に、差を二乗することにより、観測値が十分に予測された観測値よりも重みが小さくなり、特定の観測値を複数回調査に含めることができるようになります 要約すると、彼の一般的な趣旨は、今日正方形を使用する多くの勝利の理由がなく、対照的に絶対差を使用することには利点があるということです。

参照:


1
@Jenに感謝します。これはQWERTYキーボードの歴史を思い出させます。ねえ、どうしてQWERTYを入力するのにそんなに時間がかかるの?
toto_tico

5

正方形は、絶対値よりも簡単に他の多くの数学演算または関数を使用できるためです。

例:正方形は積分、微分、三角関数、対数関数、その他の関数で簡単に使用できます。


2
ここに自己充足的な自己があるのだろうか。得られる
確率は

5

ランダム変数を追加すると、すべての分布に対してその分散が追加されます。分散(したがって標準偏差)は、ほぼすべての分布に役立つ尺度であり、ガウス分布(別名「正規」)分布に限定されるものではありません。これは、エラー測定として使用することを好みます。一意性の欠如は、絶対数の差を伴う深刻な問題です。多くの場合、等しい尺度の「適合」は無限にありますが、明らかに「中間の1つ」が最も現実的に好まれます。また、今日のコンピューターでも、計算効率が重要です。私は大規模なデータセットを使用していますが、CPU時間は重要です。ただし、以前の回答で指摘されているように、残差の絶対的な「最良」の測定値はありません。状況によっては、さまざまな手段が必要になる場合があります。


2
私は、分散が非対称分布に非常に役立つことを確信していません。
フランクハレル14年

一対の上向き、下向きの「半分散」はどうでしょうか?
kjetil bハルヴォルセン

3

当然のことながら、分布の分散を意味のある方法(絶対偏差、変位値など)で記述することができます。

1つの良い事実は、分散が2番目の中心モーメントであり、すべての分布が存在する場合、そのモーメントによって一意に記述されることです。別の良い事実は、分散が同等のメトリックよりも数学的にはるかに扱いやすいことです。もう1つの事実は、分散が通常のパラメーター化の正規分布の2つのパラメーターの1つであり、正規分布にはこれらの2つのパラメーターである2つの非ゼロ中心モーメントのみがあることです。非正規分布であっても、正規のフレームワークで考えることは役立ちます。

私が見るように、標準偏差が存在する理由は、アプリケーションでは分散の平方根が定期的に表示されるため(ランダム変数を標準化するなど)、名前が必要になるためです。


1
正しく思い出せば、対数正規分布はそのモーメントによって一意に定義されているのではないでしょうか。
確率論的

1
実際、@ probabilityislogicはtrueです。 「特性関数とモーメント生成関数」セクションのen.wikipedia.org/wiki/Log-normal_distributionを参照してください 。
kjetil bハルヴォルセン

1

別の、おそらくより直感的なアプローチは、線形回帰と中央値回帰を考えるときです。

モデルがます。その後、我々はminimisize予想二乗残差によってBを見つける。E(y|x)=xββ=argminbE(yxb)2

代わりにモデルがMedianである場合、絶対残差を最小化することでパラメーター推定値を見つけます。。(y|x)=xββ=argminbE|yxb|

つまり、絶対誤差を使用するか二乗誤差を使用するかは、期待値と中央値のどちらをモデル化するかによって異なります。

分布は、例えば、歪んだ不均一が表示される場合、その後に大きな差がある方の期待値の傾き上の変更傾きがためにどのように中央値の値。yxy

KoenkerとHallockには、クォンタイル回帰に関するすばらしい記事があります。ここで、中央値回帰は特別なケースです:http ://master272.com/finance/QR/QRJEP.pdf


0

私の推測では、これはほとんどの人口(分布)が平均値付近に集中する傾向があることです。値が平均から遠いほど、それはまれです。値がどの程度「アウトオブライン」であるかを適切に表現するには、平均からの距離とその(通常は)発生のまれさの両方を考慮する必要があります。これは、偏差の小さい値と比較して、平均との差を二乗することで行われます。すべての分散が平均化されたら、平方根を取得しても問題ありません。平方根は単位を元の次元に戻します。


2
これは、なぜ差の絶対値を取ることができないのかを説明しません。これは、ほとんどの統計101人の学生にとって概念的には簡単なように見え、「平均からの距離と、その発生の(通常話す)まれさの両方を考慮に入れます」。
GUNG

差の絶対値は平均からの差を表すだけで、大きな差が正規分布を二重に破壊するという事実を考慮しないと思います。
サミュエルベリー

2
なぜ「二重破壊的」が重要であり、「三重破壊的」または「四重破壊的」ではないのか?この回答は、元の質問を単に同等の質問に置き換えるだけのようです。
whuber

0

二乗は、より大きな偏差を増幅します。

サンプルの値がチャート全体にある場合、68.2%を最初の標準偏差内に収めるには、標準偏差を少し広くする必要があります。データがすべて平均を下回る傾向がある場合、σはより厳密になります。

計算を簡素化することだと言う人もいます。平方の正の平方根を使用すると、引数が浮動しないように解決できます。

|x|=x2

したがって、代数的単純さが目標であれば、次のようになります。

σ=E[(xμ)2]これはと同じ結果をもたらし。E[|xμ|]

明らかにこれを二乗すると、外れたエラーを増幅する効果もあります(doh!)。


処理したばかりのフラグに基づいて、ダウンボッターはこの回答が質問にどのように応答するかを完全に理解していないと思います。私はそのつながりを見ていると思います(ただし、他の読者があなたのポイントをよりよく理解できるように、いくつかの編集を検討することもできます)。ただし、最初の段落は、幾分循環的な議論であると思います:68.2%の値は標準偏差のプロパティから派生しているため、その数値を呼び出すと、他の偏差の代わりにSDを使用して正当化できます分布の広がりを定量化する方法としての平均から?Lp
whuber

最初の段落は、私のダウン投票の理由でした。
アレクシス14

3
@Preston Thayne:標準偏差はの期待値ではないためsqrt((x-mu)^2)、式は誤解を招く可能性があります。さらに、二乗に大きな偏差を増幅する効果があるからといって、これがMADよりも分散を優先する理由であることを意味するわけではありません。どちらかといえば、それは中立的な特性です。なぜなら、しばしばMADのようなより堅牢なものが必要だからです。最後に、分散MADより数学的に扱いやすいという事実は、この投稿で伝えたよりも数学的にはるかに深い問題です。
スティーブS 14

0

なぜ標準偏差の絶対値を取るのではなく、差を二乗するのですか?

自由度の平方根(母集団測定におけるxの数)に比例するユークリッド距離が分散の最適な測定であるため、xの平均との差を2乗します。

距離の計算

ポイント0からポイント5までの距離は?

  • 50=5
  • |05|=5および
  • 52=5

わかりました、それは単次元なので、それは些細なことです。

ポイント0、0からポイント3、4のポイントの距離はどうですか?

一度に1つの次元にしか移動できない場合(都市ブロックなど)、数値を加算するだけです。(これはマンハッタン距離と呼ばれることもあります)。

しかし、一度に2つの次元に進むのはどうでしょうか?次に(高校で学んだすべてのピタゴラスの定理により)、各次元の距離を2乗し、平方を合計し、平方根を取得して、原点から点までの距離を求めます。

32+42=25=5

0、0、0のポイントからポイント1、2、2までの距離はどうですか?

これだけ

12+22+22=9=3

これは、最初の2つのxの距離が、最後のxとの合計距離を計算するための区間を形成するためです。

x12+x222+x32=x12+x22+x32

次のように、各次元の距離の2乗の規則を拡張し続けることができます。これは、超次元空間での直交測定のために、ユークリッド距離と呼ばれるものに一般化されます。

distance=i=1nxi2

そして、直交二乗の合計は二乗距離です:

distance2=i=1nxi2

測定を別の測定に直交(または直角)にする理由は何ですか?条件は、2つの測定値の間に関係がないことです。これらの測定値が独立しており、個別に分散されるようにます(iid)。

分散

ここで、母集団の分散の式を思い出してください(そこから標準偏差を取得します)。

σ2=i=1n(xiμ)2n

平均値を差し引いてデータをすでに0にセンタリングしている場合、次のようになります。

σ2=i=1n(xi)2n

そのため、分散は、距離の2乗を自由度の数(変数が自由に変化する次元の数)で割ったものであることがわかります。これは、測定ごとのへの平均寄与でもあります。「平均平方分散」も適切な用語です。distance2

標準偏差

次に、標準偏差があります。これは、分散の平方根にすぎません。

σ=i=1n(xiμ)2n

これは同等に、距離を自由度の平方根で割ったものです:

σ=i=1n(xi)2n

平均絶対偏差

平均絶対偏差(MAD)は、マンハッタン距離、または平均との差の絶対値の合計を使用する分散の尺度です。

MAD=i=1n|xiμ|n

繰り返しますが、データが中心にあると仮定すると(平均が差し引かれます)、マンハッタン距離を測定数で除算します。

MAD=i=1n|xi|n

討論

  • 平均絶対偏差は、正規分布データセットの標準偏差のサイズの約0.8倍(実際には2/π)です。
  • 分布に関係なく、平均絶対偏差は標準偏差以下です。MADは、標準偏差と比較して、極端な値を持つデータセットの分散を過小評価しています。
  • 平均絶対偏差は外れ値に対してより堅牢です(つまり、外れ値は標準偏差ほど統計に大きな影響を与えません)。
  • 幾何学的に言えば、測定値が互いに直交していない場合(iid)-たとえば、正の相関がある場合、平均絶対偏差は、ユークリッド距離に依存する標準偏差よりも記述統計量が優れています(ただし、これは通常良好と見なされますが) )。

この表は、上記の情報をより簡潔に反映しています。

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

コメント:

「平均絶対偏差は、正規分布データセットの標準偏差のサイズの約0.8倍です」という参考文献はありますか?私が実行しているシミュレーションは、これが間違っていることを示しています。

標準正規分布からの100万サンプルの10のシミュレーションを次に示します。

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

結論

分散の尺度を計算するときは、ユークリッド距離を活用できるため、分散のより良い記述統計が得られるため、平方差を好みます。比較的極端な値がある場合、ユークリッド距離は統計でそれを考慮しますが、マンハッタン距離は各測定に等しい重みを与えます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.