平均絶対偏差と標準偏差


35

Greer(1983)による教科書「Oレベルの新しい包括的数学」では、平均偏差は次のように計算されています。

単一の値と平均値の絶対差を合計します。次に、その平均を取得します。この章では、平均偏差という用語が使用されています。

しかし最近、標準偏差という用語を使用するいくつかの参考文献を見てきました。

単一の値と平均値の差の二乗を計算します。次に、それらの平均値を取得し、最終的に回答のルートを取得します。

共通のデータセットで両方の方法を試しましたが、答えは異なります。私は統計学者ではありません。私の子供たちに逸脱を教えようとしていたとき、私は混乱しました。

要するに、標準偏差平均偏差という用語は同じですか、それとも私の古い教科書は間違っていますか?


2
2つの量は異なります。データの重み付けは異なります。標準偏差は大きくなり、値が大きいほど比較的影響を受けます。標準偏差(特に、n分母バージョン)は、2乗平均偏差と考えることができます。標準偏差がより一般的に使用されます。
-Glen_b-モニカを復活させる14

6
非常に密接に関連stats.stackexchange.com/questions/118/...を
whuber


1
ちなみに、人々が標準偏差を好む傾向がある理由の1つは、無関係なランダム変数の合計の分散が加算されるためです(関連する変数にも簡単な式があります)。それは平均偏差では起こりません。
グレン_b-モニカを復元

2
@Alexisのフレージングは​​貧弱でした。独立ランダム変数の場合、Var(X + Y)= Var(X)+ Var(Y)。この事実はあちこちで使われています(おなじみのnたとえば、1サンプルのt統計のように、平均を含む式を標準化するときの用語)。平均偏差に対応する一般的な事実はありません。
Glen_b -Reinstateモニカ

回答:


27

どちらも、観測値の平均の周りに値がどの程度広がっているかを答えます。

平均値の下で1である観測値は、平均値の上で1である値として、平均値から等しく「遠い」です。したがって、偏差の兆候を無視する必要があります。これは2つの方法で実行できます。

  • 偏差の絶対値を計算し、これらを合計します。

  • 偏差を二乗し、これらの二乗を合計します。平方のため、偏差が大きいほど重みが大きくなるため、これらの平方の合計は平均の合計とは異なります。

「絶対偏差の合計」または「平方偏差の合計の平方根」を計算した後、それらを平均して「平均偏差」と「標準偏差」をそれぞれ取得します。

平均偏差はめったに使用されません。


では、単に「偏差」と言うと、「標準偏差」を意味するのでしょうか?
itsols 14年

私は、上または下の1が一般人の視点からの意味のある「変化」または「分散」を示すことに同意します。しかし、それを二乗するとより大きな値が得られ、それは私の「実際の変化」ではないかもしれません。たぶん私は間違っているが、それは私がそれを見る方法です:/
itsols

ほとんどの場合、標準偏差(分散の平方根)という用語が使用されます。正方形の計算は、他の多くの計算を容易にするため、通常行われます。
キャスパー14年

1
@itsols技術的には、データセットに対して計算する偏差統計のタイプを常に指定する必要があります-偏差という単語自体は、単一のデータポイントの平均からの偏差を参照する必要があります(Kasperが回答で使用する方法で) )。
アメリアBR 14年

@itsols、アメリアに+1。実際、データセット統計を単なる「偏差」と言う人はいません。統計は、「平均絶対偏差」または「平均平方偏差の根」などです。
ttnphns 14年

15

現在、統計値は主にコンピュータープログラム(Excelなど)によって計算されており、携帯電卓では計算されていません。したがって、「平均偏差」を計算することは「標準偏差」を計算することより面倒ではないと仮定します。標準偏差には「...統計でより有用になる数学的特性」があるかもしれませんが、実際には、平均から離れたデータポイントに余分な重みを与えるため、平均からの分散の概念の歪みです。しばらく時間がかかるかもしれませんが、データポイント間の分布について議論するとき、統計学者が「平均偏差」をより頻繁に使用するように進化することを望みます。


あなたは(統計的に資格のある)人々がどのように「実際に考える」かについて特別な主張をする。それについてのあなたの情報源は何ですか?
whuber

7
情報源は、私だけでなく、このトピックについて質問した人々だけです。尋ねられたとき:このデータセットの変化をどのように想像しますか?応答は常に平均からの線形距離で表されました。応答には平方や平方根が含まれることはありませんでした。確かに、私はエンジニアであり、「統計学者」ではありませんが、このトピックに挑戦するよう他の人にお願いします。はい、標準偏差の数学が大好きです-それは楽しいですが、これは本当に平均からの偏差をどのように想像していますか?
andyl

2
目的によって異なります。データ探索では、中央値からの中央値の偏差など、堅牢でランクに基づいた分散の推定値を使用する傾向があります。しかし、他の多くの作業、特に統計的有意性の可能性を(精神的にも)評価し、適切なサンプルサイズを推定し、情報の価値を把握し、競合する統計手順を決定し、分散(したがって標準偏差)の観点から考える場合、不可欠です。数学が明確に示すように、平均偏差は代用ではありません。
whuber

1
この論文をご覧ください。
ピート

@Peteどうやってそこにたどり着きましたか?
Vicrobot

9

どちらも同じ概念を測定しますが、等しくありません。

あなたは比較しています1n|バツバツ¯|。これらは、次の2つの理由で同等ではありません。1nバツバツ¯2

まず、平方根演算子が線形ではない、またはa+ba+b
|バツバツ¯|=バツバツ¯2バツバツ¯2

n

1nバツバツ¯2

標準偏差が好ましい理由は、後で計算が複雑になったときに数学的に作業しやすいためです。


3
合計の絶対値は、一般に、絶対値の合計と同じではありません!平方、平方根、絶対関数のいずれも線形ではないため、関数を適用した後の合計は、合計を取得した後に関数を適用した場合と異なります。
アメリアBR 14年

@AmeliaBRあなたはもちろん完全に正しいです!
ltronneberg

しかし、残りの議論は良かったので、問題のあるステートメントを編集することにしました。
アメリアBR 14年

8

@ itsols、Kasperの重要な概念に追加しますThe mean deviation is rarely used。一般に、標準偏差が平均絶対偏差よりもばらつきの良い指標と一般に考えられているのはなぜですか?ので、算術平均が最小の和の軌跡である乗は、それからの偏差(絶対和ではありません)。

利他主義の程度を評価したいとします。そうすれば、人生の「一般的な状況」でどれだけのお金を与える準備ができているかを人に尋ねないでしょう。むしろ、あなたは彼が彼自身の生活のために最小限の可能な資源を持っているという、落ち着いた状況でそれをする準備ができている量を尋ねることを選ぶでしょう。すなわち、その量が個人の最小である状況での個人の利他主義の量は何ですか?

同様に、これらのデータのばらつきの程度はどのくらいですか?直観的には、このコンテキストでの限界まで最小化(または最大化)されたものが最適な測定指標です。コンテキストは「算術平均付近」です。その後、聖 この意味で偏差は最良の選択です。コンテキストが「中央値付近」の場合、| deviation |を意味します 中央値は、それからの絶対偏差の最小和の軌跡であるため、最良の選択です。


4
Locusに基づくSDの正当性は循環的です。算術平均に特別な重要性を置くことでSDを正当化しています。これが示すのは、SDが特別であることではなく、関係があることです。同様に、絶対値損失の最小合計の軌跡である中央値を重視することができます。SDがより頻繁に使用される本当の理由は、数学が扱いやすいためです...さらに、計算が簡単であるためです(中央値が「ソート」を必要とするため、および正方形は分岐ステートメントよりも計算が速いため)。哲学的に絶対偏差はより大きな価値があります。
サムテベスト

7

追加する価値のあることの1つは、30歳の教科書が標準偏差とは対照的に絶対平均偏差を使用した最も可能性の高い理由は、手動で計算しやすいことです(平方/平方根なし)。高校生は計算機に簡単にアクセスできるようになったため、標準偏差の計算を依頼しない理由はありません。

複雑なモデルのフィッティングで標準偏差の代わりに絶対偏差が使用される状況がまだいくつかあります。絶対偏差は、他のデータポイントの値に加算する前にその距離を2乗しないため、標準偏差と比較して極端な外れ値(平均/トレンドラインから遠い値)に対する感度が低くなります。モデルフィッティング手法はトレンドラインからの合計偏差を減らすことを目的としているため(どちらの方法の偏差が計算であっても)、標準偏差を使用するメソッドは、外れ値に近づくために大部分のポイントから離れるトレンドラインを作成する可能性があります。絶対偏差を使用すると、この歪みは減少しますが、トレンドラインの計算がより複雑になります。

これは、他の人が指摘したように、標準偏差には数学的な特性と関係があり、一般に統計上より有用であるためです。しかし、「有用」と「完璧」を混同しないでください。


1
好奇心が強いのですが、SDを平均絶対偏差よりも有用にする「数学の特性」とは何ですか?ところで優れた答え。
Weipeng L

@pongba標準偏差は、互いに打ち消し合う可能性のある複数の効果(正規分布データ)からのランダムな変動を想定する多くの統計モデルに固有のものです。これには、大規模な母集団からの調査を使用する場合のサンプリング精度(誤差範囲)が含まれます。データがこのモデルを満たしている場合、平均からSDの数から値を取得する確率を推定できます。個々のコンポーネントのSDから複数の独立した効果のSDを計算できます。参照:en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR

7

両方とも、データの平均までの距離を計算することにより、データの分散を測定します。

  1. 平均絶対偏差は、(それはまた呼ばれるノルムL1を使用しているマンハッタン距離または直線距離
  2. 標準偏差は、ノルムL2を使用している(とも呼ばれるユークリッド距離

2つの基準の違いは、標準偏差が差の2 乗を計算しているのに対し、平均絶対偏差は絶対差のみを見ていることです。したがって、他の方法の代わりに標準偏差を使用すると、大きな外れ値はより高い分散を作成します。ユークリッド距離も実際に頻繁に使用されます。主な理由は、標準偏差データが正規分布している場合に便利なプロパティがあります。したがって、この仮定の下では、使用することをお勧めします。しかし、人々はしばしば、実際には正規分布していないデータに対してこの仮定を行い、問題を引き起こします。データが正規分布していない場合でも、標準偏差を使用できますが、結果の解釈には注意が必要です。

最後に、分散の両方の測定値が、p = 1およびp = 2 のミンコフスキー距離の特定のケースであることを知っておく必要があります。pを増やすと、データの分散の他の測定値を取得できます。


このトピックに関するmath.stackexchangeの投稿もあります:math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience

6

それらは同じ概念を定量化しようとする同様の尺度です。通常はstを使用します。基礎となる分布について何らかの仮定を行うと、優れた特性を持つため、偏差が生じます。

一方、平均偏差の絶対値は、区別できず、簡単に分析できないため、数学的な観点からいくつかの問題を引き起こします。ここでいくつかの議論。


1

いいえ、あなたは間違っています。冗談だ。ただし、正式な標準ではなく平均偏差を計算したい理由は多くあります。このように、私は工学系の兄弟の視点に同意しています。確かに、定性的および定量的結論を表現している既存の作品と比較するために統計を計算している場合、私は標準に固執するでしょう。しかし、たとえば、私はいくつかの高速を実行しようとしていると仮定しますバイナリ、マシン生成データの異常検出アルゴリズム。私は最終的な目標として学術的な比較をした後ではありません。しかし、私はその平均に関する特定のデータの流れの「広がり」についての基本的な推論に興味があります。また、これを繰り返し、可能な限り効率的に計算することに興味があります。デジタル電子ハードウェアでは、常にダーティトリックをプレイします。乗算と除算をそれぞれ左シフトと右シフトに蒸留し、絶対値を「計算」するために、符号ビットを単にドロップします(必要に応じて1または2の補数を計算します) 、両方の簡単な変換)。そのため、私が選択できるのは、できる限り手っ取り早い方法で計算し、線形しきい値を計算に適用して、目的の時間枠での異常検出を高速化することです。


1
標準偏差は、オンラインアルゴリズムを使用して、いつでもできるように(平均絶対偏差を含む)効率的かつ簡単に計算できます。したがって、高速または単純な計算の要件はこれを除外しません(また、スプレッドの瞬間ベースの推定量を除外しません)。
whuber

0

実際、2つの測定値は異なります。前者はしばしば平均絶対偏差(MAD)と呼ばれ、後者は標準偏差(STD)です。計算能力とプログラムメモリが著しく制限されている組み込みアプリケーションでは、平方根計算を避けることが非常に望ましい場合があります。

簡単な大まかなテストから、ガウス分布のランダムサンプルのセットに対して、fが0.78から0.80の間のMAD = f * STDであるように思われます。


0

Amar Sagooにはこれを説明する非常に良い記事があります:[ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

直感的な理解で私自身の試みを追加するには:

平均偏差は、仮想の「平均」ポイントが平均からどれだけ離れているかを求める適切な方法ですが、すべてのポイントが互いにどれだけ離れているか、またはデータがどのように「広がっている」かを尋ねるのには実際には機能しません。

標準偏差は、すべてのポイントがどれだけ離れているかを尋ねているため、平均偏差よりも有用な情報が組み込まれています(これは、通常、平均偏差が標準偏差を理解するための踏み台としてのみ使用される理由です)。

良い例えはピタゴラスの定理です。ピタゴラスの定理は、水平距離と垂直距離を取り、それらを二乗し、平方を加算し、合計の平方根をとることにより、2次元の点間の距離を示します。

よく見ると、(人口)標準偏差の式は基本的にピタゴラスの定理と同じですが、2つ以上の次元があります(各点から平均までの距離を各次元の距離として使用)。そのため、データセット内のすべてのポイント間の「距離」を最も正確に把握できます。

その類推をもう少し進めるために、平均絶対偏差は、水平距離と垂直距離の平均をとるようなものであり、合計距離よりも短く、合計絶対偏差は水平距離と垂直距離を加算して長くなります実際の距離よりも


あなたが平均偏差と言うとき、OPが言っていた絶対偏差を意味すると思います。平均偏差は常に0であるため、用語は重要です。平均絶対偏差と標準偏差の差に関しては、両方とも平均からのすべてのポイントの偏差を伴います。平方根がありながら一つは、平均値からの絶対偏差の合計が含まれている場合二乗偏差の総和...
マイケルR. Chernick

0

標準偏差は、ランダムプロセスによるばらつきを表します。具体的には、多くの独立したプロセスの合計が原因であると予想される多くの物理的測定値は、正規分布(釣鐘曲線)を持っています。

正規確率分布は、与えられます Y=1σ2πeバツμ22σ2

Yバツμσ

言い換えると、標準偏差は、独立したランダム変数が合計されることから生じる用語です。したがって、ここで与えられた回答のいくつかに同意しません-標準偏差は、「後の計算でより便利になりやすい」という意味の偏差の単なる代替ではありません。標準偏差は正規分布現象の分散をモデル化する正しい方法です。

方程式を見ると、標準偏差が平均からの偏差を大きく重み付けしていることがわかります。直観的には、平均偏差は、平均からの実際の平均偏差を測定するものと考えることができますが、標準偏差は、平均の周りのベル型別名「正規」分布を説明します。したがって、データが正規分布している場合、標準偏差は、より多くの値をサンプリングすると、平均値の1つの標準偏差内で約68%が検出されることを示しています。

一方、ランダム変数が1つしかない場合、分布は長方形のように見え、範囲内のどこにでも値が現れる確率が等しくなります。この場合、平均偏差がより適切である可能性があります。

TL; DR基になる多くのランダムプロセスに起因するデータがある場合、または単純に正規分布していることがわかっている場合は、標準偏差関数を使用します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.