なぜ標準偏差の絶対値を取るのではなく、差を二乗するのですか?
自由度の平方根(母集団測定におけるxの数)に比例するユークリッド距離が分散の最適な測定であるため、xの平均との差を2乗します。
距離の計算
ポイント0からポイント5までの距離は?
- 5−0=5、
- |0−5|=5および
- 52−−√=5
わかりました、それは単次元なので、それは些細なことです。
ポイント0、0からポイント3、4のポイントの距離はどうですか?
一度に1つの次元にしか移動できない場合(都市ブロックなど)、数値を加算するだけです。(これはマンハッタン距離と呼ばれることもあります)。
しかし、一度に2つの次元に進むのはどうでしょうか?次に(高校で学んだすべてのピタゴラスの定理により)、各次元の距離を2乗し、平方を合計し、平方根を取得して、原点から点までの距離を求めます。
32+42−−−−−−√=25−−√=5
0、0、0のポイントからポイント1、2、2までの距離はどうですか?
これだけ
12+22+22−−−−−−−−−−√=9–√=3
これは、最初の2つのxの距離が、最後のxとの合計距離を計算するための区間を形成するためです。
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
次のように、各次元の距離の2乗の規則を拡張し続けることができます。これは、超次元空間での直交測定のために、ユークリッド距離と呼ばれるものに一般化されます。
distance=∑i=1nx2i−−−−−√
そして、直交二乗の合計は二乗距離です:
distance2=∑i=1nx2i
測定を別の測定に直交(または直角)にする理由は何ですか?条件は、2つの測定値の間に関係がないことです。これらの測定値が独立しており、個別に分散されるようにします(iid)。
分散
ここで、母集団の分散の式を思い出してください(そこから標準偏差を取得します)。
σ2=∑i=1n(xi−μ)2n
平均値を差し引いてデータをすでに0にセンタリングしている場合、次のようになります。
σ2=∑i=1n(xi)2n
そのため、分散は、距離の2乗を自由度の数(変数が自由に変化する次元の数)で割ったものであることがわかります。これは、測定ごとのへの平均寄与でもあります。「平均平方分散」も適切な用語です。distance2
標準偏差
次に、標準偏差があります。これは、分散の平方根にすぎません。
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
これは同等に、距離を自由度の平方根で割ったものです:
σ=∑i=1n(xi)2−−−−−−−√n−−√
平均絶対偏差
平均絶対偏差(MAD)は、マンハッタン距離、または平均との差の絶対値の合計を使用する分散の尺度です。
MAD=∑i=1n|xi−μ|n
繰り返しますが、データが中心にあると仮定すると(平均が差し引かれます)、マンハッタン距離を測定数で除算します。
MAD=∑i=1n|xi|n
討論
- 平均絶対偏差は、正規分布データセットの標準偏差のサイズの約0.8倍(実際には2/π−−−√)です。
- 分布に関係なく、平均絶対偏差は標準偏差以下です。MADは、標準偏差と比較して、極端な値を持つデータセットの分散を過小評価しています。
- 平均絶対偏差は外れ値に対してより堅牢です(つまり、外れ値は標準偏差ほど統計に大きな影響を与えません)。
- 幾何学的に言えば、測定値が互いに直交していない場合(iid)-たとえば、正の相関がある場合、平均絶対偏差は、ユークリッド距離に依存する標準偏差よりも記述統計量が優れています(ただし、これは通常良好と見なされますが) )。
この表は、上記の情報をより簡潔に反映しています。
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
コメント:
「平均絶対偏差は、正規分布データセットの標準偏差のサイズの約0.8倍です」という参考文献はありますか?私が実行しているシミュレーションは、これが間違っていることを示しています。
標準正規分布からの100万サンプルの10のシミュレーションを次に示します。
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
結論
分散の尺度を計算するときは、ユークリッド距離を活用できるため、分散のより良い記述統計が得られるため、平方差を好みます。比較的極端な値がある場合、ユークリッド距離は統計でそれを考慮しますが、マンハッタン距離は各測定に等しい重みを与えます。