分散を計算するための中央値の使用


10

非常に歪んだ1次元確率変数があります。この分布を正規化するために、平均ではなく中央値を使用します。私の質問はこれです:平均の代わりに式の中央値を使用して分布の分散を計算できますか?

つまり、交換できますか

Var(X)=[(Ximean(X))2]/n

Var(X)=[(Ximedian(X))2]/n

これの背後にある私の推論は、分散は分布の中心的な傾向に対する広がりの尺度であるため、それは問題ではないはずですが、このロジックを検証しようと考えています。



1
変数の中央値を中央値にし、それをMAD(中央値の絶対偏差)で割ることにより、中央値の標準化された分布を作成できます。
マイクハンター

4
あなたはこれを行うことができます!しかし、私はそれを非常に非標準と呼び、それをバックアップするには理論やシミュレーションが必要であり、直感だけではないことを示唆するのは公平だと思います。私はそれが標準の推定量よりも抵抗力弱くなると思います。たとえば、一般的な右スキューの場合、中央値は平均よりも小さくなるため、(中央値からの)最大二乗偏差はさらに大きくなります。主なポイントは、分散が非常に信頼できない場合、分散の異なるバージョンではなく、まったく異なる方法でスプレッドの測定を検討する必要がある場合があることです。
Nick Cox

1

1
このアプローチは本質的に一貫性がありません。平均を中央値で置き換えることによって対処される問題は、ロバストな推定の代わりに分散を使用することによって拡大されるためです。
whuber

回答:


8

平均は二乗誤差(またはL2ノルム、ここまたはここを参照)を最小化するため、平均からの距離を測定するための分散の自然な選択は二乗誤差を使用することです(二乗誤差の理由についてはこちらを参照)。一方、中央値は絶対誤差(L1ノルム)を最小化します。つまり、これはデータの「中間」にある値であるため、中央値からの絶対距離(いわゆる中央絶対偏差)は、中央値周辺の変動の程度のより良い測定。この関係の詳細については、このスレッドをご覧ください。

簡単に言うと、分散はデータの中心点をどのように定義するかについてMADとは異なり、これはその周囲のデータポイントの変動を測定する方法に影響します。値を二乗すると、外れ値が中心点(平均)に与える影響が大きくなりますが、中央値の場合、すべての点が同じ影響を与えるため、絶対距離の方が適切と思われます。

これは、簡単なシミュレーションでも表示できます。平均値と中央値からの距離の2乗の値を比較すると、総平方距離はほとんどの場合、中央値からの平均よりも平均から小さくなります。一方、総絶対距離は中央値から、平均値よりも小さくなります。シミュレーションを実行するためのRコードを以下に示します。

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

そのような「分散」を推定する際に平均ではなく中央値を使用する場合、これは、伝統的に行われているように平均を使用する場合よりも高い推定につながります。

ちなみに、L1とL2の基準の関係は、このスレッドのように、ベイジアンのコンテキストでも考慮できます

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.